Skip to content

[Feature] 表格类文件支持细粒度控制 #4633

@liunux4odoo

Description

@liunux4odoo

MaxKB Version

v1 & v2

Please describe your needs or suggestions for improvements

当前知识库有两个可改进的地方:
一是 QA 模式下把 title 和 content 连接起来整体做向量化
二是表格分段是把所有列拼在一起整体做向量化

表格类数据各列有明确的含义区别,现在这种做法降低了检索准确度。

建议允许针对性的做向量化:
一种选择是:表格和 QA 模式下,可以指定要向量化的列,其它列仅在检索时作为额外的json信息(类似 metadata)返回。
另一种选择是参考 langchain Document,给每个分段加一个 json 格式的 metadata,用户可以手动将表格中不参加向量化的列存储在里面。

这样做的好处:
生成的向量更有针对性,特别是对于列比较多的表格

Please describe the solution you suggest

No response

Additional Information

No response

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions