-
Notifications
You must be signed in to change notification settings - Fork 2.6k
Closed
Description
MaxKB Version
v1 & v2
Please describe your needs or suggestions for improvements
当前知识库有两个可改进的地方:
一是 QA 模式下把 title 和 content 连接起来整体做向量化
二是表格分段是把所有列拼在一起整体做向量化
表格类数据各列有明确的含义区别,现在这种做法降低了检索准确度。
建议允许针对性的做向量化:
一种选择是:表格和 QA 模式下,可以指定要向量化的列,其它列仅在检索时作为额外的json信息(类似 metadata)返回。
另一种选择是参考 langchain Document,给每个分段加一个 json 格式的 metadata,用户可以手动将表格中不参加向量化的列存储在里面。
这样做的好处:
生成的向量更有针对性,特别是对于列比较多的表格
Please describe the solution you suggest
No response
Additional Information
No response
Metadata
Metadata
Assignees
Labels
No labels