场景
- 公司内部敏感数据,不希望在外网公开
- 大量的内部文档,不方便直观查阅,耗时耗力
- 无法快速的找到自己想要的【文档】
方案
- 将公司文档清洗后做成文档库
- 对文档库进行向量化,录入【向量数据库】
- 查找问题的时候,先对【向量数据库】进行检索,返回 n 个文档内容
- 做好脱敏
- 将 n 个文档内容给到 AI,让 AI 重新整理,返回人类容易识别的文本
- AI 做文本汇总、识别、聚合、整理
- AI 直接返回最终有效的符合用户期待的内容
- AI 可以对知识库的内容进行过滤、聚合、整理
- AI 可以对用户问题进行【力所能及】的扩充,这部分内容是【知识库】无法覆盖的。
其他方案
不使用 AI 模型
将清洗后的文档直接进行向量化后,也可以进行详细的检索,内容质量也会比较高。
缺点:
- 不使用 AI 模型,向量数据库检索到的内容是【原始数据】的【部分段落】,不易查阅
- 检索到的内容可能过多或者过少
- 过少:没啥问题。要么文档有问题、要么向量化不合格、要么相关问题真的在文档中没有记录
- 过多:人类无法很好的快速聚合、理解,耽误时间
不使用文档库
如【场景】章节说到的,AI 大模型是海量数据,但有可能缺少【公司文档】。它持有的数据,可能完全没有对应公司的数据记录。
直接使用 AI 大模型,细节问题基本无法使用。