场景

  1. 公司内部敏感数据,不希望在外网公开
  2. 大量的内部文档,不方便直观查阅,耗时耗力
  3. 无法快速的找到自己想要的【文档】

方案

  1. 将公司文档清洗后做成文档库
  2. 对文档库进行向量化,录入【向量数据库】
  3. 查找问题的时候,先对【向量数据库】进行检索,返回 n 个文档内容
    1. 做好脱敏
  4. 将 n 个文档内容给到 AI,让 AI 重新整理,返回人类容易识别的文本
    1. AI 做文本汇总、识别、聚合、整理
    2. AI 直接返回最终有效的符合用户期待的内容
  1. AI 可以对知识库的内容进行过滤、聚合、整理
  1. AI 可以对用户问题进行【力所能及】的扩充,这部分内容是【知识库】无法覆盖的。

其他方案

不使用 AI 模型

将清洗后的文档直接进行向量化后,也可以进行详细的检索,内容质量也会比较高。

缺点:

  1. 不使用 AI 模型,向量数据库检索到的内容是【原始数据】的【部分段落】,不易查阅
  2. 检索到的内容可能过多或者过少
    1. 过少:没啥问题。要么文档有问题、要么向量化不合格、要么相关问题真的在文档中没有记录
    2. 过多:人类无法很好的快速聚合、理解,耽误时间

不使用文档库

如【场景】章节说到的,AI 大模型是海量数据,但有可能缺少【公司文档】。它持有的数据,可能完全没有对应公司的数据记录。

直接使用 AI 大模型,细节问题基本无法使用。