步骤一:创建知识流水线
点击工作空间顶部菜单里的知识库,在左侧点击通过知识流水线创建知识库,你可以通过以下 3 种方式来创建知识流水线。
方式一:从零开始构建
点击空白知识流水线即可从零开始构建自定义知识流水线。 如果你需要根据数据特点和业务需求自定义处理策略,建议选择从空白知识流水线开始。
方式二:通过模版创建
XpertAI 提供了流水线模版, 模版的卡片信息包含了知识库名称、简介描述。
内置流水线为预置的知识流水线模版,针对常见的文档数据结构进行优化,你可以根据不同的文档类型和使用场景选择适合的处理方式。点击安装即可开始使用。
模版类型
| 模版名称 | 分段结构 | 索引方式 | 检索设置 | 说明 |
|---|---|---|---|---|
| 基础模式(General Mode) | 通用模式 | 向量 | 向量搜索 | 将文档内容分割成较小的段落块(通用块),直接用于匹配用户查询和检索。 |
| 包含图片和表格的详细 PDF | 通用模式 | 向量 | 向量搜索 | 专为 PDF、DOCX 和 PPTX 等复杂文件格式设计,将其转换为 Markdown 格式以便更好地进行信息处理。 |
方式三:导入知识流水线
在完成知识流水线的编排后,你可以保存和导出知识流水线,并分享给其他人。知识库使用者可以导入知识流水线,快速复用已构建的知识流水线,并在此基础上针对不同情景或需求进行修改。 与数字专家 DSL 类似,知识流水线基于相同的 YAML 格式标准,用于定义知识库内的处理流程和配置。
知识流水线包含以下内容:
| 名称 | 包含 |
|---|---|
| 数据源 | 文件上传、网站、在线文档和在线网盘 |
| 数据处理流程 | 文档提取、内容分块、图像理解和清洗策略 |
| 知识库储存配置 | 索引、检索设置和存储参数 |
| 节点连接 | 节点间的连接和处理顺序 |
| 用户输入表单 | 自定义的触发器参数输入字段(如有配置) |