文档知识库
节点定位
知识库节点(Knowledge Base Node)是 XpertAI 知识流水线中的核心处理环节,负责将经过前序节点(如文档源、文档转换、分块、图像理解等)处理后的内容,正式纳入知识库体系中,并通过嵌入向量化、模型索引和任务跟踪等机制,完成知识数据的持久化与可检索化。
它是整个知识流水线的“落地环节”,决定了知识内容能否被高效存储、快速召回,并支持后续的问答、分析和智能体推理。
核心功能
1. 知识入库与向量化索引
知识库节点会自动接收来自上游节点输出的结构化文档(包括文本、分块结果、图像识别内容等),并将其嵌入到指定的向量数据库中。 在此过程中,系统会调用已配置的 嵌入模型(Embedding Model),将文档内容转化为语义向量,实现基于语义的相似度检索。
这一步是知识库智能化的关键,使得 AI 能够理解内容间的语义关联,而不仅仅依赖关键词匹配。
2. 模型配置与知识库同步
知识库节点与知识库实体深度绑定,节点配置中指定的模型(如嵌入模型、重排序模型、视觉模型)会在流水线发布时自动同步到知识库设置中。
- 嵌入模型(Embedding Model):用于生成知识向量。
- 重排序模型(Rerank Model):用于提升召回结果的排序精度。
- 视觉模型(Vision Model):用于知识库中包含图像内容时的视觉理解与语义增强。
这一设计确保知识流水线编排与知识库行为一致,实现模型配置的自动化与一致性。
3. 并发处理与任务监控
在知识嵌入阶段,知识库节点会对多个文档并行处理,并监控每个文档的处理状态(如“处理中”、“已完成”、“错误”、“取消”等)。 系统内置任务跟踪机制(Tasks),可实时记录:
- 文档处理进度(progress)
- 嵌入向量数量与批量进度
- 错误信息与重试状态
- 用户主动取消的任务
通过可视化的统计与日志输出,用户能清晰掌握知识入库的执行情况与资源消耗。
4. 令牌与资源使用统计
每次文档嵌入时,系统会根据内容长度自动估算 Token 消耗量,并将使用记录同步到对应的模型提供方(Copilot Provider)。 这不仅用于计费管理,也可帮助企业监控模型资源的使用效率,为后续优化提供依据。
5. 校验与发布
知识库节点在流水线保存时会自动执行配置校验(Validation):
- 检查输入节点是否配置正确且无重复;
- 校验是否指定嵌入模型及其提供商;
- 验证重排序模型、视觉模型的配置完整性。
只有通过校验的节点才能被发布,确保知识库设置与流水线一致,避免生产环境中出现配置缺失或模型不可用的情况。
总结
知识库节点是 XpertAI 知识流水线的“智能入库枢纽”,它不仅完成知识向量化的关键环节,更承载着模型配置同步、任务管理与数据一致性维护等职责。 通过这一节点,XpertAI 实现了从“文档数据”到“智能知识”的关键飞跃,为企业级知识管理和多智能体协作提供了高效、可控、可追踪的基础设施。