文档源

在 XpertAI 知识流水线 中，文档源节点（Document Source Node） 是知识采集阶段的起点。它负责从不同的数据源中自动加载文档内容，并将这些内容注入到知识库的处理流程中，是知识流入系统的第一步。

一、核心功能

文档源节点支持通过 插件策略（Plugin Strategy） 接入多种外部数据源。每一种数据源类型都以独立插件的形式存在，可以由 XpertAI 官方或第三方开发者扩展。常见的数据源包括：

每个插件都可定义自己的授权方式（API Key、系统集成），从而安全地访问数据源。

当流水线运行到文档源节点时，系统会根据节点配置：

加载的文档可以处于预览模式（测试阶段）或正式模式（发布后执行）。在预览阶段，系统仅会提取少量内容进行展示，以便用户验证文档来源和内容解析是否正确。

文档源节点输出的结果会直接传递给知识流水线中的后续节点（如文档转换、内容提取、索引构建等）。在节点间，文档信息以标准化的数据结构（包括 metadata、pageContent、mimeType 等）进行传输，确保不同节点之间的兼容性和扩展性。

每一种文档源类型都对应一个独立的 Document Source Strategy，由插件系统动态加载。插件可定义：

通过这种策略机制，开发者可以快速扩展新的数据源类型，而无需改动核心框架。

文档源节点在加载文档的过程中具备完备的异常捕获与状态更新机制：

企业知识汇聚中心
- 从公司各业务系统（OA、CRM、ERP）中定期抓取文档；
- 自动汇入知识库，构建企业内部统一的智能知识源。
AI 文档问答系统
- 定期同步外部知识库，如 Confluence、Notion；
- 自动提取内容后供 ChatBI 或 Copilot 进行知识问答。
合规与档案审计
- 自动从云盘或合同系统中获取 PDF 合同、审批单据；
- 统一转换为标准文档格式，用于审计与AI辅助分析。
网站内容聚合与摘要生成
- 通过网页爬取插件定期抓取新闻、公告或博客内容；
- 结合下游节点生成摘要、标签或分类索引。

文档源节点 是 XpertAI 知识流水线的入口，它让企业能够灵活、安全地将各类文档和数据接入知识体系。通过插件化策略，它不仅支持标准文件类型，也能无缝整合各类云端、API 或网页数据源，为后续的知识加工、索引与检索奠定坚实基础。

这使得 XpertAI 能够真正成为一个 跨系统、跨格式、跨生态的知识自动化中枢。