跳到主要内容

Crawl4AI

Crawl4AI: 开源 LLM 友好型网络爬虫和抓取工具。

配置 Crawl4AI MCP 工具实例

在 XpertAI 平台上,可以直接将内置部署好的 Crawl4AI MCP 服务配置为一个 SSE 类型的 MCP 工具实例,供智能体和工作流调用。

信息

你还可以在 MCP 工具模版市场中找到 Crawl4AI 并一键创建。

配置方法如下:

  • 配置示例 在 XpertAI 平台添加 MCP 工具时,设置:

    type: sse
    url: "http://crawl4ai:11235/mcp/sse"
    name: crawl4ai
  • 使用方式 配置完成后,智能体或工作流在编排时即可直接调用 crawl4ai MCP 工具提供的能力(如 md, html, screenshot, pdf, crawl, ask 等)。

使用场景

场景一:自动化网页内容采集智能体(「资料摘要机器人」)

目标:帮助用户通过一个智能代理提交网页链接,自动获取页面的 Markdown 文本摘要。

步骤要点

  1. 用户输入链接 → 智能体触发 MCP 的 md 工具,将目标网页转换为 Markdown 文本。
  2. 智能体接收并展示摘要,同时可根据用户需要进一步提取重点内容。

总结示意

用户:请帮我总结 https://example.com 的主要内容。
智能体 → 调用 MCP 工具 `md` 获取 Markdown 格式内容
智能体 → 将摘要返回给用户

场景二:多媒体内容捕捉与分析流程(「报告生成器」)

目标:用户输入目标 URL 后,智能体自动抓取网页截图与 PDF,并在 XpertAI 平台生成最终报告。

实现步骤

  1. 用户输入链接 → 智能体依次调用:

    • screenshot:生成网页截图
    • pdf:导出网页 PDF
    • 可选:askhtml → 提取结构化文本内容
  2. 智能体将截图、PDF 与文本整合为一份可分享的报告。

流程示意

用户:请帮我抓取 https://example.com 页面并生成报告。
→ 智能体调用 MCP:
1⃣ 调用 `screenshot` 获取页面截图
2⃣ 调用 `pdf` 获取页面 PDF
3⃣ 可选:调用 `ask`/`html` 获取结构化文本或 Markdown

智能体:下面是页面截图和 PDF 文件,提取到的摘要如下...(展示内容)

跨场景共通配置说明