跳到主要内容

Browser-use 工具

PRO

此功能在专业版中支持。

浏览器使用 是一个为 Xpert 智能体设计的浏览器自动化任务执行工具。它封装了与 browser-use 开源框架的集成能力,允许大模型 Agent 在沙盒环境中调用真实浏览器,以自动化方式完成指定的网页操作任务。

该工具适用于需要通过浏览器自动访问网站、提取信息、填写表单、点击按钮等任务场景,为具备通用执行能力的大模型提供浏览器操作的延展能力。

功能特性

  • ✅ 支持通过自然语言描述的 task 任务自动执行浏览器操作
  • ✅ 支持自定义大模型和 API 接入配置
  • ✅ 与 browser-use 开源框架无缝集成
  • ✅ 自动追踪并记录执行过程(历史、录像、Trace)
  • ✅ 支持多步任务与 Agent 推理流程结合
  • ✅ 支持运行参数配置,如是否开启录屏、是否启用视觉模型等
  • ✅ 支持在 Agentic Workflow 中使用

使用说明

工具参数配置

  • 指定浏览器任务(LLM 提供)
  • 配置 LLM 模型
  • 浏览器执行参数(是否录屏、是否使用视觉模型、超时时间等)

与 Sandbox 中的 browser-use 通信

工具通过 EventSource 建立 SSE 流,与 Sandbox 服务通信,向 /operator/stream 发起浏览器任务流式执行。

实时接收事件

在任务执行过程中,工具会监听并解析 browser-use 发回的事件消息:

  • 每一步执行的思考(thoughts
  • 当前页面 URL
  • 是否出错(errors
  • 是否完成(包含 done 字样的消息)

解析出的中间事件会实时分发给前端或调试界面,用于展示执行状态。

最终结果返回

当任务完成(检测到 done),工具会从事件中提取 final_result 字段作为执行结果返回。

返回值

返回字符串结果,为大模型 Agent 执行任务后的总结或操作结果描述。

高级配置

配置项描述
copilotModel当前使用的 LLM 模型及其 Provider 信息
llm_temperature控制大模型采样的温度(默认为 0.5)
enable_recording是否启用浏览器录屏功能(默认开启)
max_steps浏览器任务最多执行的步骤数(默认 100)
use_vision是否启用视觉识别能力(如页面截图理解)
timeout任务超时时间

应用场景示例

  • 在网页中搜索指定内容并汇总(如新闻、股价、报告)
  • 在复杂网站中完成多步交互(如查询信息并导出)
  • 用于大型 Agent 系统中模拟真实人类的网页操作流程

注意事项

  • 本工具依赖后端的 browser-use 运行环境(即 Sandbox),需确保其可访问并正常启动。
  • 工具返回的结果依赖于浏览器执行任务的正确性与模型理解的准确性。
  • 当前默认使用 headless 模式运行浏览器。
  • 工具为大模型设计,因此 task 的表达方式应为自然语言清晰描述意图。

相关链接