浏览器自动化项目:OmniParser、ScrapeGraphAI、Magnitude、WebRPA、OpenBrowserClaw
关于浏览器之前写过很多篇Chrome浏览器使用技巧AI浏览器概述Atlas、Comet、Fellou、BrowserOS浏览器自动化Puppeteer、Playwright、Skyvern、StageHandAI浏览器技术栈Browser Use、Computer Use、Mobile Use本文继续汇总一些浏览器自动化相关的开源项目。OmniParser技术报告微软开源GitHub24.6K Star2.2K Fork基于Python把任意UI截图解析成结构化的可操作元素支持与GPT-4V等主流多模态大模型集成让AI能看懂界面。HF模型。接收UI截图和用户任务描述输出解析后的截图在原图上叠加边界框和数字ID标记出每一个可交互元素的位置局部语义信息提取屏幕上的文本内容并为图标生成自然语言描述底层使用模型YOLO负责检测屏幕上的可交互区域按钮、图标、输入框等速度快、精度高Florence微软自研视觉模型负责图标的语义理解和描述生成BLIP2补充视觉-语言对齐能力增强对复杂UI元素的理解实战gitclone https://github.com/microsoft/OmniParser.gitcdOmniParser conda create-nomnipython3.12conda activate omni pipinstall-rrequirements.txt# 从HF下载模型python gradio_demo.pyScrapeGraphAI官网开源GitHub23.3K Star2k ForkPython库专为网页和本地文档HTML、JSON、XML、Markdown等设计的数据提取工具。解决传统爬虫的痛点规则复杂、网站变动频繁、维护成本高。借助LLM能根据自然语言提示自动生成抓取逻辑。AI助手输入需求输出结构化数据支持多语言文档和集成如 Langchain。一种基于节点的管道系统能处理单页、多页甚至生成脚本。特性智能单页抓取(SmartScraperGraph)只需提示和URL就提取指定信息。如从公司官网拉取描述、创始人和社会媒体链接。支持JSON结构化输出。多页/搜索抓取 (SearchGraph, OmniSearchGraph)能从搜索引擎top N结果中批量提取。想象爬取多个产品页的价格数据一键搞定。脚本和语音生成 (ScriptCreatorGraph, SpeechGraph)不止输出数据还能生成Python脚本帮你自动化未来抓取。SpeechGraph甚至把结果转成音频文件适合做播客或无障碍应用。多格式支持本地文件如JSON、XML、CSV也能处理。MarkdownifyGraph把网页转Markdown完美适配笔记工具。LLM集成兼容OpenAI、Groq、Ollama、Azure等。本地跑Ollama零成本线上用Groq超快。实战安装pipinstallscrapegraphai# 抓取网页内容playwrightinstallPython SDK集成importjsonfromscrapegraphai.graphsimportSmartScraperGraph graph_config{llm:{model:ollama/llama3.2,model_tokens:8192,format:json,},verbose:True,headless:False,}smart_scraper_graphSmartScraperGraph(promptExtract useful information from the webpage, including a description of what the company does, founders and social media links,sourcehttps://scrapegraphai.com,configgraph_config)resultsmart_scraper_graph.run()print(json.dumps(result,indent4))仓库用Repomix打包成单Markdown方便分析。核心在smart_scraper_graph.py定义基类和具体Graph。每个Graph继承openai.py处理API调用。统一接口切换模型只需改config。utils/工具箱。包括清理 HTML、代理旋转、token 计算等。CI用GitHub Actions。.env.example到ollama pull llama3.2下载模型。新建 python scrape.py输出 JSON 结果。OpenAI 用户换 config 为 headless: False 看浏览器过程。实际应用场景从数据分析到 AI 代理ScrapeGraphAI 不止玩具它在实战场上发光。举几个场景市场调研用 SearchGraph 抓取竞品网站的价格/评论生成报告。结合 Pandas 分析帮电商监控市场。内容聚合MarkdownifyGraph 转网页为 Markdown集成 Notion 或 Obsidian。扩展建 RSS 替代自动汇总新闻。AI 代理集成接 Langchain/CrewAI建聊天机器人。场景用户问“这个公司创始人是谁”代理用 ScrapeGraphAI 实时抓取回答。批量处理SmartScraperMultiGraph 处理 CSV 列表的 URLs适合爬取 GitHub repos 数据做趋势分析。进阶玩法加OCR节点抓取图片文本或集成VectorDB建知识图谱。Magnitude大多数浏览器自动化工具如Selenium、Playwright依赖于DOM结构来定位元素存在两大痛点依赖DOM结构若页面元素的属性或层级发生变化脚本就会失效指令僵化只能执行固定流程遇到意外情况无法自主调整Magnitude凭借两大创新旨在解决上述问题视觉优先架构通过多模态LLM直接分析页面截图基于像素坐标执行操作完全不依赖DOM结构可控且可重复的自动化支持从精细操作到复杂流程的不同抽象级别结合自定义提示词既灵活又可预测。Magnitude推出项目官网作为一款基于AI视觉的开源GitHub4K Star223 ForkWeb自动化框架摆脱传统自动化工具对DOM结构的依赖通过模拟人类视觉和交互方式来操控浏览器。不是通过查找元素的ID或类名来操作页面而是像人一样看界面并做出反应。在WebVoyager评测中获得94%的高分这意味着它在处理各种复杂Web任务时具有接近人类的能力。提供四大核心能力覆盖Web自动化的全场景需求智能导航Navigate理解任何网页界面并规划操作操作路径精准交互Interact通过鼠标和键盘执行精确操作数据提取Extract智能提取结构化数据结果验证Verify内置测试运行器支持强大的视觉断言适用场景前端Web自动化测试任务在无API的应用之间进行集成网页数据提取和分析跨应用数据同步和工作流自动化作为自定义浏览器代理的构建块辅助开发人员进行重复性操作实战创建新项目并引导完成Magnitude的设置生成一个可立即运行的示例脚本npx create-magnitude-app在现有项目中使用测试运行器npmi --save-dev magnitude-testnpx magnitude init初始化后会生成magnitude.config.ts配置文件example.mag.ts示例测试文件API 设计非常直观支持从高层任务到底层操作的各种需求# 处理高层任务awaitagent.act(创建一个任务,{data:{title:使用 Magnitude,description:运行npx create-magnitude-app并跟随指示,},});# 也能处理底层操作awaitagent.act(将使用 Magnitude拖拽到进行中列的顶部);# 智能提取数据consttasksawaitagent.extract(列出进行中的任务,z.array(z.object({title:z.string(),description:z.string(),difficulty:z.number().describe(难度评级1-5)})),);test(使用有效凭据登录,{url:https://qa-bench.com}).step(登录应用).data({username:test-usermagnitude.run}).secureData({password:test}).check(能看到仪表盘).step(创建新公司).data(前两个值随意其余用默认).check(公司添加成功);WebRPA开源GitHub1.6K Star146 Fork可视化网页自动化工具。功能特性开箱即用免配环境自带Python 3.13和Node.js环境下载解压即可运行彻底告别繁琐的环境配置。260内置模块涵盖网页操作、数据采集JSON/正则/Excel、基于FFmpeg的50多种音视频格式转换。只需要像搭积木一样把它们拖拽连线全流程不用敲一行代码。底座浏览器自动化底层基于Playwright支持CSS选择器和XPath定位AI模型支持OpenAI、智谱、通义千问。触发器系统支持Webhook、定时任务、文件监控、甚至是热键监听等10种触发方式。OpenBrowserClaw官网开源GitHub583 Star79 Fork纯浏览器原生的个人AI助手零基础设施浏览器就是服务器。技术极致的本地存储与任务调度状态存储使用IndexedDB安全存储聊天记录和系统配置。文件系统巧妙利用OPFS浏览器本地私有文件系统为AI提供工作目录。AI可以自由读写文件摆脱Node.js依赖。主线程调度自带任务调度器只要网页开着定时自动化任务就会精准执行。浏览器里的原生Linux沙箱AI助手需要执行系统命令来完成复杂任务。OpenBrowserClaw通过WASMWebAssembly技术直接在浏览器里启动Alpine Linux虚拟机Bash工具LLM可在这个沙箱里直接执行shell命令JS环境支持在独立Web Worker中安全执行JS脚本代码纯 HTTPS驱动的Telegram无缝接入无需配置复杂Webhook或反向代理。它完全通过浏览器发起HTTPS请求与Telegram Bot互通。浏览器在后台挂着你就能在手机上随时随地下发任务。对比对比维度NanoClaw(传统架构)OpenBrowserClaw(纯前端架构)运行环境Node.js进程纯浏览器标签页沙箱环境Docker容器Web WorkerWASM虚拟机数据库SQLiteIndexedDB部署方式自建服务器部署任意静态托管(如GitHub Pages)实战gitclone https://github.com/your-repo/openbrowserclaw.gitcdopenbrowserclawnpminstallnpmrun dev自动打开浏览器新标签页http://localhost:5173填写API Key。密钥使用AES-256-GCM算法加密保存在浏览器本地绝不上传任何第三方服务器。想让AI帮你执行底层系统命令你需要下载v86的WASM文件和Alpine系统镜像并将它们放到项目的指定目录中。public/assets/v86.wasm public/assets/v86/libv86.js public/assets/alpine-rootfs.ext2