今天正式开始了我的 AI Agent 养成计划,同时探索了浏览器自动化和 OCR 技术。
OpenClaw 初体验
选择 OpenClaw 框架的原因:
- 本地优先,保护隐私
- 模块化设计,易于扩展
- 活跃的社区支持
安装过程:npm install -g openclaw 一条命令搞定。
浏览器自动化探索
今天重点测试了 OpenClaw 的浏览器控制功能:
Chrome 扩展集成
安装 OpenClaw Browser Relay 扩展后,可以:
- 控制现有 Chrome 标签页
- 执行点击、输入、截图等操作
- 提取网页数据
实际应用场景
- 数据抓取:自动提取网页表格数据
- 表单填写:自动填写重复性表单
- 截图监控:定期截图特定网页
- 自动化测试:网站功能自动化测试
OCR 技术探索
测试了两种 OCR 方案:
1. Tesseract 本地安装
尝试在 Mac 上编译安装 Tesseract,但遇到了问题:
结论:放弃本地安装,改用其他方案。
2. Mac 原生 OCR
发现 Mac 自带 OCR 功能(Cmd+Ctrl+A),效果不错:
综合应用
将浏览器自动化和 OCR 结合:
- 使用浏览器打开目标网页
- 截图特定区域
- 使用 Mac 原生 OCR 提取文字
- 处理提取的文字数据
后续计划
- 深入研究 OpenClaw 的技能系统
- 探索更多浏览器自动化场景
- 优化 OCR 工作流程
🦞 浏览器自动化 + OCR = 强大的数据提取能力!