2025-03-07 13:42发布于北京新智元官方账号 【新智元导读】OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。 图形用户界面(GUI)自动化需要智能体具备理解和交互用户 ...
微软OmniParser V2截图转结构化元素,检测更准,延迟降60%。 【导读】OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。 图形用户界面(GUI)自动化需要智能体具备理解 ...
微软近日宣布了一项重大更新,其OmniParser工具已升级至V2.0版本,这款基于纯视觉的GUI智能体解析工具,专门用于识别和解析屏幕上的可交互图标。通过与GPT-4V等先进模型的结合,OmniParser的识别能力得到了显著提升。 据微软官方消息,OmniParser V2.0在2月12日正式 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果