发表时间:2024-11-01 10:58:35
文章作者:小编
浏览次数:
AI解放碳基生物双手,甚至能让你的手机自己玩自己!
你没听错——这其实就是移动任务自动化。
在AI飞速发展下,这逐渐成为一个新兴的热门研究领域。
移动任务自动化利用AI精准捕捉并解析人类意图,进而在移动设备(手机、平板电脑、车机终端)上高效执行多样化任务,为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。
- 帮助视障人群用户完成导航、阅读或网上购物
- 辅助老年人使用手机,跨越数字鸿沟
- 帮助车主在驾驶过程中完成发送短信或调节车内环境
- 替用户完成日常生活中普遍存在的重复性任务
- ……
妈妈再也不嫌重复设置多个日历事项会心烦了。
最近,来自西安交通大学智能网络与网络安全教育部重点实验室 (MOE KLINNS Lab)的蔡忠闽教授、宋云鹏副教授团队(团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等),基于团队最新AI研究成果,创新性提出了基于视觉的移动设备任务自动化方案VisionTasker。
这项研究不仅为普通用户提供了更智能的移动设备使用体验,也展现出了对特殊需求群体的关怀与赋能。
基于视觉的移动设备任务自动化方案
团队提出了VisionTasker,一个结合基于视觉的UI理解和LLM任务规划的两阶段框架,用于逐步实现移动任务自动化。
该方案有效消除了表示UI对视图层次结构的依赖,提高了对不同应用界面的适应性。
值得注意的是,利用VisionTasker无需大量数据训练大模型。
VisionTasker从用户以自然语言提出任务需求开始工作, Agent开始理解并执行指令。
具体实现如下:
1、用户界面理解
VisionTasker通过视觉的方法做UI理解来解析和解释用户界面。
首先Agent识别并分析用户界面上的元素及布局,如按钮、文本框、文字标签等。
然后,将这些识别到的视觉信息转换成自然语言描述,用于解释界面内容。
2、任务规划与执行
接下来,Agent利用大语言模型导航,根据用户的指令和界面描述信息做任务规划。
将用户任务拆解为可执行的步骤,如点击或滑动操作,以自动推进任务的完成。
3、持续迭代以上过程
每一步完成后,Agent都会根据最新界面和历史动作更新其对话和任务规划,确保每一步的决策都是基于当前上下文的。
这是个迭代的过程,将持续进行直到判断任务完成或达到预设的限制。
用户不仅能从交互中解放双手,还可以通过可见提示监控任务进度,并随时中断任务,保持对整个流程的控制。
首先是识别界面中的小部件和文本,检测按钮、文本框等元素及其位置。
对于没有文本标签的按钮,利用 CLIP 模型基于视觉设计来推断其可能功能。
随后,系统根据 UI 布局的视觉信息进行区块划分,将界面分割成多个具有不同功能的区块,并对每个区块生成自然语言描述。
这个过程还包括文本与小部件的匹配,确保正确理解每个元素的功能。
最终,所有这些信息被转化为自然语言描述,为大语言模型提供清晰、语义丰富的界面信息,使其能够有效地进行任务规划和自动化操作。
实验评估
实验评估部分,该项目提供了对三种UI理解的比较分析,分别是:
- GPT-4V
- VH(视图层级)
- VisionTasker方法
△
对比显示,VisionTasker在多个维度上比其他方法有显著优势。
此外,在处理跨语言应用时也表现出了良好的泛化能力。
△
表明VisionTasker的以视觉为基础的UI理解方法在理解和解释UI方面具有明显优势,尤其是在面对多样化和复杂的用户界面时尤为明显。
△
文章还进行了单步预测实验,根据当前的任务状态和用户界面,预测接下来应该执行的动作或操作。
结果显示,VisionTasker在所有数据集上的平均准确率达到了67%,比基线方法提高了15%以上。
真实世界任务:VisionTasker vs 人类
实验过程中,研究人员设计了147个真实的多步骤任务来测试VisionTasker的表现,这些任务涵盖了国内常用的42个应用程序。
与此同时,团队还设置了人类对比测试,由12名人类评估者手动执行这些任务,然后VisionTasker的结果进行比较。
结果显示,VisionTasker在大多数任务中能达到与人类相当的完成率,并且在某些不熟悉的任务中表现优于人类。
△实际任务自动化实验的结果 “Ours-qwen”是指使用开源Qwen实现VisionTasker框架,”Ours”表示使用文心一言作为LLM
团队还评估了VisionTasker在不同条件下的表现,包括使用不同的大语言模型(LLM)和编程演示(PBD)机制。
VisionTasker 在大多数直观任务中达到了与人类相当的完成率,在熟悉任务中略低于人类但在不熟悉任务中优于人类。
△
结论
作为一个基于视觉和大模型的移动任务自动化框架,VisionTasker克服了现阶段移动任务自动化对视图层级结构的依赖。
通过一系列对比实验,证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。
它在4个不同的数据集上都展示了高效的UI表示能力,表现出更广泛的应用性;并在Android手机上的147个真实世界任务中,特别是在复杂任务的处理上,表现了出超越人类的任务完成能力。
此外,通过集成编程演示(PBD)机制,VisionTasker在任务自动化方面有显著的性能提升。
目前,该工作已以正式论文的形式发表于2024年10月13-16日在美国匹兹堡举行的人机交互顶级会议UIST(The ACM Symposium on User Interface Software and Technology)。
UIST是人机交互领域专注于人机界面软件和技术创新的CCF A类顶级学术会议。
关注多享有数,持续为您分享行业热点要闻!
四川多享信息技术有限公司是一家专注于数字化服务、系统开发、新媒体营销、农村电商的专业互联网公司,公司位于成都高新区天府二街,成立16年,拥有丰富开发经验,至今已助力5000+中小企业实现数字化转型升级。
研发了B2C商城系统、私域电商系统、分销商城系统、S2B2b2C供应链电商系统、小程序商城系统等,支持中台云仓、供应商、自营商城、直播、短视频、分销、零售商管理、运营商管理、营销工具、数据分析、会员储值、积分商城等功能,帮助企业实现数字化转型,助力降本增效,获取更多收益!
- 12-062024中国移动供应链生态合作大会在湘举行
- 12-06红旗连锁与华为云达成合作共识,致力企业数字化升级
- 12-05「慢吞吞」的微信,「造流量」的抖音,「流量平权」的小红书,谁能真正驾驭未来的流量规则?
- 12-05我国正推动工业互联网标识解析体系加快落地
- 12-04美团稳健增长的核心:生态共赢
- 12-04智能体风口来了?华米OV期望用AI改命
- 12-03复盘便利店这五年,零售商要跟供应链构建怎样的关系?
- 12-03营销 3.0 时代如何搞流量?
- 12-02微信小店到底要做什么?
- 12-025G规模化应用“扬帆”行动升级方案发布
- 11-29发布了,搭载了,但原生鸿蒙这事儿还没完
- 11-29用户领钱、商家免费,支付宝 “ 碰一碰 ” 在下一盘大棋
- 11-28小红书2023年度运营大复盘
- 11-28360上线「纳米搜索」App,周鸿祎将与百度上演「AI 搜索大战」
- 11-275G+工业互联网,10城
- 11-27抖快电商的突围困境
- 11-26用户分层运营中怎么做好KOC等关键人群的运营?
- 11-26微信小店连放大招
- 11-25乌镇世界互联网大会“关键词”:AI、AIGC和算力
- 11-252024年“AI+零售”行业研究报告