沙巴体育app中国官网下载 南京大学、商汤科技等多机构聚首出品:手机AI助手的“开源创新”来了
这项由南京大学、商汤科技、南洋理工大学、上海东谈主工智能实验室、香港大学、西安交通大学聚首开展的沟通,以预印实质式发布于2026年4月,论文编号为arXiv:2604.15093,有风趣风趣深刻了解的读者可通过该编号在arXiv平台查阅完整原文。
手机屏幕上那些繁琐的操作,有莫得可能交给AI来作念?开放某个App、找到某个诞生、按照你的条目完成一系列法子——这类"手机助手"的想法并不簇新,但真实能用的系统,当年险些是各大科技巨头的专属领地。这篇论文要讲的,就是一群沟通者怎么衰退这谈壁垒,用开源的神气为普通沟通者和开采者铺平谈路。
沟通者们给我方的后果起名叫"OpenMobile"。这个名字里的"Open"不是噱头,而是一种宣言:他们把西宾AI手机助手所需的数据合成设施、代码和数据集全部公开,让任何东谈主都可以用来西宾我方的AI助手。在这之前,行业里最顶尖的AI手机助手——比如Step-GUI、MAI-UI、UI-Venus-1.5、MobileAgent-v3.5——在一个叫作念"AndroidWorld"的法式测试上,顺利率也曾接近70%。这个数字听起来不算惊东谈主,但要知谈,这些任务波及真实的手机操作,每一步都需要AI真实"看懂"屏幕、"想明晰"该奈何作念。关联词,这些顶尖系统背后的西宾数据全部守密,外界竣工不知谈它们是奈何练出来的。与此同期,依赖公开数据集西宾的开源模子,在相似的测试上只可达到30%支配,差距悬殊。
OpenMobile的筹备,就是填平这谈规模。
一、手机AI助手究竟在作念什么
在深刻了解OpenMobile的具体作念法之前,有必要先搞明晰这类AI助手到底是奈何使命的。
把AI手机助手比作一位新来的实习生不祥更好通晓。你把一部生疏的手机交给这位实习生,告诉他"帮我在日期App里创建一个翌日上昼十点的会议"。这位实习生需要先看明晰屏幕上的内容(终点于AI"读取"截图),然后判断该点那处(终点于AI决定实行什么操作),一步步完成任务。更关键的是,要是某一步走错了,他还得能意志到出错了,并想见识改变。
这类AI系统在学术上叫作念"视觉谈话模子驱动的出动端智能体",说白了就是:能看懂手机屏幕图像、又能通晓东谈主类教导的AI,在手机上帮你干活。西宾这样的AI,需要大批的"脚本"——也就是每个任务对应的操作轨迹:从第一步点了那处,到临了任务完成,每一步都有记载。有了这些脚本,AI才调通过效法学习,逐渐掌合手怎么操作手机。
问题在于,高质料的脚本很难获取。东谈主工一条一条地标注本钱极高,而且东谈主工标注通常存在噪声和失实。更勤苦的是,即便有了脚本,要是脚本里惟一"一切到手"的情况,AI在现实中遭遇我方犯错的情况时就会七手八脚——它从来没见过出错之后该奈何办。
OpenMobile针对这两浩劫题,鉴别瞎想了两个中枢处治决议。
二、给AI建一张"App功能舆图"
处治第一个难题——怎么自动生成大批高质料任务教导——OpenMobile给与了一种颇具新意的设施。
现存的主流作念法,频繁是让AI在App里当场点来点去,然后把柄它走过的这条旅途来编一个任务。这就像一个东谈主在城市里纯粹走了一条街,然后把柄这条街的见闻编一个旅游攻略。问题是,一条街的见闻太局限了,你根底不知谈这座城市还有些许边缘、些许情理的场所。
OpenMobile的作念法竣工不同。沟通团队把这个经过拆成了两个阶段。
第一阶段,先让AI在App里平日探索,把遭遇的总共不同页面都记载下来,就像绘图一张舆图。在这个经过中,AI每走一步,都会把现时页面的截图和它能到达的相邻页面记下来。由于不同的探索旅途会经过换取的页面,沟通者用一种叫"感知哈希"的本领来识别"这两张截图其实是归并个页面",幸免重复记载。最终,总共探索旅途被整合成一个赈济的结构,沟通者称之为"全局环境驰念"。可以把它通晓为一张完整的App功能舆图,标注了每个页面有哪些功能,以及页面之间怎么跳转。
第二阶段,才是生成任务教导。关于舆图上的每一个页面,沟通者不仅给AI看这个页面自身的内容,还荒谬提供两类信息:一是"短期驰念",也就是这个页面相邻的几个页面(你从这里能顺利到那处、从那处能来到这里);二是"历久驰念",也就是整个App里和这个页面功能联系但可能相距很远的其他页面的功能刻画。这种"历久驰念"是通过语义相似度检索获取的,类似于你在藏书楼找书时,系统会保举主题联系的其他书目。
有了这三层信息,一个精深的视觉谈话模子就能生成既万般又有把柄的复合型任务教导——不是简短的"开放诞生",而是"在音频录制App里,把灌音时势改成WAV、采样率设为48kHz、声谈设为立体声,然后录一段短音频保存"这种复杂教导。生成的教导还要经过质料过滤(评分过低的删掉)和去重(语义太相似的只保留最佳的一条),最终得到一批高质料的任务教导集。
这种把"探索"和"生成"分开的瞎想,带来了实质性的平正。沟通者作念了东谈主工评估:让有训戒的评测者把OpenMobile生成的教导和两种基线设施作念对比,收尾发现OpenMobile的教导在"难度和复杂性"方面明显更胜一筹,而"合感性和可实行性"相似莫得着落。在践诺西宾效果上,用换取数目(1500条)的轨迹数据西宾,OpenMobile的设施让AI在AndroidWorld测试中达到48.3%的顺利率,而另外两种基线设施鉴别惟一34.1%和45.3%。
三、教AI怎么从失实中爬起来
有了任务教导,接下来就要让AI践诺实行这些任务,把实行经过录制成"脚本",再用来西宾AI。这就引出了第二个中枢挑战:怎么收罗既高质料又包含"犯错与纠错"训戒的脚本。
最常见的作念法叫"众人蒸馏",也就是让一个也曾很猛烈的AI(众人模子)去实行任务,把它的操作经过录下来,让待西宾的AI(学习者模子)去效法。这个设施的优点是脚本质料高,污点是脚本里全是"教科书式"的齐全操作,学习者从来看不到犯错之后该奈何办。到了真实使用场景中,学习者一朝犯错,就会七手八脚,不知谈怎么改变。
另一种作念法叫"自我进化",让学习者我方去实行任务,顺利的才留住来,然后再行西宾,周而复始。这种设施的平正是学习者见过我方犯错的情况,污点是跨越相等慢,而且学习者的智商上限就是它我方现时的水平,很容易堕入瓶颈。
OpenMobile苛刻了一种会通两者优点的"战术切换轮转"设施。中枢想路是:让学习者去实行任务,但支配有一个"监考本分"(由精深的视觉谈话模子担任)及时盯着学习者的每一步。一朝监考本分发现学习者偏离了正确轨谈——比如指引点错、堕入轮回、竣工莫得向筹备围聚——就坐窝让众人模子收受,帮学习者改变轨迹,把任务推回正轨。众人介入至少实行三步后,再把戒指权还给学习者。
这个经过中,监考本分还会把检测到的"偏差分析"奉告众人模子,匡助众人更好地通晓现时的失败模式,沙巴体育app从而给出更有针对性的改变操作。整个纠错经过在一次任求实行中最多触发两次。
沟通者独专指出,他们测试了多种切换战术:竣工靠众人、竣工靠学习者自我进化、当场切换(两个模子不一致时当场决定用谁)、以及上述的"失实介入切换"。收尾通晓,失实介入切换战术在每条轨迹中平均包含1.56个"失实与纠错"片断,远高于众人蒸馏的0.42个和自我进化的0.10个。当场切换天然包含了0.64个,但由于切换时机紊乱,脚本质料交加不皆,最终西宾效果(45.1%)并莫得比众人蒸馏(44.8%)好些许,而失实介入切换则达到了48.3%。
西宾之后,沟通者还有益测试了模子在践诺实行中"发现失实、分析失实、改变失实"三个维度的智商。收尾标明,用OpenMobile数据西宾后的模子,在这三个维度上都明显优于基础模子,尤其是改变失实的智商普及最为权贵——普及幅度达到了66%。
四、数据集长什么样,效果奈何样
按照上述两大设施,沟通团队在AndroidWorld提供的安卓模拟器环境上,针对20个安卓App,生成了约2800条任务教导,对应34000个操作法子。每条实行轨迹平均包含12.2个法子,每步附带平均129个词的"想维链推理"——也就是AI在作念每一步操作之前,先用笔墨解说我方为什么这样作念。这部分想维链由众人模子再行撰写,以保证质料。
沟通者用这批数据鉴别微调了两个基础模子:Qwen2.5-VL-7B(70亿参数)和Qwen3-VL-8B(80亿参数)。前者莫得经过有益针对图形界面的大规模预西宾,用来进修数据自身的价值;后者自身也曾是更强的基础模子,用来探索性能上限。
在AndroidWorld测试上,Qwen2.5-VL基础版块的顺利率是25.5%,经过OpenMobile数据微调后跃升到51.7%,普及了高出25个百分点。Qwen3-VL基础版块本来也曾有47.6%,微调后达到64.7%,与Step-GUI-8B(67.7%)、MAI-UI-8B(70.7%)等行业顶尖闭源系统比拟也曾终点接近。
更能知道问题的是泛化智商。OpenMobile的数据是在AndroidWorld的环境里收罗的,但沟通者还在另外两个竣工不同的测试平台上评估了模子。AndroidLab包含9个App的138个任务,Qwen3-VL版块达到51.5%,而同类开源数据设施的最佳获利(ScaleCUA)惟一30%。MobileWorld是一个更难的测试,有益查考需要跨越多个App、长达数十步的复杂任务,Qwen2.5-VL版块从7.7%普及到14.8%,Qwen3-VL版块从9.4%普及到17.7%,相对普及幅度高出50%。这知道OpenMobile的西宾设施让AI获取的不仅仅"背题",而是真实的通用操作智商。
沟通者还测试了用更大模子(720亿参数的Qwen2.5-VL-72B)微调的效果,AndroidWorld顺利率达到59.3%,进一步考证了"数据质料好、模子越大效果越强"的端正。此外,他们也尝试了强化学习设施——包括单步奖励的强化学习和完整轨迹级别的强化学习——但发现这些设施在动态测试环境下的普及并不褂讪,最终说明未能超越法式的监督微调。沟通者以为,这可能与现时环境的万般性为止和强化学习框架的褂讪性联系,留待改日沟通处治。
五、这是真武艺照旧"背了谜底"
每当一个开源模子在某个测试集上取得好获利,总会有东谈主问:它是真的变强了,照旧仅仅悄悄"背了谜底"?这个疑虑在OpenMobile这里尤其合理,因为西宾数据就是在AndroidWorld同款环境里生成的。
沟通者对此作念了相等透明的分析。他们用一个专科的语义相似度模子,缱绻了每一条合成西宾教导和AndroidWorld测试集里每一条测试教导之间的相似度,然后和两个公开数据集(AndroidControl和AMEX)作念了对比。收尾是:OpenMobile的合成教导照实比公开数据集更接近测试教导,这是合适预期的,毕竟都是在归并个App环境里生成的。可是,相似度高出0.7的教导只占全部合成教导的3.5%,大多数教导仅仅在功能层面有些访佛,而不是字面上的重复或改写。
更有劝服力的是底下这个实验:要是把最相似的那部分西宾数据删掉,望望模子获利会奈何变化,再对比当场删除同等数目数据的情况。删掉10%最相似的数据,获利仅仅微细着落,知道性能并不是脆弱地依赖于少数几条"近似题目"。但当删除比例加多到40%以上时,性能开动明显下滑,而且比当场删除下滑得更快。沟通者对此给出了合通晓释:删掉相似教导,同期也删掉了遮掩某些中枢App功能的西宾样本,终点于把某项手段的隆重材料全删了,天然会影响说明。
这引出了沟通者对"为什么OpenMobile数据灵验"的中枢解说:功能遮掩率。他们用一个谈话模子把每个测试任务剖释成所需的原子功能(比如"在日期App里创建步履"剖释为"开放日期"、"创建新事件"、"设定日期"、"设定标题"等),然后统计西宾数据中遮掩了些许比例的这些原子功能。跟着合成教导数目加多,功能遮掩率稳步高潮,而且OpenMobile历久高于同等数目的耦合基线设施。进一步的分析还发现,任务需要的功能越多(任务越复杂),顺利率越低;而西宾数据遮掩了越多联系功能,顺利率越高。这知道OpenMobile的西宾价值不在于"见过类似的题目",而在于"遮掩了饱和多的操作手段"。
说到底,OpenMobile的孝敬是多档次的。在本领层面,它提供了一套可以被任何东谈主复现和使用的数据合成框架,把"全局环境驰念"和"战术切换轮转"这两个创新瞎想系统地邻接在整个。在实验层面,它在三个寥寂的动态基准测试上全面考证了设施的灵验性,而且对数据羞耻风险作念了勤恳一见的透明分析,这在整个领域都属于有数的严谨格调。在社区价值层面,它公开了数据和代码,闪开源社区有了一个可以不息迭代的坚实源头。
天然,OpenMobile也有它坦承的局限。现在的西宾数据只遮掩20个App,环境万般性有限。强化学习标的的尝试尚未取得一致性突破,原因可能和模拟器环境的广度不够联系。此外,即等于64.7%这个获利,和最顶尖的73.7%比拟仍有差距,知道数据质料和基础模子智商两者不能偏废,仅凭开放数据合成还不及以竣工追平顶尖闭源系统。
手机里那位真实懂你、帮你干活的AI助手,距离普通东谈主的日常糊口正在变得越来越近。而让这一切变得愈加公谈、愈加透明的戮力,不祥恰是整个领域长期跨越的底气所在。
Q&A
Q1:OpenMobile和其他手机AI助手比拟,上风在那处?
A:OpenMobile最大的上风在于它是竣工开源的——数据、代码和合成设施全部公开。以前说明好的手机AI助手,比如Step-GUI和MAI-UI,西宾数据全部守密,外界无法复现或改进。OpenMobile让任何沟通者都能用相似的设施西宾我方的模子,同期在AndroidWorld测试上,它西宾出的模子顺利率从约30%跃升到64.7%,也曾相等接近顶尖闭源系统,而且在其他两个测试平台上也展示出了可以的泛化智商。
Q2:OpenMobile的西宾数据会不会是靠"背谜底"得高分的?
A:沟通者对此作念了有益的考证。他们缱绻了西宾数据和测试题目之间的语义相似度,发现惟一3.5%的西宾教导与测试教导相似度高出0.7,不存在大规模照搬测试题的情况。而且当把最相似的一小部分西宾数据删掉时,模子获利仅仅小幅着落,知道性能靠的是平日的功能遮掩而非少数几条近似题目。
Q3:普通用户什么时刻能用上OpenMobile西宾出来的手机助手?
A:OpenMobile现在是一个沟通框架沙巴体育app中国官网下载,西宾出的模子需要在安卓模拟器或真实竖立上部署,还不是一个开箱即用的奢华级家具。不外由于代码和数据全部公开,开采者社区可以在此基础上不息开采,改日集成进真实手机助手哄骗的可能性是存在的。现在距离普通用户顺利使用还需要更多工程化使命。
开元棋牌(中国)官网入口