苹果用户是否经常苦恼Siri在面对复杂指令,特别是涉及屏幕上具体内容时显得"力不从心"甚至有些"智障"?比如你正在浏览购物网站,屏幕上有橘子、鸭梨、苹果和橘子汽水,你告诉Siri"只结算水果",传统Siri很可能把橘子汽水也误认为水果。苹果*新研究的ReALM模型,通过独特的屏幕解析和上下文理解能力,旨在显著提升Siri的场景理解准确性和响应智能程度,让语音助手真正理解你的意图而非机械执行命令。
ReALM的核心突破在于其独特的屏幕信息处理方式。与传统方法不同,ReALM并非简单截取屏幕图像,而是通过解析屏幕上的各种元素(文本框、按钮、图标等),提取它们的文本内容、类型和位置信息,构建一个结构化的屏幕表示。
这个过程类似于给Siri装上了"数字眼镜"。它能够识别屏幕上哪些是电话号码、哪些是电子邮件地址、哪些是URL链接,并理解这些元素之间的关联性。例如,一个"呼叫"按钮旁边的数字,ReALM能够理解这是一个电话号码而非普通文本。
位置信息的保留是关键创新点。ReALM通过算法将实体及其周围对象的边界框中心点按照垂直(从上至下)和水平(从左至右)的顺序排序。实体间距离较近的被视为同一行,用制表符隔开;距离较远的则置于下一行。这样就将屏幕内容按从左到右、从上到下的方式编码成纯文本格式,有效保留了实体间的相对空间位置关系。
ReALM将需要理解的实体分为三类,覆盖了用户可能涉及的所有场景:
屏幕实体是当前显示在用户界面上的内容。这些实体直接可见,但传统AI难以理解其含义和关联。ReALM通过解析这些元素的文本内容、类型和位置,使其成为可理解的信息。
对话实体涉及与对话相关的内容。比如用户说"打电话给妈妈",那么联系人列表中"妈妈"的条目就是对话实体。这类实体需要结合对话上下文来理解。
背景实体指那些不与用户当前操作或屏幕显示直接相关的内容,如后台播放的音乐或即将响起的闹钟。这些信息虽然不直接可见,但往往对理解用户意图很重要。
测试指标 | ReALM表现 | GPT-4表现 | 优势说明 |
---|---|---|---|
屏幕实体识别 | 准确率提升5%以上 | 依赖屏幕截图 | 无需图像输入,纯文本处理 |
参数效率 | 更少参数实现相当性能 | 参数规模庞大 | 适合设备端部署 |
特定领域查询 | 经过微调更精准 | 通用性强但不够专注 | 领域适应性更优 |
响应速度 | 设备端低延迟 | 需云端交互 | 实时性更好 |
隐私保护 | 数据本地处理 | 需上传云端 | 安全性更高 |
虽然ReALM技术尚未正式集成到Siri中,但用户目前仍可通过以下方法提升Siri使用体验:
优化"嘿Siri"识别精度
进入"设置">"Siri与搜索",关闭并重新开启"听取'嘿Siri'"功能,然后按照提示重新录入你的声音。这能显著提高Siri对你声音特征的识别准确率,特别是在嘈杂环境中。
启用个性化设置与权限
在"Siri与搜索"设置中,选择"我的信息"并将你的联系人信息添加。同时授权Siri访问常用的第三方应用(如打车、外卖、音乐类应用),这样Siri就能更好地理解你的指令和需求,并跨应用执行复杂任务。
善用快捷指令自动化
使用"快捷指令"应用创建自定义自动化任务。例如设置"每天早上8点提醒我喝水并播放新闻",或"当我到家时自动开启空调和灯光"。Siri就能在你需要的时候自动执行这些串联任务,极大提升生活效率。
结合上下文进行对话
Siri能够理解一定程度的上下文。在与Siri对话时,可以使用相关的前文信息,比如问完天气后,可以直接询问"那我应该穿什么?"或"需要带伞吗?"。这种连贯的对话方式更符合人类交流习惯,也能获得更精准的反馈。
ReALM的集成将根本性改变人机交互体验。其核心价值在于能够理解用户所指的"这个"、"那个"等模糊指代,真正实现"所见即所说"的自然交互。
多模态理解能力是ReALM的突出特点。它不仅能处理文本信息,还能理解屏幕布局、元素关系和各种非文本信号,使其对用户意图的把握更加全面和准确。
设备端处理确保了隐私和实时性。所有敏感数据都在本地处理,无需上传云端,既保护了用户隐私,又实现了近乎瞬时的响应速度,这对于语音助手的使用体验至关重要。
在我看来,ReALM代表了一个重要趋势:AI正从云端向设备端迁移。这种转变不仅关乎技术能力,更涉及用户体验、隐私保护和商业模式的多重考量。
隐私与能力的平衡将成为关键竞争点。设备端AI虽然可能在**能力上略逊于云端大型模型,但在隐私保护和响应速度上的优势是无可替代的。苹果选择这条路径,体现了其对用户隐私的一贯重视。
场景化智能比通用智能更有实用价值。大多数用户不需要一个无所不能但反应迟缓的AI,而是需要一个在特定场景下精准**的助手。ReALM专注于指代解析这一具体问题,体现了这种场景化思路。
硬件软件协同优化是苹果的独特优势。通过自研芯片和系统的深度整合,苹果能够在相对有限的硬件资源上实现优异的AI性能,这种垂直整合能力是其他厂商难以复制的。
**数据视角:根据测试数据,ReALM即使是*小的模型版本,在屏幕实体识别上的准确率也比原有系统提升了5%以上。而在更大的模型版本上,ReALM则明显胜过GPT-4。更重要的是,ReALM所需的计算资源更为经济,对移动设备电池续航的影响更小,这为全天候智能助手体验提供了可能。
本站为注册用户提供信息存储空间服务,非“爱美糖”编辑上传提供的文章/文字均是注册用户自主发布上传,不代表本站观点,版权归原作者所有,如有侵权、虚假信息、错误信息或任何问题,请及时联系我们,我们将在第一时间删除或更正。