近日,苹果研究人员开发了一种新的AI系统ReALM,该系统可以理解屏幕上实体、对话和背景上下文的模糊引用,从而实现与语音助手的更自然的交互。ReALM的一项关键创新是使用解析的屏幕上实体及其位置来重建屏幕,以生成捕获视觉布局的文本内容。研究人员证明,这种方法与专门用于参考解析的微调语言模型相结合,可以在该任务上优于GPT-4。苹果研究人员在论文中写道:“让用户能够对屏幕上看到的内容发出查询,是确保语音助手真正免提体验的关键一步。”
论文地址:
https://arxiv.org/pdf/2403.20329.pdf
这篇论文标题为“ReALM: Reference Resolution As Language Modeling”,由Apple的研究团队撰写。论文探讨了如何利用大型语言模型(LLMs)来解决上下文引用问题,这对于理解和处理不同类型的上下文至关重要,包括对话历史和非对话实体(例如用户屏幕上的实体或后台运行的实体)。
**主要贡献和发现包括:**
1. **上下文引用的重要性**:论文强调了理解和处理上下文引用对于对话助手的重要性,尤其是在提供自然交流体验和允许用户通过语音助手查询屏幕上信息的场景中。
2. **大型语言模型(LLMs)的应用**:尽管LLMs在多种任务上表现出强大的能力,但在引用解析方面,尤其是在处理非对话实体时,其应用仍然被低估。论文展示了如何将引用解析问题转化为语言建模问题,并通过这种方法显著提高了对现有系统的性能。
3. **ReALM模型**:提出了一种新的模型ReALM,它通过将屏幕上的实体及其位置解析并生成纯文本表示来编码屏幕上下文。这种方法允许LLM在没有直接视觉输入的情况下“看到”屏幕上的实体。
4. **实验和结果**:通过实验,ReALM模型在不同类型的引用上都取得了显著的性能提升,即使是最小的模型也比现有的系统有超过5%的绝对增益。与GPT-3.5和GPT-4相比,ReALM的最小模型实现了与GPT-4相当的性能,而更大的模型则大幅超越了GPT-4。
5. **数据集**:论文使用了合成数据和人工注释数据来训练和评估模型。数据集包括对话数据、合成数据和屏幕上的数据,每个数据点包含用户查询、实体列表以及与用户查询相关的实体(或实体集)。
6. **模型比较**:ReALM模型与基于MARRS的系统(非LLM方法)和ChatGPT(GPT-3.5和GPT-4)进行了比较。ReALM在所有类型的数据集上都优于MARRS模型,并且在大多数情况下也优于GPT-3.5和GPT-4。
7. **未来工作**:论文提出了未来可能的研究方向,包括探索更复杂的方法来编码屏幕上实体的位置,例如将屏幕分割成网格并编码这些相对空间位置到文本中。
8. **伦理声明**:论文提到了LLMs可能生成意外输出的问题,并指出其系统提供了限制解码或使用简单后处理来确保这种情况不会发生的能力。
总体而言,这篇论文展示了如何有效地利用LLMs来解决上下文引用问题,并通过创新的方法提高了模型在理解和处理屏幕上实体方面的能力。这对于开发能够在设备上运行的实用引用解析系统具有重要意义,同时保持了高性能。
本文地址:https://www.163264.com/6746