新浪新闻

Gemini模型驱动的新Siri,其技术架构如何实现跨应用智能协作?

BigNews

关注

Gemini模型驱动的新Siri通过“端云协同架构+意图理解引擎+应用接口标准化”三大核心技术实现跨应用智能协作,其核心突破在于能够实时解析屏幕内容、拆解多步骤指令并联动系统级API执行复杂操作。

一、技术架构的三大核心模块

分层处理架构(端云协同)

设备端模型:处理隐私敏感任务(如个人日程、本地文件),执行基础指令(如开关应用)。

云端Gemini模型(1.2万亿参数):运行于苹果私有云(Private Cloud Compute),负责复杂推理任务。例如用户指令“将邮件中的会议时间同步到日历并提醒同事”,云端模型拆解为:解析邮件内容→提取时间→创建日历事件→生成提醒消息→调用通信App发送。

数据隔离机制:用户数据经去标识化处理,谷歌无法接触原始数据。

意图理解与任务规划引擎

多模态输入解析:Gemini模型可同时理解语音指令、屏幕内容(如正在浏览的外卖页面)及设备状态(如位置、时间)。

多步骤意图拆解:通过“查询规划器”模块将模糊指令转化为可执行动作链。例如“帮我订咖啡”拆解为:打开外卖App→定位最近咖啡店→选择默认偏好→下单支付。

跨应用协作接口(App Intents框架)

系统级API集成:苹果要求开发者开放标准化操作接口(如“发送消息”“创建日程”),Siri通过系统权限直接调用第三方应用功能。

无需人工跳转:执行跨应用任务时(如“把刚拍的照片发微信给妈妈”),自动触发相册读取→微信打开→选择联系人→发送的连贯操作。

二、跨应用协作的落地场景

场景1:信息整合

用户指令:“总结上周邮件里提到的项目预算并发到工作群”。

执行流程:云端Gemini扫描邮件关键词→提取预算数据→生成摘要→通过企业微信API发送。

场景2:自动化流程

用户指令:“找到妈妈推荐的餐厅,订明晚7点两人位并提醒她”。

执行流程:解析短信/聊天记录中的餐厅名→调用地图App获取位置→通过订座App预约→创建日历提醒→向妈妈发送iMessage通知。

三、技术演进与挑战

短期路线:2026年春季发布的iOS 26.4支持基础跨应用操作,依赖Gemini 2.5 Pro模型(128K上下文)。

长期升级:2026年WWDC推出iOS 27的“Campos系统”,Gemini 3模型将支持更深度的生态整合(如控制智能家居+预订网约车联动)。

国行版差异:因数据合规要求,国行设备采用本土模型(如百度文心),跨应用功能受限(例:无法直接解析Gmail内容),部分操作需手动确认。

四、行业争议点

隐私与垄断质疑:马斯克批评谷歌通过Android+Chrome+Siri形成生态垄断;苹果强调数据仅存私有云,但用户仍担忧指令日志可能被间接利用。

体验割裂风险:测试显示跨应用操作错误率达15%(如混淆应用权限),且旧机型(iPhone 14以下)无法运行完整功能。

这一架构标志着语音助手从“单点问答”转向“系统级智能代理”,其成败将取决于生态开放度与用户体验的精细平衡。 (以上内容均由AI生成)

加载中...