苹果AI的13年历程:世上最好的公司是如何失手的?
13年前,旧金山,一个阴雨绵绵的星期二,苹果发布了iPhone 4s。
这款手机与上一代在外观上完全相同,但一个新功能很快就吸引了所有人:Siri。
“你是谁?”时任苹果公司软件主管的福斯托尔这样问Siri。Siri回答道:“我是一位谦逊的私人助理。”
在福斯托尔的要求下,Siri帮他设置了备忘录日程、回答了当时的巴黎时间是“晚上8:16”,并且在收到“我想找一家离公司不远,情调浪漫的意大利餐馆”这个提问时列出了14家参考饭店。
这在当时被认为是人工智能的转折点,苹果在这一领域又一次成为了世界领军者。
13年过去,同样是一个星期二,友商们在AI道路上高歌猛进之时,苹果在今天的WWDC大会上也推出了自己的AI功能——Apple Intelligence。
与其他友商的AI功能相仿,你可以通过系统自带的工具重写或改写文字内容、你可以通过AI搜索或是生成图片以及自创的Emoji、可以通过AI生成邮件或其他文字内容的摘要、AI还可以个性化的分析邮件和推送消息来确保重要的内容被置顶......
至于苹果的AI原点Siri,也被升级成了新Siri。
新的Siri有了全新的交互UI并且可以通过打字来输入内容、语义理解能力被加强并支持上下文内容关联、支持理解屏幕上显示的内容、可以学习机主的个人背景以便提供更个性化的服务、全局调用并且可以在App之间无缝切换执行操作......
不过,当你需要它回答更专业的问题时,苹果告诉你:Siri集成了ChatGPT的4o版本,如果你订阅了plus的话Siri还可以配置链接你的账号。
显然,苹果依然是世界上最好的公司之一,但它已经不是人工智能的世界领军者了。
在让Siri成为搜索引擎还是智能管家这件事儿上,苹果最终还是选择了后者,但却是在OpenAI的帮助下。
这些年,Siri的处境一直很尴尬,技术基本上停滞不前,甚至呆板的回应还成了某种笑柄,以至于在美国脱口秀里,它被调侃为“老年人智能扬声器”。
自从OpenAI发布了GPT-3.5以来,人们已经可以用ChatGPT来处理写代码、写提案、写小说等复杂任务了,而Siri却还只是人们“调戏”的玩具,比如玩一玩它的放烟花彩蛋。
实际上,这种停滞不前很早已初见端倪。
2016年9月28日,Google、Facebook、IBM、亚马逊和微软共同宣布成立一家非营利机构AI合作组织,致力于推进公众对人工智能技术的理解,同时也将设立人工智能领域研究者需要遵守的行为准则,并针对当前该领域的挑战及机遇提供有益有效的实践。
这五家参与者在人工智能领域都有自己家喻户晓的产品或研究机构,比如IBM的Watson、亚马逊的Alexa以及Google的DeepMind。
苹果的缺席,显得尤为刺眼。
科技媒体TechCrunch的评论记者当时表示:“尽管苹果曾经表示对这个项目非常感兴趣。但它的缺席仍然说明了一些问题:苹果公司的人工智能研发工作已经落后于联盟中的一些竞争对手了。”
从那时起,市场上就一直有苹果的AI技术已经落后的论调。
2017年,第三方市场研究公司CB Insights曾经公布了五家大型科技公司的专利申请统计,分别包括苹果、谷歌、微软、亚马逊、Facebook。
根据统计,自2009年以来,五家公司一共申请了5.2万件专利。在人工智能领域,微软处于领先地位,已经申请了200多个专利,谷歌排名第二,拥有150个。苹果在五家公司中排名最后,还不如社交网络Facebook。
人工智能技术的落后,也体现在了一些产品的性能上。比如各家公司的语音助手都不同程度依靠人工智能和机器学习技术,而在语音识别、答案的满意度方面,苹果Siri的表现和口碑都比较一般。
苹果也不是没想过努力一下改进Siri,在此期间收购了多家机器学习公司,2016年还挖来了卡耐基梅隆大学的人工智能领域专家Russ Salakhutdinov,并且在2018年挖来谷歌的AI大佬詹南德雷亚(John Giannandrea)担任人工智能研发团队总监。
但,这一系列动作的效果并不显著。
据The Information的报道,2018年詹南德雷亚加入苹果时,Siri团队就已经陷入了混乱,高管们在Siri未来发展方向上产生了激烈的争议,苹果意识到了问题,所以试图通过雇用詹南德雷亚来救火。
在詹南德雷亚的领导下,苹果收购了大量人工智能初创公司,给AI团队内部带来很多的专业知识。
然而,这些初创公司的创始人和员工在股票到手之后都选择了离开苹果,他们离职的很大原因是苹果AI上作出决定太慢、对新的人工智能技术过于保守,例如在大语言模型上。
我们都知道,大语言模型会乱讲话这个缺点直到现在都是业界难题,而在对AI的态度上,苹果很长时间都秉持着一种“我可以什么都不干,但我不可以犯错”的态度。
出于这个原因,Siri与苹果竞争对手的其他语音助手最大不同就是:Siri的大多数回应,都是由人类编写、审查或编辑的。
这就导致Siri的设计过于繁琐,添加新功能十分耗时。Siri的数据库包含近二十种语言的庞大词汇列表,包括音乐家姓名和餐馆等地点。
负责改进Siri的员工表示,如果有人想在Siri的数据库中添加一个单词,“它就会被堆成一个大堆。”
很多看似简单的更新(例如向数据集添加一些新短语)需要重建整个数据库,可能要消耗长达六周的时间,而添加新搜索工具等更复杂的功能则可能消耗近一年的时间。
与此同时,Siri设计团队还希望Siri在答案上近乎完美(这是苹果设计团队的文化,最著名的是那句“发布产品之前要等待几年来完善产品”),而詹南德雷亚领导的Siri工程师团队则表示,生成式模型必然会犯错,最多能做到80%准确率,改进的唯一方法是将它释放到市场并逐步调整它。
在一次全体会议上,詹南德雷亚聊到了苹果在AI上的紧张局势,他努力地劝说苹果的高管应该改进机器学习模型。詹南德雷亚努力的其中一个结果是:Siri设计团队同意创建一个反馈按钮,允许用户对Siri答案内容提出异议。
在此之前,Siri的设计团队拒绝了这个功能,部分原因是他们想维护Siri无所不知的形象。
更离谱的是,据三位从事语音助手工作的人士透露,过去苹果高管还否决了Siri能够进行长时间多轮对话的提议,他们认为这个功能是噱头且难以控制。
而现在,所有人都知道AI的多轮对话功能非常重要,可惜苹果并没有选择这条正确的路线。
在这种难以调和的矛盾下,2019年苹果内部探索成立了一个重写Siri的项目,代号为Blackbird。目标是创建一个轻量级版本的Siri,会把更多功能的创建交给App开发人员而不是设计团队。
据说,Blackbird的演示效果不错,至少内部员工看了很兴奋。
但,当时Blackbird与Siri团队的另一个“Siri X”项目赛马落败了。Siri X是为了纪念Siri诞生10周年而成立的,这个项目的目的是将Siri的回应处理从云端转移到设备端上,没有Blackbird的轻量级模块化功能。
最终,数百名Blackbird员工被分配到Siri X,这扼杀了可能使Siri更有前景的机会。
Siri X已于2021年基本完成,今晚WWDC上演示的Siri功能就是在本地端处理数据的,所以可能就是基于Siri X的框架。
在本地设备端处理数据有一个非常好的优点,那就是用户隐私更安全,但,这也成了苹果AI相对落后于同行的一个因素。
Siri完全在设备端执行,就限制了Siri传回到云端的用户查询数量。但在行业内,收集和分析用户的数据是AI工程师使自家产品更智能的常见做法。
詹南德雷亚也没能改变苹果的这一坚持。詹南德雷亚发现,由于隐私问题,苹果在收集Siri指标方面做的比较差,因为Siri的领导层不想开发衡量和分析Siri使用情况所需的内部工具。这导致许多Siri工程师对一些基本细节一无所知,甚至连有多少人在使用Siri以及他们使用频率如何都不清楚。
苹果内部的高层领导也经常向Siri员工施加压力,要求他们减少公司收集的数据量,包括录音和日志。
在早期的团队会议上,詹南德雷亚明确表示,改进Siri的重点是将苹果在人工智能方面分散的工作集中起来。但事实上,苹果AI团队很难与苹果的其他部门融为一体。
苹果其他忙于开发软件产品的部门并没有与詹南德雷亚所带领的AI团队合作,而是各自维护着自己产品的AI功能。
分散的开发模式,导致资源调配也不合理,詹南德雷亚的AI团队很难拿到足够的算力资源。
另有接近苹果的人士表示,与竞争对手相比,苹果近年来采购的GPU较少,以至于涉及AI的开发部门不得不依赖外部云服务来训练他们的AI模型,比如詹南德雷亚团队中的许多前谷歌员工都更喜欢谷歌云。
捉襟见肘又情况紧急的当下,苹果似乎只能选择与外部供应商建立合作伙伴关系来向用户提供最先进的AI功能。这个供应商,就是OpenAI。
2008年,山姆·奥特曼(Sam Altman)曾登上苹果公司年度开发者大会的舞台,他滔滔不绝地用苹果新推出的App Store来推广他的软件。
“我们认为这是一个移动的新时代,我们很高兴能成为其中的一员”奥特曼说。
如今,16年过去,到了生成式AI的新时代,奥特曼又一次参加了WWDC。
但,这次不一样了,这一次苹果需要他的帮助,就像他当初需要苹果一样。