Google兵法,如何反杀微软和OpenAI?

500

今年初,OpenAI的崛起似乎预示着Google的厄运。但这家科技巨头已经平息了其AI研究人员之间的争吵,并且终于以其最新的AI技术Gemini开始进攻。现在,困难的部分开始了。

发布备受期待的新人工智能技术Gemini的第一个版本,这几乎是在一年前一些批评人士预测OpenAI的ChatGPT可能会击败谷歌在搜索领域的主导地位之后的事情。谷歌的领导层成功地让公司内部的不同派系开始合作,以应对OpenAI,这违背了那些认为谷歌已经变得过于优柔寡断和官僚主义的人的看法。谷歌在搜索领域的主导地位依然保持完整。而且,谷歌的股价今年大幅上涨。

现在,艰难的工作开始了。在接下来的几个月里,谷歌将不得不展示如何将其统称为Gemini的AI模型整合到其产品中,而不损害现有的业务,比如搜索。

据知情人士透露,谷歌已经将Gemini的一个较低级版本集成到了Bard中,Bard是谷歌创建的与ChatGPT竞争的聊天机器人,但迄今为止使用有限。在未来,谷歌计划在几乎所有产品线上使用Gemini,从搜索引擎到生产力应用,以及一款名为Pixie的AI助手,该助手将仅限于其Pixel设备。据一位了解内部讨论的人士透露,产品还可能包括可穿戴设备,比如眼镜,可以利用AI的能力识别佩戴者所见的物体。然后,该设备可以为他们提供建议,例如如何使用工具、解决数学问题或演奏乐器。

谷歌在与监管机构谨慎地协商的同时必须完成所有这些工作。该公司正卷入两起联邦反垄断诉讼,涉及其搜索引擎和广告业务的主导地位。反垄断官员密切关注谷歌的AI工作,因为这可能成为谷歌如何利用其在一个领域的主导地位赢得另一个领域的例子,即利用其搜索索引中的网站数据以及数十亿用户的数据来训练新的AI。

AI的成功对于谷歌的云业务也至关重要,因为对于这些服务而言,对于计算需求量大的AI模型的需求日益增加。微软已经报告称其云业务的增长超过了谷歌和亚马逊。

虽然ChatGPT以其对话式AI而闻名,但它背后的技术在商业界已经证明了其有用性,用途包括自动化客户服务和软件编码、快速生成营销活动以及帮助华尔街公司理解大量数据。对于谷歌来说,问题在于OpenAI和微软在向消费者和企业销售这项技术方面已经具有很大的先发优势,这使他们获得了有价值的数据和反馈,可以用来改进产品。

"关键在于实际效果-人们能够用它构建什么。我们只是刚刚开始看到这一点,"Madrona Venture Group的合伙人Jon Turow说。他之前在亚马逊网络服务公司负责AI产品。“但我们已经看到的是令人瞩目的。”

Gemini是该公司25年历史上最重要的尝试之一。随着谷歌步入中年,其核心广告业务仍然产生巨额利润,这些利润为其母公司Alphabet在自动驾驶汽车、健康再保险和生物技术等新业务上的一系列赌注提供了资金支持。但是,这些十年前的赌注都没有奏效。

因此,投资者越来越迫切地要求谷歌领导层削减这个拥有18.2万员工的公司的成本,导致今年发生了大规模裁员,这对员工士气造成了伤害。员工们正在为新的一年做好更多裁员的准备,尽管目前尚不清楚它们是否会面向全体员工,还是针对特定的团队。

AI是另一个需要公司大量资金支持的赌注,用于支付从人员到硬件的一切费用。据与Gemini团队关系密切的人士透露,谷歌需要大量投资来防止其AI团队因OpenAI向谷歌的工程师和研究人员提供数百万美元的薪资套餐而出走。

谷歌还希望消除这样一个观念:它除了从几十年前的创新中获益之外,几乎没有做出任何贡献。多年来,该公司通过两个独立的部门,Google Brain和DeepMind,投入了大量资金进行AI研究。它甚至发明了称为transformers的基础技术,这是OpenAI创建的AI模型系列GPT的核心。

但是,OpenAI的惊人崛起引发了谷歌可能会像其他许多古老的技术巨头一样在技术领域失利的担忧。公司内部的高管们对此感到特别恼火,因为据一位直接了解他们讨论的人士透露,曾经笨拙的科技巨头微软在今年2月将ChatGPT纳入其Bing搜索引擎中。

谷歌发言人对此事没有置评。

战斗实验室

多年来,Google和Alphabet的CEO Sundar Pichai一直向同事们抱怨,他无法让他的两个人工智能研究单位合作。Google在2014年收购的DeepMind的CEO Demis Hassabis长期坚持认为,公司应该独立于母公司,这种安排可以更好地追求其发展人工通用智能(类似人类的人工智能)的目标。

与此同时,DeepMind的姊妹单位Google Brain专注于在Google的产品中实施的研究,孵化了机器学习的重要进展,如Transformer,这一发明为Google和其他公司训练更复杂的模型铺平了道路。该团队由Jeff Dean领导,他是一位经验丰富的工程师,他在Google早期的编码工作帮助其搜索引擎规模扩大到数十亿用户。

这两个单位之间的分离非常深入。Google Brain总部位于加利福尼亚州山景城,Google的总部,而Hassabis和他的团队则在伦敦国王十字车站附近的主要办公室运营DeepMind。

随着DeepMind规模的扩大,DeepMind竭尽所能避免与Google Brain合作,根据一位在那里工作过的人的说法,例如,通过明显地在Google Brain当时没有主要存在的城市(如巴黎和阿尔伯塔省埃德蒙顿)开设办事处。DeepMind的研究人员可以访问在Google Brain编写的代码,但反之则不行,一些员工认为这是DeepMind过分保密的迹象,即使在Google员工中也是如此。当Hassabis想要采取措施保护DeepMind的独立性时,他会直接与共同创始人Larry Page交流,Larry Page领导了收购并拥有Alphabet的控股权,与共同创始人Sergey Brin并驾齐驱。

随着时间的推移,Hassabis希望将DeepMind与Google完全分离开来,因为他越来越担心这个庞大的公司将如何使用这项技术,包括将其销售给军方,一位知情人士说。他构想了创建一家拥有DeepMind知识产权的独立公司的想法。然而,2021年,Hassabis告诉DeepMind的员工,与Google分离的努力(他称之为Mario计划)已经结束,因为Pichai承诺为该团队提供更多资金,包括用于人工智能伦理的资金,一位知情人士说。

500

英国首相Rishi Sunak(左)和Google的Demis Hassabis在6月份的伦敦。照片由Carlos Jasso / Bloomberg通过Getty提供

多年来,两个团队之间的资源竞争加剧了紧张局势。Google只有有限数量的服务器芯片可供其人工智能研究人员使用。随着人工智能在整个行业引起的狂热增加对芯片的需求,这些芯片变得更加稀缺。

与此同时,随着Google高管深陷内部政治之中,该公司的知名人工智能研究人员开始离职。其中一些人成立了自己的公司,对Google的官僚文化感到沮丧,在OpenAI推出其版本之前,Google阻止了类似ChatGPT的服务的发布。其他人则被OpenAI收购,这是一家由Elon Musk和其他知名人士于2015年创立的非营利性初创公司,部分原因是他们担心Google将拥有未来的人工智能。OpenAI的创始人之一是Ilya Sutskever,他是一位关键的Google Brain工程师,他领导了诸如创建能够推理解决之前未遇到的问题的人工智能等进展。

然而,当OpenAI于去年11月发布ChatGPT时,公众的反应震惊了Google。这家有400名员工的初创公司竟然在推出一个能够令人信服地回答各种问题的聊天机器人方面超过了Google,这对该公司的竞争力提出了质疑。

尽管如此,一些Google领导似乎对这个新的互联网宠儿毫不在意。在ChatGPT发布几周后的一次员工会议上,Dean在回答有关聊天机器人的问题时表示,Google不仅仅是对其他初创企业的反应,一位知情人士说。

但到了2月份,微软宣布将在其Bing搜索引擎中实施ChatGPT。一些投资者提出的聊天机器人可能侵蚀Google搜索霸主地位的观点让其高管们感到不安。

头脑的合并

Google需要马上采取行动。

它提出的一个解决方案是Bard,在几个月内将其拼凑起来,并在三月份发布了这个聊天机器人。在Google内部,这一努力引起了轰动,一位知名的Google研究员Jacob Devlin在向Pichai和其他高级执行官提出了对Google使用ChatGPT数据来训练AI模型的担忧后,他离开了公司。他随即加入了OpenAI,但仅仅几个月后,他又回到了Google,具体原因不详。

Google的另一个回应是最终结束DeepMind和Google Brain之间的内部竞争。Google从这两个团队中挑选研究人员来构建一个新模型:Gemini,由Dean和高级DeepMind研究员Oriol Vinyals领导的一个项目。之前,Vinyals曾在Brain与Dean共事。

然后,在四月份,Google宣布将Brain和DeepMind合并。Hassabis接管了这个新实体,Google DeepMind,而Dean则退居Google的首席科学家。这一举动对许多Google工程师来说是个震惊,他们认为鉴于Dean的成就和与公司的长期历史,他应该成为该单位的领导者。

500

Google的Jeff Dean在2020年。照片由David Paul Morris / Bloomberg通过Getty提供

领导层试图将合并销售为合并单元的胜利。Google Brain研究副总裁Zoubin Ghahramani访问了DeepMind位于伦敦的办公室,向员工解释了重组的情况,并在这一变化宣布的那周的城镇大会上。Google Brain为自己的员工召开了一次独立的会议。Hassabis告诉员工,Google DeepMind将汇集世界上两个最好的AI研究团队。

但是Google的AI员工很快意识到优先事项也在发生变化。Google DeepMind的领导层减少了对不关键于构建竞争性AI产品的研究项目的投入。据这些人说,失去资源的项目包括计划中的多模型模型Gato的续集和一个名为GenRL的研究团队,该团队构建了能够在虚拟环境中导航的AI系统,例如Atari游戏。

高管们表示,这些变化还带来了额外的好处:减少了重叠努力和削减了低优先级项目,意味着员工将不再为实验和研究的芯片访问而争斗。

在Mountain View,AI员工曾分散在公司校园的多个建筑物中,他们搬进了位于校园核心的单个办公室,目的是改善研究人员之间的合作。

当OpenAI爆发性增长的冲击消退时,Google终于有机会反击。

一个秘密武器

然而,Google面临着一个巨大的障碍:构建一个优于GPT-4的模型。

从一开始,这意味着研究人员必须在模型开发中达到里程碑的激进截止日期。据一位了解该工作的人士透露,员工们为了满足紧迫的时间表而日夜工作,这种自上而下的方法与Google以前对其研究实验室的不干预方式有着明显的不同。一位接近该工作的人士表示,对一些人来说,每周工作80小时变得很常见。

即使在公司的AI组织之外,Google的员工也被期望迅速掌握这项技术。根据两位知情人士的了解,整年,Google Cloud通过要求员工通过在该主题上进行考试来提高他们对AI的了解,为非技术角色(如销售)提供额外的材料。

Google的目标是通过使Gemini能够理解各种不同的媒体(包括文本,图像,视频和音频),从而获得对OpenAI的优势,以便AI可以用简单的英语解释并解释复杂图表的内容。Pichai后来表示,Gemini将从头开始对这些类型的数据进行训练。Pichai非常清楚,OpenAI在3月份宣布了类似的图像识别能力,但最初并未广泛提供这些功能。这给了Google在OpenAI之前发布了一套广泛的多模态功能的机会。

Google拥有一个秘密武器:YouTube。据两位知情人士透露,Google的研究人员大量依赖这一属于Google的流媒体服务的数据,包括图像,视频和音频字幕文本,这对于训练AI模型至关重要。

这使得Google能够访问比OpenAI和图像生成初创公司Midjourney等竞争对手更丰富的信息库。这也意味着Google必须满足法务部门的要求,例如确保如果YouTube用户删除了视频,Google也会从其模型使用的数据集中删除该内容。

Google的另一个优势是计算能力。与依靠微软服务器的OpenAI不同,Google拥有自己的数据中心。它甚至建立了自己的专用AI芯片,张量处理单元(TPU),以更高效地运行其软件。为了Gemini项目,它已经积累了大量这些芯片——77,000个第四代TPU,代号Pufferfish。在第三季度,Google的未分配企业成本,包括对DeepMind的支出,跃升近40%,达到16亿美元。

通过与负责项目各个部分的员工进行每日会议,Gemini的领导层密切关注研究人员的进展。这些会议在伦敦的员工结束一天和Mountain View的员工开始一天时举行。据一位知情人士透露,主持会议的人包括Dean,Vinyals和研究副总裁Koray Kavukcuoglu。

500

Google的位于加利福尼亚山景城的总部。照片:华盛顿邮报通过盖蒂图片社/Melina Mara 

高级执行人员也亲自参与其中。迪恩负责改进软件,帮助公司的算法处理大量数据。联合创始人布林通常与谷歌保持距离,但在山景城与吉米尼研究人员并肩工作,并经常与他们一起在公司的自助餐厅吃午餐。

在过程中,发生了一些尴尬的时刻。在二月份巴德的发布演示中,聊天机器人关于詹姆斯·韦伯太空望远镜出现了事实错误,这让谷歌感到尴尬,就在它试图赶上OpenAI的时候。当这个错误广为人知时,谷歌的股价在两天后下跌了高达9%。

五月份,谷歌首次在年度开发者大会上披露了吉米尼的存在。其中一位分析师对此印象深刻:当天该公司的股价上涨了超过4%。

做好竞争准备

接下来几个月,谷歌逐渐接近发布吉米尼。九月份,它向一些开发者提供了一个较小版本的吉米尼供测试。

但是在同一个月,OpenAI在多模式功能方面率先推出了带有视觉功能的GPT-4,这为其技术和新业务带来了更多关注。据一位接近团队的人士透露,巴德的用户使用情况令一些高管内部感到失望。谷歌十月份披露了其云计算部门第三季度收入增长仅为22%,而微软则在同一天宣布其Azure云计算部门收入增长了29%。这只增加了对吉米尼团队提出大规模创新的压力。

然后,在十一月左右,在对新产品进行高管审查时,最先进的吉米尼模型在除英语以外的其他语言中运行效果不佳。

OpenAI自身也面临问题,这是一个小小的安慰。2023年年中,OpenAI放弃了一个名为阿拉基斯的重要新模型,因为其训练效果不佳。十一月底,OpenAI的董事会解雇了首席执行官萨姆·奥尔特曼,几乎使公司陷入崩溃。奥尔特曼在此事件后重返OpenAI,目前似乎稳定了局面。

最后,在十二月初,谷歌揭开了吉米尼的面纱。它公布了测试结果,显示最强版本的吉米尼——吉米尼超级版,在许多行业标准基准测试中胜过了GPT-4,尽管许多研究人员对这些说法提出了质疑。在这次引人注目的发布中,最大的污点是谷歌的一段营销视频,根据谷歌自己的说法,夸大了吉米尼的能力。这段视频的发布让公司的一些普通员工感到沮丧,因为他们事先没有看到。但是一系列的公告传达了一个强烈的信息:谷歌已经准备好竞争。

一位高管甚至对微软进行了攻击,指责其依赖OpenAI开发尖端技术。谷歌和Alphabet全球事务总裁肯特·沃克在一场由新闻机构Semafor主办的活动中表示,公司“不相信外包”其人工智能开发。

现在,谷歌的考验是将吉米尼引入其产品组合的各个部分,就像微软利用OpenAI的技术一样。但是它有一个竞争对手没有的优势:一系列的Pixel硬件设备,包括手机、手表和耳机,可以从人工智能中受益。吉米尼的一个版本专门设计用于Pixel手机上,Pixel手机使用了谷歌定制的人工智能芯片。

Pixie是一个专为Pixel设备开发的人工智能助手,可以在科技公司竞相将硬件与新的人工智能能力整合的时代,提升谷歌的硬件业务。据了解该项目的消息人士称,Pixie将利用客户手机上的信息,包括来自谷歌产品(如地图和Gmail)的数据,演变成更加个性化的Google助手版本。这个功能可能会在明年与Pixel 9和9 Pro一起推出。

最终,谷歌希望将这些功能带到其低端手机和手表等设备上。公司需要更加复杂的模型来支持所有产品的创意。但是它似乎正在竭力确保不再被措手不及。据一位知情人士透露,谷歌已经在培训其下一个重大模型——吉米尼2。

Amir Efrati也为本文做出了贡献。

全部专栏