华人丁林葳因窃取Google AI技术在美被捕,工程师之耻

美国司法部在2024年3月5日起诉了39岁的Google工程师、至算科技CEO、北京融数联智CTO 丁林葳,这个消息在3月8日被爆出来之后,各大西方主流媒体纷纷报道,看起来是想洗脑一波消息,中国依靠「窃取AI知识产权」才获得的大模型技术。

起诉书链接在这里:公共事务办公室|居住在加州的中国公民因窃取谷歌人工智能相关商业机密而被捕 美国司法部 [1]

这个事情的后果就比较严重了,标准的「前人砍树,后人吃土」。相信连续几桩盗窃知识产权的案子判下来,美国高科技公司对于招聘华人留学生都会更加谨慎,而优秀的华人留学生留美发展的天花板也将越来越低,更难以接触到公司核心业务,自然也没有了上升空间

这个故事的核心,还是「莫装逼,装逼遭雷劈」。尽管故事很好笑,但是我们能从中学到很多关键要点,帮自己规避未来的巨坑。

剧情很简单,我的一个同龄人,85年出生的丁林葳,2010年在大连理工本科毕业,这个算是大器晚成了,因为我比他大两岁,但是2008年已经硕士毕业了。然后丁去了南加州大学念了硕士,之后留美发展。

幸运的是他在2019年进入了Google,而2020年就迎来了口罩周期,很多大型企业就开启了远程办公模式,大量员工居家办公,而且很多硅谷的公司对员工充分信任,管理宽松

然后丁大聪明就一边拿着Google的工资,一边在中国搞兼职了。2022年6月13日,丁大聪明拿到了融数联智CTO的Offer,月薪10万;然后2023年5月30日,丁创立了上海至算科技有限公司,并在23年11月24日的投资者大会上进行路演。

直到2023年12月25日,丁才向Google提出了离职申请,离职日期是2024年1月5日。另外,丁大聪明在中国期间,还让同事在美国用他的工卡打卡上班。中美两头拿钱,丁大聪明的确TMD是个讲究人。

那他是怎么暴露的呢?起诉书上写的很清楚,丁从来没有告诉过Google他在中国已经搞了一家企业,也没有告诉Google他还在一家中国企业担任CTO。按理说你如果要瞒着,那就牢牢瞒住。

比如某大厂招聘的有竞业协议的员工,那些员工在企业通讯录上找不到,自己用的也是化名,手机号和微信也都换掉了,从来不在公司收任何快递,出入公司都带着口罩,唯恐被人抓住证据。

丁呢?在Google工作期间,还回国创业,参加路演,加入MiraclePlus孵化计划,到处宣传,非常高调。还宣传自己在Google参与大模型训练集群构建的经验,美化自己是「放眼全球,搭建过且能搭建万卡级算力平台的人全世界不足十人」其中之一,这给他牛掰坏了,甚至得到了陆奇的青睐。

500

另外,丁更沙波依的一点,是他在23年12月2日,把一部分Google的代码上传到了自己的Google云盘里去,然后还被Google发现并调查了。这货找了个理由,说上传这些代码,是要证明自己在Google工作。

更可耻的,是这货还在2023年12月8日,写了一个自我删除承诺书,Self-Deletion Affidavit (SDA),内容包括「我已永久删除和/或销毁我在 Google 工作期间获得的任何非公开信息的所有副本」

I have searched my personal possessions, including all devices, accounts, and documents in my custody or control for any non-public information originating from my job at Google . . . I have permanently deleted and/or destroyed all copies of such information . . . As a result, I no longer have access to such information outside the scope of my employment.

但是他并没有删除。这个事情的恶心点在于,他承诺删除了代码,但是他并没有这么做,甚至还是堂而皇之的把代码放在Google云盘里。

这简直就是给西方媒体送上了一个「华人窃取知识产权,并且不信守承诺」的口实,这货完全是精致的利己主义者,占自己的便宜,堵死了后来者的路。

等到丁正式跟Google提出离职(12.25),Google在12月29日才发现他已经参加了11月份的路演,毕竟路演材料传得沸沸扬扬到处都是。然后Google启动了调查,锁定了他的电脑,检查了他的电脑操作记录、办公场所出入记录和录像。

丁的离职日期是24年1月5日,他早在23年12月14日(提离职之前)就买好了24年1月7日旧金山回北京的单程机票。结果在24年1月6日,FBI根据搜查令搜查了丁的住所,拿到了丁的电子设备(估计包括电脑和手机);1月13日,FBI根据搜查令搜查了丁的Google账户。

FBI调查的结论,丁大聪明窃取了「如何用GPU和TPU建立基础架构的方案、算力卡间通讯和执行任务的方案,利用数千张卡集群进行机器学习和AI训练的软件」,丢人丢到姥姥家了。

然后,中国工程师两国上班、盗窃AI机密、不遵守承诺书这个事儿,就彻底做实了。你说这货是不是有病???

大模型训练有什么困难的么?自从Google发布了Transformer,Meta开源了LLama,整个开源社区就一直在群策众力地追赶Chatgpt的步伐,国内甚至搞出了百模大战,这有什么难的呢?

训练大模型的算力消耗是多少呢?我参与训练的大模型,1300亿参数的,8台8卡A100,一天可以训练12亿Tokens,同样的训练代码扩展到48台8卡H800,一天可以训练140亿Tokens。训练2万亿Tokens的语料,差不多150天也能完成了。

一般来说,一千张GPU已经足够深入研究和训练大模型了,搞万卡集群的目的又是什么呢?

万卡训练平台的确很难,但是难点在于并行计算么?难点明明在于国内买不到一万张GPU卡。现在国内的水货市场上,一套8卡H100计算模组,价格大约是240万,再配上机箱、电源、NVlink网卡、CPU、内存,最后的成本是290万。

万卡也就是1250台H800,那GPU服务器总投资差不多是36亿,再考虑25%的网络成本,总投资差不多是45亿,这个钱阿里腾讯华为出得起,一般的国内厂家谁买得起?那丁这个技术不就是屠龙技么?

说实在的,Google允许员工居家办公,并且允许员工的笔记本访问内网代码;丁最安全的窃取方式,难道不是利用HDMI线把电脑投屏出去,在另一台电脑上利用OBS Studio等视频采集软件,把屏幕上的代码录下来么?

有了录屏之后,丁难道不应该用另一台电脑,用屏幕OCR的方式,结合大模型,重新把代码写一遍,再加密保存到自己的私人NAS里么?为什么要用最愚蠢的方式,把文件直接下载并上传到Google云盘呢?

真的,太WS了,极其WS。肉身回国打工兼创业,同事代打卡拿Google工资,用最愚蠢的方式复制代码,还保存到云盘里,技术水平不怎么样,还往死里占便宜。结果自己进去了不说,还断了不少中国留学生的后路。

走WS的路,让后人无路可走。

最后跑个题,IT工程师都应该有私人NAS,这是基操

[1]

公共事务办公室|居住在加州的中国公民因窃取谷歌人工智能相关商业机密而被捕-美国司法部 : https://www.justice.gov/opa/pr/chinese-national-residing-california-arrested-theft-artificial-intelligence-related-trade

全部专栏