一文深度解析「具身智能」百人图谱，科技巨头的 AI 人才之战

2024-06-12 20:56

硅兔赛跑

2024-06-12 20:56

来源链接

订阅此专栏

收藏此文章

AI 人才争夺战，科技巨头重金押注。

撰文：魏玛

编辑：Zuri、蔓蔓周

人才与能源，正在成为科技公司 AI 战役中必夺的高地塔。

「这场 AI 的人才之战，是我见过的最疯狂的人才争夺战！」马斯克在推特上直言。

就在 5 月 28 日，这位特斯拉 CEO 创办的 AI 初创公司——xAI 在官网宣布融资 60 亿美元，用于打造超级计算机，马斯克称之为「超级计算工厂」。诚然，这需要更多人才。马斯克甚至表示，xAI 如果不提供 offer，人就被 Open AI 挖走了。

在这场谁也看不到未来确切形状的人工智能大模型战役中，投资一个靠谱的团队，对于投资公司来说显然是最有力的保障。这也是这场人才争夺战愈演愈烈的重要原因。

不过，「真正优秀的人才通常不会主动找工作，因此需要去挖那些你看好的人才」。OpenAI 创始人 Sam Altman 早年在他的文章中提及。

信息差是这场人才争夺战中决定胜负的关键。

我们的第一篇人才图谱聚焦这个科技巨头们重金押注的领域——具身智能。

如果说这场 AI 战事的未来难以预测，具身智能或许是其中一种终极形态。英伟达 CEO 黄仁勋更是表示，下一个 AI 浪潮将是具身智能。

硅兔尝试梳理了美国大公司，两个 AI 黄浦军校——谷歌和英伟达的具身智能人才图谱以及在其中的华裔大佬，或许能为希望在其中进行创业或投资的读者提供按图索骥的参考。

「1」根据谷歌和英伟达重点具身智能论文和项目一共梳理 114 名业界实战大佬，其中谷歌占比 60%，英伟达 40%，男多（90%）女少（10%）。

「2」8% 的研究员学术水平比肩美国科学院院士。59% 的研究员属于高水平段位。

「3」78% 的研究员最高学历水平为博士，研究生占比 18%，本科生仅占比 4%。

「4」华裔在谷歌和英伟达具身智能研究员中占比约 27%。

「5」斯坦福向谷歌和英伟达输送了最多具身智能大佬，其次是 CMU 和 MIT，三家学校输送的人才占比约 1/3。

欲知数据详解及华裔大佬履历见下👇

「1」

共计 248 名研究员参与了谷歌和英伟达具身智能研究，剔除 62 名未在 Google Scholar 建档的研究员，剩余 186 名研究员中，业界力量占六成、学界力量占四成。

具体来看，谷歌独立研究能力更强，英伟达借助了多个顶尖学校的研究资源。参与英伟达机器人研究的高校研究人员达到 45 人，占比一半（51%）；相较之下，谷歌的这个比例不到三分之一（27 人，28%）。

「2」

聚焦业界人才，谷歌和英伟达 114 位研究员中，男性占比约 90%，华裔占比约 27%，博士学历占比约 78%。

在性别比例和族裔方面，谷歌和英伟达略有差异，谷歌似乎对女性更友好，有 11 名女性科学家加入，而英伟达只有 2 名。

英伟达华裔的比例更高，占比达 40%，而这一比例在 Google 只有 20%。

「3」

斯坦福向谷歌和英伟达输送了最多具身智能大佬，其次是 CMU 和 MIT，三家学校输送的人才占比约 1/3。

114 位研究员最高学历毕业的院校总共有 51 所大学。其中，斯坦福大学有 16 人，卡内基梅隆大学有 14 人，麻省理工学院有 7 人，这三所学校的人数占比约三分之一，而其他大多数学校只有一名学生。

绝大部分研究人员来自美国的院校，但欧洲也有两所学校在具身智能领域产生了重大影响：英国伦敦帝国理工学院和牛津大学，毕业于这两所学校的研究人员共有 8 人。牛津大学在深度学习方面积累了丰富的经验，并且谷歌收购 DeepMind 后与牛津大学展开了合作，引入了深度学习领域的专家。例如，AlphaGo 的研发团队中就包括了 3 名牛津大学在职教授以及 4 位前牛津大学的研究人员。

「4」

8% 的业界研究员学术水平比肩美国科学院院士。59% 的业界研究员属于高水平段位。谷歌研究员的学术能力相较英伟达更强。

我们采用被引用量和「h」指数来衡量学术水平。「h」指数是一位作者至少具有相同引用次数（h）的最高发表论文数量。例如：某人的 h 指数是 20，这表示他已发表的论文中，每篇至少被引用了 20 次的论文总共有 20 篇。

一般来说，h 指数在 10 以上可以被认为是较高水平，h 指数 18 属于高水平，而成为美国科学院院士的一般要求是 45 以上。

这 114 名企业研究人员的 h 指数表现出了他们相当强的研究水平：89% 的人的 h 指数大于 10，59% 的人的 h 指数大于 18，而有 8% 的人的 h 指数甚至超过了 45。

进一步比较谷歌和英伟达的学术水平会发现，谷歌研究人员影响力明显要比英伟达高。例如，谷歌企业研究人员引用量平均数和 h 指数平均数是 12596 和 23，而英伟达的这一组数据为 6418 和 21。

「5」

谷歌和英伟达各有约 1/10 的具身智能研究员离职加入其他公司。

谷歌 70 人中有 7 人离开，占比 10%。目前在英伟达、苹果、特斯拉、1x、OpenAI、Figure AI 等企业就职，总体上来说离开谷歌的人才较少，绝大多数人才在 Google DeepMind 工作。

其中，Scott Reed 2016 年加入 Google DeepMind 从事控制和生成模型方面的工作，后加入英伟达成为 GEAR 团队的首席研究科学家。

注：谷歌离职研究员及去向

英伟达 44 名具身智能研究人员有 4 人离开，占比 9%。一人去了谷歌，一人去了 Allen Institute for AI 研究机构，另外两人选择创业。

Igor Mordatch 的研究兴趣包括机器学习、机器人学和多智能体系统，他曾是 OpenAI 的研究科学家，在斯坦福大学和 Pixar 动画工作室担任访问研究员。他共同组织了 OpenAI 学者指导计划，并担任 AI4All、Google CS 研究指导计划和 Girls Inc.的导师和教学助理。离开英伟达后在 Google DeepMind 担任研究科学家。他发布文章约 123 篇，Google Scholar h 指数 51，被引用量 18752 次。

注：英伟达离职研究员及去向

「6」

「美国科学院院士」学术水平（h 指数大于 45）的研究员，谷歌得 6 人，英伟达得 1 人。他们分别是（按照指数高低）：

谷歌

Nicolas Heess

DeepMind 研究科学家。

2011 年发表论文《Learning a Generative Model of Images by Factoring Appearance and Shape》，彼时正在攻读爱丁堡大学的神经信息学与计算神经科学博士学位，毕业后在 DeepMind 工作至今。

早期研究聚焦在机器视觉、机器学习、图形 / 增强现实 / 游戏等领域，目前是英国 UCL 计算机系荣誉教授。

发布约 224 篇文章，Google Scholar h 指数 65，被引用量 48917 次。

Martin Riedmiller

DeepMind 研究科学家。

1986-1996 年在德国 University of Karlsruhe（卡尔斯鲁厄大学，现在的卡尔斯鲁厄理工学院）学习计算机专业，并取得博士学位。毕业后他一边在学术界任教，一边创业。

2002 年 - 2015 年先后在 University of Dortmund、University of Osnabrueck、University of Freiburg 担任教授，带领 Machine Learning Lab；2010 -2015 年在德国巴登创立 Cognit - Lab for learning machines。

2015 年加入 Google DeepMind 全职工作。

他的研究领域聚焦人工智能、神经网络、强化学习等，发布约 188 篇文章，Google Scholar h 指数 59，被引用量 84113 次。

Vikas Sindhwani

Google DeepMind 研究科学家，领导着一个专注于解决机器人领域规划、感知、学习和控制问题的研究小组。

他拥有芝加哥大学的计算机科学博士学位和印度理工学院（IIT）孟买分校的工程物理学士学位。

2008 年 -2015 年在 IBM T.J. Watson Research Center 纽约分部负责机器学习组。2015 年加入 Google DeepMind 工作至今。

担任《机器学习研究交易》（TMLR）和《IEEE 模式分析与机器智能交易》的编辑委员会成员；曾是 NeurIPS、国际学习表示会议（ICLR）和知识发现与数据挖掘（KDD）的领域主席和高级程序委员会成员。

研究兴趣广泛涉及统计机器学习的核心数学基础，以及构建大规模、安全、健康人工智能系统的端到端设计。

曾获得人工智能不确定性（UAI-2013）最佳论文奖和 2014 年 IBM Pat Goldberg 纪念奖；并入围了 ICRA-2022 杰出规划论文奖和 ICRA-2024 机器人操作最佳论文奖的决赛。

发布约 137 篇文章，Google Scholar h 指数 52，被引用量 17150 次。

Vincent Vanhoucke

Google DeepMind 杰出科学家、机器人技术部门高级总监，在谷歌工作超过 16 年。

拥有斯坦福大学电气工程的博士学位 (1999-2003) 和巴黎中央理工学院的工程师学位。

曾领导 Google Brain 的视觉和感知研究，并负责谷歌语音搜索的语音识别质量团队。共同创立了机器人学习会议（Conference on Robot Learning）。

研究涵盖了分布式系统和并行计算、机器智能、机器感知、机器人和语音处理等多个领域。发布约 64 篇文章，Google Scholar h 指数 50，被引用量 165519 次。

Raia Hadsell

DeepMind 研究与机器人技术高级总监，VP of Research。

2014 年加入至今。

在 Reed College 获得宗教学和哲学学士学位后（1990-1994），在纽约大学与 Yann LeCun 合作完成博士学位研究（2003-2008），集中于使用连体神经网络（今天通常称为「三元损失」）的机器学习、人脸识别算法，以及在野外使用深度学习进行移动机器人研究。论文「Learning Long-range vision for offroad robots」获得了 2009 年的杰出论文奖。

在卡内基梅隆大学机器人研究所做博士后研究，与 Drew Bagnell 和 Martial Hebert 合作，然后成为新泽西州普林斯顿市 SRI 国际公司视觉与机器人组的研究科学家（2009-2014）。

加入 DeepMind 之后，研究重点放在人工通用智能领域的一些基本挑战上，包括持续学习和迁移学习、用于机器人和控制问题的深度强化学习，以及导航的神经模型。是一个新开放期刊 TMLR 的创始人和主编，CoRL 的执行委员会成员，欧洲学习系统实验室（ELLIS）的成员，也是 NAISys（神经科学与人工智能系统）的创始组织者之一。担任 CIFAR 顾问，并曾担任 WiML（机器学习中的女性）执行委员会成员。

发布约 107 篇文章，Google Scholar h 指数 45，被引用量 36265 次。

Nikhil J Joshi

资料有限，在印度印度理工学院（Indian Institute of Technology）获得物理硕士学位，在印度基础研究机构 Tata Institute of Fundamental Research 获得分子物理学博士学位。2017 年加入 Google Brain 做软件开发，之前在多家企业任职。Google Scholar h 指数 45，被引用量 8320 次。

英伟达

Stan Birchfield

英伟达首席研究科学家和高级研究经理。

2016 年加入，主要负责计算机视觉和机器人技术的交叉领域，包括学习、感知、以及人工智能介导的现实和交互。

1999 年获得斯坦福大学电气工程博士学位，辅修计算机科学。

毕业后，加入湾区初创公司 Quindi Corporation 担任研究工程师，开发智能数字音频和视频算法。

2013-2016 年，加入微软，负责开发计算机视觉和机器人技术的应用与地面实况导航系统，并领导开发了自动摄像头切换功能。

Google Scholar h 指数 56，被引用量 14315 次。

「7」

部分业界华裔大佬

这 114 名企业研究人员中共有 31 名华裔，重点介绍 12 名佼佼者，其中谷歌 4 人，英伟达 6 人，OpenAI 、1x 各 1 人。

谷歌

Fei Xia（夏斐）

Google DeepMind 高级研究科学家。

2016 年毕业清华，2021 年在斯坦福大学电气工程系获得了博士学位。

读博期间曾在 NVIDIA 的 Dieter Fox，Google 的 Alexander Toshev 和 Brian Ichter 那里做过研究实习。在斯坦福大学完成博士学位后，于 2021 年秋季加入 Google 的机器人团队。

研究兴趣包括大规模和可转移的机器人模拟，长期任务的学习算法，以及环境的几何和语义表示的结合。最近研究方向是将基础模型（Foundation Models）用于智能体的决策过程中。

学术成就包括在 ICRA 2023 会议上接受了 5 篇论文，在 CoRL 2022 会议上接受了 4 篇论文。

代表工作有 GibsonEnv, iGibson, SayCan 等，iGibson 开发用于机器人学习的大规模互动环境，以及在机器人控制策略中使用模仿学习和模型预测控制（MPC）的结合。Google Scholar h 指数为 33，引用量为 12478。

Andy Zeng

Google DeepMind 高级研究科学家。

在 UC Berkeley 获得了计算机科学和数学的双学士学位，并在普林斯顿大学获得了计算机科学博士学位。2019 年博士毕业后加入 Google Brain 工作，专注于机器学习，视觉，语言和机器人学习。

研究兴趣包括机器人学习，使机器能够智能地与世界互动并随着时间的推移自我提高。

学术成就包括在各种会议上发表的论文，如 ICRA，CVPR，CoRL 等。

参与的重要项目包括 PaLM-E。

Google Scholar h 指数为 32，引用量为 12207。

Tianhe Yu

Google DeepMind 研究科学家。

2017 年在 UC Berkeley 获得了计算机科学、应用数学和统计学的最高荣誉学士学位，2022 年在斯坦福大学获得了计算机科学博士学位，导师是 Chelsea Finn。

2022 年博士毕业后加入 Google Brain 工作，专注于机器学习，视觉，语言和机器人学习。

研究兴趣包括机器学习，感知，控制，特别是离线强化学习（即从静态数据集中学习），多任务和元学习。最近在探索在决策问题中利用基础模型。

学术成就包括在各种会议上发表的论文，如 ICRA，CVPR，CoRL 等。

参与的重要项目包括 PaLM-E。

Google Scholar h 指数为 25，引用量为 7726。

Yuxiang Zhou

Google DeepMind 高级研究工程师。

2010 年至 2018 年间在英国伦敦帝国学院攻读计算机科学硕士和博士学位，导师是 Stefanos Zafeiriou 教授。

2017 年 9 月至 2018 年 3 月在 Google Brain & DeepMind 进行了深度强化学习和机器人学的研究实习，在 2018 年 12 月加入 Google DeepMind，担任研究工程师。

研究主题包括解决机器人学、第三人称模仿学习、统计变形模型的密集形状研究等。

Google Scholar h 指数为 17，引用量为 3099。

英伟达

Linxi Fan（范林熙）

NVIDIA 高级研究科学家，也是 GEAR Lab 的负责人。

在斯坦福大学视觉实验室获得博士学位，师从李飞飞教授。

曾在 OpenAI（与 Ilya Sutskever 和 Andrej Karpathy）、百度 AI 实验室（与 Andrew Ng 和 Dario Amodei 合作）和 MILA（与 Yoshua Bengio 合作）实习。

研究探索了多模态基础模型、强化学习、计算机视觉和大规模系统的前沿。

率先创建了 Voyager（第一个熟练玩 Minecraft 并持续引导其功能的 AI 智能体）、MineDojo（通过观看 100,000 个 Minecraft YouTube 视频进行开放式智能体学习）、Eureka（一只 5 指机器人手，执行极其灵巧的任务，如笔旋转）和 VIMA（最早的机器人操作多模态基础模型之一）。MineDojo 在 NeurIPS 2022 上获得了优秀论文奖。

Google Scholar h 指数为 18，引用量为 5619。

Chen-Hsuan Lin

NVIDIA 高级研究科学家。

本科毕业于国立台湾大学，获得了电气工程学士学位。在卡内基梅隆大学获得了机器人学博士学位，导师是 Simon Lucey，受 NVIDIA 研究生奖学金支持。

曾在 Facebook AI 研究和 Adobe 研究进行了实习。

致力于计算机视觉、计算机图形学和生成 AI 应用。解决涉及 3D 内容创建的问题感兴趣，包括 3D 重建、神经渲染、生成模型等。

研究获得了 TIME 杂志 2023 年度最佳发明奖。

Google Scholar h 指数为 15，引用量为 2752。

De-An Huang（黄德安）

NVIDIA 研究科学家，专业领域是计算机视觉、机器人学、机器学习、生物信息学。

斯坦福大学获得了计算机科学博士学位，导师是李飞飞和胡安·卡洛斯·尼布尔斯。在卡内基梅隆大学攻读硕士学位期间，曾与 Kris Kitani 合作，在国立台湾大学攻读本科期间，曾与 Yu-Chiang Frank Wang 合作。

曾是 NVIDIA 西雅图机器人实验室的 Dieter Fox、Facebook 应用机器学习的 Vignesh Ramanathan 和 Dhruv Mahajan、Microsoft 雷德蒙德研究院的 Zicheng Liu 和匹兹堡迪斯尼研究院的 Leonid Sigal 的实习生。

Google Scholar h 指数为 32，引用量为 4848。

Kaichun Mo（莫凯淳）

NVIDIA Dieter Fox 教授领导的西雅图机器人实验室的研究科学家。

在斯坦福大学获得了计算机科学博士学位，导师是 Leonidas J. Guibas 教授。曾隶属于斯坦福大学的几何计算组和人工智能实验室。在 2016 年加入斯坦福之前，在上海交通大学计算机科学 ACM 班获得了学士学位（PS：上海 ACM 荣誉班直博率高达 92%，3 次斩获 ACM 国际大学生程序设计竞赛全球总冠军，培养出 640 名计算机「最强大脑」）。GPA 为 3.96/4.30（排名 1/33）。

专业领域是 3D 计算机视觉、图形学、机器人学和 3D 深度学习，尤其关注对象为中心的 3D 深度学习，以及针对 3D 数据的结构化视觉表示学习。

Google Scholar h 指数为 20，引用量为 17654。

Xinshuo Weng

NVIDIA 研究科学家，与 Marco Pavone 合作。

她在卡内基梅隆大学与 Kris Kitani 合作获得了机器人学博士学位（2018-2022 年）和计算机视觉硕士学位（2016-17 年）。本科毕业于武汉大学。

她还曾与 Facebook Reality Lab 的 Yaser Sheikh 合作，担任研究工程师，帮助构建「逼真的远程呈现」。

研究兴趣在于自主系统的生成模型和 3D 计算机视觉。涵盖目标检测、多目标跟踪、重新识别、轨迹预测和运动规划等任务。开发了 3D 多对象跟踪系统，例如在 GitHub 上获得 >1,300 颗星的 AB3DMOT。

Google Scholar h 指数为 23，引用量为 3472。

Zhiding Yu ( 禹之鼎 )

NVIDIA 机器学习研究小组的首席研究科学家和负责人。

2017 年从卡内基梅隆大学获得了电子与计算机工程博士学位，并于 2012 年从香港科技大学获得了电子与计算机工程硕士学位。于 2008 年从华南理工大学联合电气工程（冯炳权实验班）本科毕业。

研究兴趣主要集中在深度表示学习、弱监督 / 半监督学习、迁移学习和深度结构化预测，以及它们在视觉和机器人问题中的应用。

WAD Challenge@CVPR18 中的领域自适应语义分割赛道的获奖者。在 WACV15 获得了最佳论文奖。

Google Scholar h 指数为 42，引用量为 17064。

OpenAI

Mengyuan Yan

技术人员。

2014 年获得北京大学物理学学士，2020 年获得斯坦福大学电子电器工程博士学位。

Interactive Perception and Robot Learning Lab（IPRL）的成员，该实验室是斯坦福 AI Lab 的一部分，导师是 Jeannette Bohg 和 Leonidas Guibas。

研究领域包括计算机视觉、机器学习、机器人学和生成模型。

共发布 28 篇文章，Google scholar h 指数 15，被引用量 4664 次。

1X Technologies

Eric Jang

AI 副总裁。

2016 年毕业于布朗大学硕士，专业是计算机科学。

2016 - 2022 年在 Google 工作，担任机器人高级研究科学家，

研究主要集中在将机器学习原则应用于机器人领域，开发了 Tensor2Robot，这是机器人操作团队和 Everyday Robots 使用的 ML 框架（直到 TensorFlow 1 被弃用）；是 Brain Moonshot 团队的共同负责人，该团队制作了 SayCan。

2022 年 4 月离开 Google Robotics，加入 1X Technologies（原名 Halodi Robotics），带领团队完成了两项重要工作，一个是通过端到端的神经网络，实现了人形机器人 EVE 的自主性。

7 篇论文的第一作者，合著 15+ 以上，Google scholar h 指数为 23，引用量为 11213。写了一本书《AI is Good for You》讲诉人工智能的历史和未来。

「8」

通过重点研究论文和实验项目锁定谷歌和英伟达的具身智能人才。

谷歌重基础模型研究，其具身智能人才参与的重点研究发布包括：

SayCan：能够将高层级任务拆解为可执行的子任务。

Gato：将多模态数据进行 token 化输入 Transformer 架构。

RT-1：将机器人轨迹数据输入 Transformer 架构，得到离散化动作 token。

PaLM-E：在 PaLM 通用模型基础上，进一步提升了多模态性能。

RoboCat：将多模态模型 Gato 与机器人数据集相结合，使得 RoboCat 具备在模拟环境与物理环境中处理语言、图像和动作等任务的能力。

RT-2：是 RT-1 模型与 PaLM-E 模型的结合，使机器人模型从 VLM 进化到 VLA。

RT-X：在保持原有架构的基础上，全面提升了具身智能的五种能力。

以上模型逐步实现了模型自主可靠决策、多模态感知和实时精准运控能力的结合，同时展现出泛化能力和思维链能力。

综合以上研究论文，共梳理 143 名谷歌研究员。‍‍‍‍‍‍‍‍‍‍‍‍

英伟达重仿真模拟训练，其具身智能人才参与的实验项目包括：

Eureka：利用大型语言模型进行强化学习的奖励机制设计

Voyager：开放世界中用大语言模型驱动智能体

MimicPlay：通过观察人类动作进行长距离模仿学习

VIMA：多模态指令操控执行通用机器人任务

MinDojo：利用互联网规模级数据建立开放具身智能体

此外，英伟达在 2024 年重点发力具身智能，官宣成立通用具身智能研究 GEAR（Generalist Embodied Agent Research）实验室，主要围绕多模态基础模型、通用型机器人研究、虚拟世界中的基础智能体以及模拟与合成数据技术四个关键领域开展研究，旨在推动大模型等 AI 技术由虚拟世界向现实世界发展。

本文首先梳理了上述提到的 Google 核心项目论文共 7 篇，每篇论文都详细列出了项目研究人员，并清晰地公布了他们的具体工作内容。

英伟达的研究页面公布了参与 robotics 项目的人员名单，共计 54 名；另外综合考虑 GEAR 发布的所有论文作者，共梳理出 105 名具身智能研究人员。

附录：谷歌、英伟达具身智能百人列表

附录：论文及网页

Google 核心项目论文：

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

https://say-can.github.io/

AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents

https://auto-rt.github.io/

SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention

https://arxiv.org/pdf/2312.01990

RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

https://arxiv.org/pdf/2306.11706

RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches

https://arxiv.org/pdf/2311.01977

RT-1: Robotics Transformer for real-world control at scale

https://arxiv.org/pdf/2212.06817

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

https://arxiv.org/pdf/2307.15818

NVIDIA 研究 robotics 论文研究人员名单：

https://research.NVIDIA.com/research-area/robotics

GEAR 团队发表论文：

https://research.NVIDIA.com/labs/gear/publications/

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

「1」

「2」

「3」

「4」

「5」

「6」

谷歌

英伟达

「7」

谷歌

英伟达

OpenAI

1X Technologies

「8」

附录：谷歌、英伟达具身智能百人列表

推荐专栏