发展中国家要依靠开源:Yann LeCun 和阿联酋 AI 办公室负责人的对话
2024-02-23 14:25
本文是图灵奖得主 Yann LeCun 在 2 月迪拜举办的世界政府峰会上,与阿联酋 AI 办公室 Executive Director ——Saqr BingHalib的对话
由 FocuX 内容团队整理
图片来源:World Government Summit
0.要点
Saqr BingHalib:现在我们参加世界各地的活动,都能体会到大家对人工智能的兴奋之情,那么,目前人工智能具体有哪些让你感到兴奋的地方?Yann LeCun:太多了,很难逐一列举。但是最终,AI 会让人类更具备智慧,会帮助人类。如果想让世界变得更美好,对于智能的需求就是最大的,而这就是 AI 带来的的长期影响和积极好处。但从短期来看,到底今天的人工智能对我们有什么影响?目前,人工智能已在交通领域有所应用——现在,所有的汽车都有辅助驾驶系统,通过这样的系统,可以让汽车遇到障碍物时自动停下。汽车完全自动驾驶就在不远的未来,但目前尚未完全实现。目前,无论是医疗保健、药物设计、科学材料设计(例如材料科学化学)等领域,AI 将会帮助我们在各个领域取得更快的进步,这对科技进步来说,是非常令人兴奋的。当然,人工智能目前最大的应用可能会让人们比较惊讶,它目前的相关工作主要和内容有关,尤其是互联网和社交网络上的内容管理。实际上,这是一个非常复杂的问题。 当前很多人都害怕人工智能被用于造谣、仇恨言论和各种邪恶目的,但事实上,人工智能目前实际上是一种解决方案,人工智能不是问题本身,而是解决方案。正是因为 AI,大家才能发现所有这些需要解决问题,所以我的观点是,目前大家太关注负面的东西了。Saqr BingHalib:像我们现在看到的蛋白质折叠语言模型之类的模型,所有这些基于人工智能技术的各类技术应用,都是由算力驱动的。大家通常会听到一个数字,如果不具备 10,000 张 GPU(卡),那么任何机构都无法在当今人工智能世界中占有一席之地,你怎么看这个数字?Yann LeCun:是的,如果想时刻都站在人工智能研究的前沿,门槛其实就是一台由大量 GPU 组成的超级计算机,基本单位是 16,000 个 GPU。但这些其实真正掌握在少数人手里,这些是用来训练大家所说的基础模型的。训练基础模型需要大量的专业知识和算力,但一旦这些基础模型训练成功,就可以根据不同的兴趣、当地语言文化等价值体系进行微调(Finetune)。作为国家来说,可以做的就是,提供相对便宜的计算资源给初创公司和学术团体。这一点非常重要,因为目前学术团体,尤其是某些(垂直)领域的学术团体不知道自己是否能为人工智能做出贡献,因为这些团体他们大多数没有足够的计算资源 。Saqr BingHalib:16,000 个 GPU ,需要 10 亿美元。那么,如果一个国家或发展中国家,没有办法投资这么多,那么他们可以应用开源技术。我知道 Meta 非常重视 Llama 模型,Llama 是开源的。而阿联酋也在 Falcon LLM 上投入了大量资金,能不能跟我们解释一下开源是什么,发展中国家和公司如何应用开源人工智能大模型?Yann LeCun:我认为人工智能会作为基础平台和软件平台存在,它会和互联网的软件平台有点像。需要知道的是,不仅是互联网,整个手机系统都是在开源软件上运行的。手机信号塔也是在开源软件堆栈上运行的,这些都需要共享,都需要安全、可靠。因此,我认为 AI 将成为一种通用基础设施,成为人类所有知识的宝库。我们所有的数字生活都将以这些人工智能系统为媒介,我们将不再使用搜索引擎(搜索引擎将不复存在),大家只需与人工智能助手交谈,AI 智能助手会运行在手机里、智能眼镜里,很多问题我们都可以直接询问智能助手。比如 "我现在在哪?""这栋建筑是什么?"系统就会告诉你,"这里有一个摄像头,它也可能会回答:”今天就能告诉你,如果不是今天,三个月内就能告诉你"。我们需要多样化的人工智能助手,这样我们就不会从同一个信息源获取相同的信息。Saqr BingHalib:想回过头来谈谈 16000 张 GPU 相关的问题,你认为目前市场上对这种算力的需求,会持续多久?人工智能算力领域会有什么样的转变?还是说,现在要想获得 GPU,还是需要排队至少两年?Yann LeCun:Meta 和微软等公司是 Nvidia 公司 GPU 的最大买家。Saqr BingHalib 补充:现在阿联酋也是如此(笑)。Yann LeCun:这是一个很好的问题,我不知道阿联酋有多少张 GPU 卡。但大多数人实际上都是从云服务提供商那里租用 GPU 的,大家不一定有自己的 GPU,也不一定有自己的基础设施,但我可以给出一个数字,马克·扎克伯格(Mark 扎克伯格)宣布,到今年(2024)年底,Meta 将有至少 60 万张 GPU,其中很多会用于研发和实际生产环境部署。所以,当你和 AI 助手对话时,需要一个 GPU 来运行它。但在硬件正在取得很大的进步,这并不是因为摩尔定律,因为摩尔定律已经趋于饱和,而是因为芯片的设计会更适合、更高效地运行人们感兴趣的神经网络类别。存在两大类需要高效运行的神经网络架构(笔者认为这里 Yann 指的大概率是 Decoder-only 和 Bert),需要弄清楚什么样的硬件架构适合它们,人们在这方面正在取得进展。此外,在深度学习系统的神经网络计算中,计算的精度不需要非常高,只需几位就足够了。普通计算机的计算是基于 64 位或 32 位的数字,但对于神经网络,实际上可以用 16 位进行训练,训练完成后可以量化到 8 位甚至有时候 4 位,这使得即使是非常大的系统也能在更常规的硬件上运行。今年将要发布的笔记本电脑大多数都将内置神经网络加速器,且内存足够运行相当大的神经网络。接下来,我们将需要在智能眼镜和智能手机上运行非常基础的前端神经网络,现在的智能手机至少在高端市场上已经配备了神经网络加速器。同时,也在研究将非常低功耗的电子产品整合到智能眼镜中。很快,每个嵌入式设备都将配备 AI 神经网络系统,比如你的吸尘器、自动化割草机、甚至是退休社区天花板上的摄像头,它们可以检测到人们是否跌倒在地等等。这些设备将无处不在,甚至在 3 美元的微控制器中也能看到。Saqr BingHalib:这里很多都是基于开源的系统或开源模式,比如阿联酋的 Falcon。开源可以让发展中国家和初创公司应用人工智能,但为什么我们所听到的另一面是,也有声音反对开源系统,转而推广闭源人工智能系统?是开源在很大程度上真正构建了互联网,构建了我们今天看到的一切吗?Yann LeCun:在互联网诞生之初,互联网的软件基础设施实际上并不是开源的,当时太阳微系统公司(Sun Micro Systems)和微软公司(Microsoft)在操作系统和网络服务器等方面展开了一场大战。因此,我认为人工智能领域将会发生类似的事情——也就是说,专有平台仍会有其存在的空间,但它们属于一种特殊的商业模式,大家可以通过 API 订阅这些系统,但专有平台将很难为自己的应用程序进行定制,因为无法访问所有代码,就无法将它移植到你的硬件上,且无法在本地运行。必须使用某个位于西海岸的服务器。因此,闭源系统所能实现的应用前景,其实没有开源那么大。而我们在过去一年左右的时间里发现了,正在发布的开源模型的性能正在逐步达到与最好的闭源模型几乎相同的水平——因此,在某个时刻,它会成为专有技术的终结者,在此之后,开源的基础(模型)将会被应用。然后在这个基础上再开发商业应用,或闭源应用。只要开源许可证的规定允许,那么无论是 C 端用户,政府,还是科学领域,等等都可以按需使用。 我认为这就是未来,也是人类所能想象到的更好的未来。强大的人工智能系统是危险的,但目前这些系统并不危险,目前离人类水平的智能还很遥远。当然有故事说, 大家可以用人工智能来指导制造化学武器或生物武器之类的东西,但这都是假的,因为这些都是根据公开数据训练的,至少在当前,人工智能还无法真正发明任何东西。当然这些系统可能真的足够聪明,能够给你提供比搜索引擎更好的有用信息。Saqr BingHalib:但当前情况并非如此,我曾听您说过,如果我们把今天世界上所有可用的数据,以及今天世界上开发的所有人工智能模型都整合到一个系统中,它仍然不会比家里的猫聪明,对此您能再解释一下吗?Yann LeCun:是的。一只猫咪的大脑约有 8 亿个神经元。目前我们拥有的最大的、实用的大模型有几千亿个参数,相当于突触的数量,但为什么这些系统还不如一只猫聪明?因为猫可以记忆和理解物理世界,可以计划复杂的行动也可以做一些推理。实际上,它比最大的大模型要好得多。 这就说明我们还缺少一些概念——要让机器变得像动物和人类一样聪明,还需要很多,目前仍然需要一些突破。通用人工智能——不管如何称呼,能像人类一样的 AI 一定会出现。毫无疑问,在未来的某个时刻,我们会拥有比人类更聪明的机器,在人类能运用智慧的所有领域,AI 都会为我们工作,我们会为 AI 设定目标,它们会为我们执行这些目标。但目前还没到那一步,还需要重大发现和突破。Saqr BingHalib:感谢,我来自阿联酋人工智能办公室,我们其实是政策的制定者,但你处于人工智能发展的技术前沿,我想问的是,目前距离超智能或人类水平的智能,还有多远?Yann LeCun:也许在座的很多有生之年能见证超智能,但我就不一定了。实现超智能,需要几十年的时间。这里我想说的是,这个领域在未来几年内,将会取得进展。幸运的话,进展会比预期要快,但这不是几年之内就能看到的事情。可能超过十年,也可能超过二十年。这只是我的一种猜测,当然,我这么说其实冒了很大的风险,因为在过去的 65 到 70 年里,人工智能历史上的所有人工智能研究人员都对这种预测比较乐观,结果证明大家都是错的。当一种新范式出现,如果出现能让机器解决问题的新方法时,大家就会认为掌握了智能的秘密,10 年内,就会出现和人类一样聪明的机器。当然, 自 1955 年以来,每隔五年大家就会说一次这样的话,但很显然,大家都错了。如今,在人工智能领域很有名气的公司在 10 年前就开始告诉投资者,通用人工智能就在不远处。三年后,这些人都错了——大家所提倡的技术,并没有所想象的那么好。当我这么说的时候,我可能也是预言错误的人的其中之一。Saqr BingHalib:想要 AI 达到人类的智能水平,是否需要有突破性进展?是否需要更多的数据? Yann LeCun:需要的是新的架构,当你说新的算法时,这取决于你说的是哪种算法,所以我们用于深度学习的基本算法是反向传播,用来调整参数。一是系统学习世界如何运作的能力,主要是通过观察和一些互动,就像婴儿在出生后的头几个月学习世界如何运作一样,类似于动物的宝宝也会学习世界如何运作。然后让系统预测文本中的下一个单词,如果系统经过数万亿个单词的正确训练,它就能预测出下一个单词,然后将其转换到输入中,就能预测出下一个单词。这就是今天所有语言系统的工作原理。为什么不用视频来做这件事呢?用视频帧替换单词,然后让系统预测视频中接下来会发生什么?视频中接下来会发生什么,预测下一帧太容易了。目前我们不知道如何正确地做到这一点。而目前唯一有可能用于视频的技术,是一种新的架构,名为 V-JEPA,意思是联合编辑预测。这里先不展开解释了。有趣的是,它不是生成式架构。所以,我说的笑话其实不是笑话,而是我真的相信这一点。现在很多人都在谈论生成式人工智能,而人工智能的未来不是生成式的。我认为如果我们能找到方法,让机器了解世界是如何运作的,它们就不会是生成式的。比如——让机器通过观看视频来了解世界是如何运作的——我们已经拥有了足够多的数据我们只是不知道该如何处理这些数据,一个四岁的孩子,有 16000 个小时是醒着的。16,000 小时的视频是 30 分钟,所以我们有足够多的视频,而且很多视频比所有的文字资料都要丰富得多,这就是为什么我们需要对系统进行培训,从高频段发出信号,比如——视频文本是不够的。第二点是可存储和记忆的系统。人脑中有一块特殊的区域叫做海马区,在人类大脑中有一块特殊的区域,叫做海马体,是我们的偶发记忆和短期记忆。如果没有海马体,就不能记住超过几分钟的东西。(注释:系统能够存储和记忆,即具有一种类似于人脑中海马体功能的关联记忆。海马体是人脑中负责人类的情节记忆、短期记忆和长期记忆的部分。如果没有海马体,人就无法记住超过几分钟的事情。当今的大型语言模型(LLMs)没有持久性记忆。它们只能根据给定的输入(提示)进行操作,这并不是一种有效的记忆方式。这意味着,尽管 LLMs 在处理和生成基于当前输入的文本方面非常强大,但它们缺乏一种能够存储和利用过去交互的长期记忆机制。第三是 LLM 的推理:目前大语言模型只是一个词接一个词推理,没有事先计划。而大多数人类说话时,都会事先计划好要说什么。第四就是——计划。当“生物”要执行一项任务时,哪怕是非常简单的任务,包括猫和狗也可以进行“计划”这个动作。如今,没有哪个人工智能系统能做到这一点, 唯一能做一点规划的系统——比如象棋和围棋,会提前预测可能的走法。但在某种程度上,让计算机做这种现实世界中的规划,目前还不知道怎么做Saqr BingHalib:谢谢,这是最后一个问题,现在我们是在世界政府峰会上,到场的有政府官员、学术界、研究人员和来自 140 多个国家的政策制定者。如果让您给大家一个人工智能领域的建议,让他们带自己国家并思考,您觉得是什么?Yann LeCun:这里有几个建议,第一个建议就是人工智能主权的重要性。大家需要在自己的国家地区,自己文化社区或语言社区拥有属于自己的人工智能主权。想要实现人工智能主权,大模型的训练成本非常高,同样的原因,我们并不需要 10 条不同从迪拜到阿布扎比的高速公路,只需要一条。那么,基于开源模型,所有人都可以实现相应的属于自己的需求。所以,第一件事就是不要因为人们想象中的恐惧,而过度监管开源 AI。过度监管对于行业,是非常糟糕的,这是第一项建议。第二项建议:对于大多数人来说,发展和日常使用人工智能的最大障碍是教育和培训——教育大家应用 AI,以及提供获取计算资源的途径,因此如果(某个国家地区)有办法创建国家级别计算资源(算力),去支持学术界的初创企业,这样就可以很轻松地创建人工智能生态系统。然后基于这种生态系统,研究如何将基于本地的文化数据和人工智能相结合,并且进一步进行培训,以便为基于本国的文化、语言、价值体系和兴趣中心进行 Finetune,这就是我的建议,谢谢!
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。