过去几年,大模型发展非常迅猛,可谓风起云涌。最近开源社区活力十足,展现了强大的生命力。毫无疑问,开源模型非常重要,如Meta公司发布的开源大模型LLaMA,促进了大模型的繁荣发展。国内要抓住机遇,让整个开源生态越做越好。
就“大模型时代的机遇和挑战”这个主题,我分享一些自己在人工智能开发和技术等方面的心得体会。
大模型令人震撼的三件事
近期关于大模型,有三件令人震撼的事情。
第一件事是文生图。正所谓“一图胜千言”。最近,一张由人工智能创作的图片登上了美国知名时尚杂志Cosmopolitan。这张图是在给出简单提示语——“在浩瀚的星空下,一位女宇航员昂首阔步地走向这个广角镜头”后,由人工智能系统生成的。我很喜欢这张图片,非常有视觉冲击力。据我所知,这是第一张登上美国知名杂志的人工智能图片。
没过多久,一位德国摄影师用人工智能技术生成了一张以两位女性为主体的照片,并投稿给一个摄影展,没想到居然获奖了。许多摄影师觉得这张照片看起来和真的摄影作品一样,是一个非常棒的作品。但这位德国摄影师拒绝领奖,因为觉得这是人工智能的作品,不是他的。这件事带给人们很多启发,了不起的技术发展为我们带来很多社会层面的思考。
第二件事是ChatGPT的效果提升。在文生文中,提示语可以产生“一句顶一万句”的效果,即问一句话可以给出很多好的答案。我在作演讲前会问它我应该讲些什么,它能给出非常好的框架。
第三件事是Sora的诞生。给人工智能视频生成大模型Sora一段提示词,如“一辆车行驶在悬崖上的土路上,尘土飞扬”,其生成的视频效果非常震撼。不仅视频质量很高,而且是长视频。Sora类似的演示视频还有很多。目前,Sora还没有对公众正式开放,相信国内已经有很多单位在做同样的事情,预计下半年会看到一些类似的系统面世。
这几件事发生后,国内已经有非常多的公司和开发者开展了相关工作。据说,现在全国大概有超过200家做大模型的公司,可以称之为“百模大战”。我觉得现在还没有到“战”的程度,更像是“群模乱舞”。
对开发者和科研工作者而言,大模型之所以令人振奋,是因为它带来了机会。
但是,要把科研做好,创新必不可少。在当前已有如此多令人震撼的突破面前,开发者接下来应该朝什么方向思考?未来最大的技术机会在哪里?我觉得,一个潜在的方向是多模态。
当前,以OpenAI为代表的机构,技术上是把不同模态分开来做。比如,OpenAI内部恐怕有两套体系,文生文走的是Transformer路线;文生视频整体走的是Diffusion路线,即从DALL-E文生图延展到现在的Sora。迄今为止,这两条线路还没有完全统一,相信接下来在这个领域,来自全球的开发者很快会有一些突破。
大模型对人工智能发展局势的改变,除了技术突破之外,产品设计也很重要。此前,我们在粤港澳大湾区数字经济研究院做了一款产品叫做“ReadPaper”,初衷是帮助研读科学论文,理念是“让天下没有难读的论文”。当时我们自认做得不错,但在大模型出现之后,我们看到了更好的机会,做了相对垂类的大模型。接入之后,ReadPaper的体验更好了。
对于人工智能发展的几点思考
在这样一个智能时代,机会到底在哪里?许多人一直讨论同一个词——通用人工智能(AGI)。对此,我分享几点思考。
首先,要重新思考人机关系。我认为,大模型的问世“强迫”我们重新思考人机关系。ChatGPT给我们带来的冲击里,到底有多少是机器智能的发展带来的?又有多少是对于人机交互的震撼?
科技学者、普利策奖得主约翰•马尔科夫有一本书叫做Machines of Loving Grace。他在书中提到,计算机几十年的发展历程中,真正的赢家是那些做人机交互的人。他的观点是,无论是什么技术,最终目的都是帮助人类更好地使用机器。这种理念对应一个专业术语,即“智能增强”。我认可他的观点,这也启发我们要时刻想清楚做智能研究的初心和目标。
其次,大模型将横扫所有垂直行业。简单来说,以A100为参考,未来的模型如果达到通用模型的性能,会达到万卡、万亿参数规模;有行业级的,千卡、千亿参数规模;有企业级的——这种少一些,差不多是百卡、百亿参数规模。我个人觉得最有意思的是个人大模型,云、端的设备可以结合起来,这在未来将非常有意义。
再次,算力是门槛。做大模型需要非常强大的算力。英伟达首席执行官黄仁勋当年曾经送给联合创办OpenAI的埃隆•马斯克世界上第一台英伟达 DGX-1。这是标志性的一幕。最近,OpenAI首席执行官Sam Altman要筹7万亿美元继续发展基于大模型的通用人工智能。7万亿美元是什么概念?以前人们常说“贫穷限制了想象”,现在可能是贫穷“扭曲”了我们的想象力。因为没有资金、没有计算卡,你能想象的、可以做的项目跟顶级选手就不太一样。
这其实在讲大家已经谈论很多的“规模效应”。在规模效应背后,算力、数据量都在增加,尤其参数规模的增加对算力的需求几乎是平方关系。GPT-3.5可能需要1万张计算卡,GPT-4可能需要2.5万张,GPT-5可能需要10万张。
第四,要对人工智能带来的社会冲击保持关注。人工智能带来的冲击是多方面的,包括对民众的冲击、对公司的冲击、对政府监管的冲击和对社会发展的冲击。国际上对此非常关注,尤其是在ChatGPT问世后。为什么?如果把搜索引擎类比为一个责任有限公司,则ChatGPT是责任无限公司——每句话都是它自己生成出来的。
ChatGPT有一个很大的问题,就是“一本正经地胡说八道”。它连贯且一致,但是它在胡说八道,这就会产生很多问题。还有一些“深度伪造”的问题,就连美国总统的脸都可以伪造。基于这样的情况,很多国家开始立法。我国政府也一直高度关注这些问题,整个国际社会都在努力减小人工智能带来的冲击。
最后,虽然人工智能蓬勃发展,但目前大家对智能的本质尚未形成非常清晰的认知,深度学习理论仍然欠缺。大家都希望有一套大一统的理论,将智能的本质统一起来。遗憾的是,现在深度学习领域还没有这样的理论。
纽约大学教授Gary Marcus 一直致力于推动这个方向的发展。他坚信无论ChatGPT怎么发展,现在的技术路线无法带来真正的智能。我认为这是学术上很好的不同观点,应该以开放的心态看待整件事情。类似的,开发出Transformer的7位作者曾在与黄仁勋对谈时说过,他们相信世界上会出现比Transformer更好的架构。
另外,许多人认为,大模型只要规模大到一定程度,就会出现“涌现”。去年,我与一些国际专家在香港科技大学的一个学术活动上探讨“涌现”背后的数学原理等问题。大家谈到,是不是(会有)“涌现”尚不可知,如果确实存在“涌现”,背后的机制是什么?规模在多大的时候才会出现“涌现”?是否存在类似水到冰的相变的临界点?这些问题现在还没有人能给出回答,值得人们在数学方面更进一步地研究。■
(作者系美国国家工程院外籍院士,记者赵广立根据其在2024全球开发者先锋大会上的演讲整理)
《科学新闻》 (科学新闻2024年4月刊 封面)