AI革命正在耗尽数据。研究人员该怎么办?

AI开发者正迅速清理互联网,以训练大型语言模型,如支持ChatGPT的模型。《自然》杂志于2024年12月11日刊文《The AI revolution is running out of data. What can researchers do?》提出了即将耗尽数据的问题,以下是他们如何应对这一问题。

互联网是人类知识的广阔海洋,但它并非无限。而且,人工智能(AI)研究人员几乎已经把它“榨干”了。

过去十年,AI的爆炸性进步在很大程度上得益于神经网络的不断增大,以及它们在越来越多的数据上进行训练。这种规模化的做法被证明在使大型语言模型(LLMs)——如支持ChatGPT的模型——不仅更能复制对话语言,还能发展出推理等新兴特性方面,效果出奇的好。但一些专家表示,我们现在已接近规模化的极限。这部分是因为计算的能耗不断膨胀,另外一方面,LLM开发者也面临着训练模型的数据集已接近枯竭的困境。

今年,著名的一项研究引起了广泛关注,它给出了这个问题的数字:Epoch AI的研究人员预计,到2028年左右,用于训练AI模型的数据集的典型规模将达到公开网络文本总量的大小。换句话说,AI大约在四年内就会耗尽训练数据(见“数据枯竭”)。与此同时,数据所有者——如报纸出版商——开始加强对其内容使用的管控,进一步收紧访问。这导致了“数据共享池”出现危机,麻省理工学院(MIT)人工智能研究员Shayne Longpre说,他领导的“数据来源倡议”是一项致力于对AI数据集进行审计的草根组织。

即将到来的训练数据瓶颈可能已经开始影响到AI的开发。“我强烈怀疑这种情况已经发生了,”Longpre说。

尽管专家们表示这些限制可能会减缓AI系统的快速进展,但开发者们正在寻找解决方法。“我认为没有人对大型AI公司感到恐慌,”Epoch AI的马德里研究员、该项研究的主笔Pablo Villalobos表示。“或者至少他们不会给我发邮件说他们在恐慌。”

例如,OpenAI和Anthropic等位于加利福尼亚旧金山的知名AI公司,已经公开承认了这一问题,并表示他们有应对方案,包括生成新的数据和寻找非常规的数据源。OpenAI的一位发言人告诉《Nature》:“我们使用了众多来源,包括公开可用的数据和非公开数据的合作伙伴、合成数据生成以及AI训练师提供的数据。”

即便如此,数据危机可能会迫使AI模型的开发发生变革,可能会从大型通用型LLM转向更小、更专业化的模型。

万亿个单词

过去十年,LLM的开发展示了它对数据的巨大需求。虽然一些开发者并未公开他们最新模型的规格,但Villalobos估计,自2020年以来,用于训练LLM的“标记”(即单词的组成部分)的数量已增长了100倍,从数百亿增加到数万亿个标记。

这些标记可能占用了互联网上相当一部分的数据,尽管总量如此庞大,以至于难以精确估算——Villalobos估计,目前互联网上的文本数据总量为3100万亿个标记。各种服务使用网络爬虫抓取这些内容,然后去除重复数据并过滤掉不良内容(如色情),以生成更干净的数据集:一个常见的数据集叫做RedPajama,包含数万亿个单词。一些公司或学者自行进行抓取和清理,以制作定制的数据集来训练LLM。互联网上有一小部分内容被认为是高质量的,例如书籍或新闻中的经过人工编辑、社会可接受的文本。

然而,可用互联网内容的增长速度出乎意料地慢:Villalobos的论文估计,互联网可用内容每年的增长率不到10%,而AI训练数据集的大小每年翻倍。按照这些趋势,预计到2028年,数据的供给和需求将趋于交汇。

与此同时,内容提供者越来越多地将软件代码纳入其中,或通过精细调整使用条款来阻止网络爬虫或AI公司抓取其数据进行训练。Longpre和他的同事在今年7月发布的预印本中显示,越来越多的数据提供者阻止了特定爬虫访问其网站。在三大主要清洗数据集的高质量、最常用的网页内容中,被限制访问的标记数量从2023年的不到3%增加到2024年的20%-33%。

目前,几起诉讼正在进行,旨在为在AI训练中被使用的数据提供者争取赔偿。2023年12月,《纽约时报》起诉OpenAI及其合作伙伴微软侵犯版权;今年4月,纽约市的Alden Global Capital旗下的8家报纸联合提起类似诉讼。反方观点认为,AI应该像人类一样能够阅读并从在线内容中学习,这构成了对材料的合理使用。OpenAI公开表示,它认为《纽约时报》的诉讼“毫无根据”。

如果法院支持内容提供者应获得财务赔偿的观点,这将使AI开发者和研究人员(包括没有深厚资金支持的学术界)更难获得所需数据。“学术界将是这些协议的最大受害者,”Longpre说,“拥有开放网络的许多社会福利和民主利益将因此受到影响。”

寻找数据

数据瓶颈对传统的AI规模化策略构成了潜在的巨大挑战。虽然可以不增加训练数据集的规模,单纯增加模型的计算能力或参数数量来扩大模型规模,但这往往导致AI运行缓慢且成本高昂,Longpre表示——这通常不是首选。

如果目标是寻找更多的数据,一种选择可能是收集非公开数据,如WhatsApp消息或YouTube视频的转录本。尽管抓取第三方内容的合法性尚未得到明确判定,但公司确实可以访问自己的数据,且几家社交媒体公司表示,它们会使用自己的内容来训练AI模型。例如,加利福尼亚门洛帕克的Meta表示,其虚拟现实头戴设备Meta Quest收集的音频和图像被用于训练其AI。而政策则有所不同。视频会议平台Zoom的服务条款表示,Zoom不会使用客户内容来训练AI系统,而OtterAI(一个转录服务)则表示,它会使用去标识化和加密的音频及转录数据进行训练。

不过,目前这些专有内容大概总共有一个千万亿字标记,Villalobos估计。如果考虑到其中很多内容质量较低或重复,他表示,这大约能延迟数据瓶颈1年半的时间,假设一个AI可以无版权问题地访问所有内容。“即便数据量增加十倍,也只能买到大约三年的规模化时间,”他说。

另一种选择可能是专注于快速增长的专业数据集,如天文数据或基因组数据。斯坦福大学的知名AI研究员李飞飞公开支持这一策略。她在2024年5月的彭博技术峰会上表示,担心数据枯竭忽略了数据的广泛定义,健康、环境和教育等领域尚有大量未开发的信息。

但Villalobos表示,目前尚不清楚这些数据集是否可用或对训练LLM有用。“很多类型的数据似乎有一定的迁移学习能力,”Villalobos表示,“不过,我对这种方法并不抱太大希望。”

如果生成AI训练的是其他类型的数据而不仅仅是文本,那么可行性就更广泛了。一些模型已经能够在未标注的视频或图像上进行训练。扩展并改进这类能力可能会开启丰富数据的大门。

Meta的首席AI科学家、纽约大学计算机科学家Yann LeCun在2024年2月的温哥华AI会议上强调了这些可能性。他表示,现代LLM训练所需的1013个标记看起来很多:人类需要17万年才能阅读这么多内容。但他指出,4岁的小孩在清醒时通过观察物体吸收的数据量比这些要多50倍。LeCun在美国人工智能协会年会上展示了这一数据。

他表示,这种数据丰富性可能最终通过使AI系统以机器人形态,学习自己的感官经验来得到利用。“我们永远不会仅仅通过语言训练就达到人类水平的AI,”LeCun说。

如果找不到数据,可以创造数据

如果数据无法找到,可以通过创造更多数据来解决问题。一些AI公司支付人们生成内容来训练AI,另一些则使用AI生成的合成数据进行训练。这是一个潜在的巨大来源:OpenAI今年早些时候表示,它每天生成1000亿个单词——这相当于每年36万亿个单词,几乎与当前的AI训练数据集规模相当。且这一产出正在迅速增长。

通常,专家们一致认为,合成数据在那些有明确规则的领域中表现良好,例如国际象棋、数学或计算机编程。一个AI工具AlphaGeometry通过使用1亿个合成样本而没有任何人工演示,成功训练出了解决几何问题的能力。合成数据已经被应用于数据有限或存在问题的领域。例如,合成数据没有隐私问题,因此可以用于医学领域,而自驾车的训练场地也使用合成车祸数据,因为这些数据不会对任何人造成伤害。

合成数据的问题在于,递归循环可能固化错误观念,放大误解,从而使学习质量下降。2023年的一项研究创造了“模型自噬障碍”(Model Autophagy Disorder)这一术语,用来描述AI模型可能如何在这种情况下“发疯”。例如,一个部分使用合成数据训练的面部生成AI模型,开始绘制带有奇怪标记的面孔。

少量数据,大量成果

另一种替代策略是放弃“大模型更好”的理念。虽然开发者们仍在继续构建更大的模型,并依赖规模化来提升其LLM的能力,但许多人正在追求更高效的、小规模的任务专注模型。这些模型需要精炼的专业数据和更好的训练技术。

总体而言,AI研究已经在用更少的资源做更多的事。2024年一项研究得出结论,由于算法的进步,使得一个LLM在实现同样表现所需的计算能力大约每8个月就能减半。

这些变化,再加上专门为AI设计的计算芯片以及其他硬件的改进,开辟了重新利用计算资源的新途径:一种策略是让AI模型多次“重读”其训练数据集。尽管很多人认为计算机具有完美的记忆力,只需“阅读”一次资料,AI系统实际上是以统计方式进行工作,重读能提高性能,斯坦福大学的博士生Niklas Muennighoff表示。在他2023年在AI公司HuggingFace发布的论文中,他和同事们展示了一个模型通过重读一个给定数据集四次,学习到的东西和阅读同样数量的新数据一样多——尽管重读的好处在阅读次数增加后会迅速递减。

尽管OpenAI并未披露其最新LLM(o1)的模型大小或训练数据集规模,但该公司强调,该模型采取了新方法:在强化学习(模型通过反馈调整答案)上投入更多时间,并在每个回应上思考更久。观察者表示,这种方法使得重点从通过海量数据集的预训练转向了更多依赖训练和推理。这为规模化方法增添了新维度,Longpre表示,尽管这是一种计算开销很大的策略。

可能的是,LLM在阅读了大部分互联网内容之后,已经不再需要更多数据来变得更智能。卡内基梅隆大学的研究生Andy Zou认为,AI的进步可能很快通过自我反思来实现。“现在它已经有了一个基础知识库,可能比任何一个人都要多,”Zou说,这意味着它只需要静下心来思考。“我觉得我们可能已经接近这个时刻。”

Villalobos认为,所有这些因素——从合成数据到专业数据集,再到重读和自我反思——将有助于AI的进一步发展。“模型能够自我思考并与现实世界互动的结合——这可能会推动AI的前沿。”

  • 2024-12-17