出版商内容出售给AI训练:赚取数百万美元

生成型人工智能(AI)模型需要大量数据。2024年12月9日自然杂志Nature刊文发表了一篇题目为《Publishers are selling papers to train AIs — and making millions of dollars》的文章提出学术出版商正在授权其内容用于训练这些模型。

自生成型人工智能(AI)爆炸性流行以来,多个学术出版商与科技公司达成协议,将其内容用于训练支撑AI工具的大型语言模型(LLM)。一项新的跟踪器旨在记录这些交易,明确由谁在进行这些交易。

“我们看到这些交易的公告,开始觉得这已经成为一种模式了,” Ithaka S+R(纽约的一家高等教育咨询公司)的副总裁Roger Schonfeld说,他是这一跟踪器的共同创始人之一。“我们想要揭示的不仅仅是个别交易,还包括这一整体模式的趋势,并为社区提供一个信息源。”

Schonfeld和他的同事们在10月推出了生成型AI许可协议跟踪器。该跟踪器包含了关于技术公司与六大主要学术出版商之间的许可协议的信息,包括Wiley、Sage和Taylor & Francis。Schonfeld表示,该列表仅记录了公开的协议,而可能还有其他一些协议未披露。

许多出版商正在考虑的问题包括,授权或不授权内容给生成型AI公司会如何影响收入,以及在这一领域成为首批行动者的风险和利益,Schonfeld说。“每一家具有一定规模的出版商都在处理这个问题。”

趋势增长

今年,几家大型出版商通过AI授权协议赚取了可观的收入。5月,英国学术出版商Taylor & Francis的母公司Informa宣布,已与微软达成价值1000万美元的内容授权协议。接下来的一个月,美国学术出版商Wiley向投资者透露,其通过与一家开发生成型AI模型的未透露名称的公司达成协议,已赚取2300万美元。9月,该公司表示,它预计今年财年将再从类似协议中获得2100万美元的收入。《自然》新闻团队联系了其他一些出版商,包括Elsevier和Springer Nature(《自然》杂志的出版商),询问他们是否有计划进行授权协议,但未收到回复。

Taylor & Francis的一位发言人表示:“我们正在授权数据和内容用于训练AI,例如LLM,以使这些模型更加准确和相关,造福所有使用它们的人。”“此类授权活动是研究出版商的一项重要责任,也是我们确保作者的创意能够做出最大贡献的持续承诺的一部分。”

该发言人还表示,版权费将支付给作者,并且与AI合作伙伴关系协议有严格的规定。例如,数据和内容仅可用于训练,并且在任何情况下都不得以等同格式进行复制。

Wiley的一位发言人表示,版权费将支付给书籍作者和其他出版伙伴,并且正在监控AI模型开发者,确保其没有未经授权使用版权材料。《自然》联系的几家出版商表示,他们已经采取了措施,防止AI工具未经许可从网上抓取他们的内容。

一些出版商尚未达成任何协议——其中包括美国科学促进会(AAAS),这是一个非盈利学术出版商,出版《科学》杂志。Meagan Phelan,AAAS《科学》系列期刊的通讯主管表示,AAAS可能会考虑未来将其内容授权给技术公司,但前提是这些公司满足某些标准。这些标准包括评估公司的可信度以及使用这些内容开发的工具的有效性。

优先事项的转变

有迹象表明,出版商并不将这些协议视为偶然事件。10月,Wiley启动了一项名为“Wiley AI Partnerships”的计划,旨在与科技公司合作开发AI应用。“这是被非常重视的事情,”Maya Dayan说,她是该跟踪器的共同创建者,也是ITHAKA(Ithaka S+R的母公司)战略研究与市场分析项目经理。“我们看到新职位和部门的设立,新的优先事项被制定——这些不是一次性的协议。”

一些学者对在没有他们知情的情况下,出版商将他们创作的内容授权给AI开发者感到担忧。为了应对这个问题,一些出版商已经采取了措施,让作者参与进来。

总部位于柏林的学术出版商De Gruyter Brill为作者创建了一个信息页面,解释其计划与生成型AI开发者达成正式协议。

De Gruyter Brill的传播总监Pablo Dominguez Andersen表示:“虽然许多作者已经明确同意我们使用他们的作品,但我们完全理解,部分作者仍然对AI的整体社会影响以及我们最近的声明感到怀疑或担忧。”“我们目前正在与这些作者直接沟通,了解他们的担忧,并解释我们的做法,及我们为何认为达成正式协议是唯一的前进道路。”

剑桥大学出版社(CUPA)采取了“自愿同意”的方式——这家英国出版商已联系了2万名作者,征求他们授权将其内容许可给开发LLM的科技公司。“我们之所以询问作者,并不是因为我们认为他们不该希望他们的内容被用于其中,而是我们希望能够告诉他们为什么这是件好事,”CUPA的董事总经理Mandy Hill在10月对《图书商》杂志表示。据Hill称,只有少数几位作者拒绝授权他们的内容。

“看到出版商如何与作者沟通并将他们纳入过程,真是很有意思,”Dayan说。“我已经开始看到一种趋势,即从一开始就与作者进行非常直接的沟通,而不是在宣布协议后再与作者互动。”

  • 2024-12-14