IT之家12月18日消息,据外媒TechCrunch今日报道,一项由作家Elizabeth Lyon发起的集体诉讼对Adobe发出新的指控,称对方在训练SlimLM语言模型时,使用了包括Lyon本人的作品在内的大量盗版书籍。Lyon来自俄勒冈州,长期从事非虚构写作,并出版多本写作指导类书籍。
Adobe方面介绍,SlimLM是一套面向移动设备文档辅助场景的小语言模型,其预训练基础为SlimPajama-627B数据集。该数据集由Cerebras于2023年发布,被描述为去重、多语料的开源集合。然而诉讼认为,SlimPajama本身来源存在问题。
诉讼文件指出,SlimPajama是在复制并加工RedPajama数据集的基础上生成的,而RedPajama包含广受争议的Books3数据集。Books3收录约19.1万本书籍,其中包含大量受版权保护作品。
诉讼明确指出,作为RedPajama的派生数据集,SlimPajama同样包含Books3内容,因此不可避免地纳入了原告及其他作者的版权作品。
围绕Books3和RedPajama的争议,早已不止于Adobe。此前,苹果和Salesforce均因涉嫌在AI训练中使用相关数据集而遭到起诉,相关案件指控企业未经授权使用受版权保护内容。
在更广泛的行业背景下,类似诉讼正在成为常态。AI模型对训练数据规模的高度依赖,使数据来源问题频频引发法律风险。今年9月,Anthropic同意向多名作者支付15亿美元(IT之家注:现汇率约合105.77亿元人民币),就其训练Claude时使用盗版作品的指控达成和解。该案件被外界视为AI训练版权争议的重要节点,然而行业内持续扩大的法律挑战仍未终结。
元鼎证券配资平台提示:本文来自互联网,不代表本网站观点。