亚马逊支持的公司Anthropic的AI专家被指在法庭文件中引用虚构的学术文章
亚马逊支持的公司Anthropic的一名AI专家被指控在一份旨在为公司辩护的法庭文件中引用虚构的学术文章,该文件旨在回应关于公司未经许可使用版权歌曲歌词训练其AI模型的指控。
这份文件由Anthropic数据科学家Olivia Chen提交,是公司对环球音乐集团、Concord、ABKCO及其他主要出版商提起的7500万美元诉讼的法律回应。
出版商在2023年的诉讼中声称,Anthropic非法使用了包括碧昂丝、滚石乐队和海滩男孩等数百首歌曲的歌词来训练其Claude语言模型。
根据路透社的报道,Chen的声明中引用了一篇《美国统计学家》的文章,旨在支持Anthropic的论点,即Claude仅在极少且特定的条件下再现版权歌词。
在周二圣荷西的听证会上,原告律师Matt Oppenheim称该引用为“完全虚构”,但表示他不认为Chen是故意编造的,只是她可能使用Claude本身生成了该来源。
Anthropic的律师Sy Damle在法庭上表示,Chen的错误似乎是一个引用错误,而非虚构,同时批评原告在诉讼程序中提出该问题太晚。
根据路透社的报道,美国地方法官Susan van Keulen表示,该问题构成了“非常严重和重大的”关注,并指出“漏掉引用和AI生成的幻觉之间有天壤之别。”
她拒绝了立即质询Chen的请求,但命令Anthropic在周四之前正式回应该指控。
Anthropic尚未立即回应Decrypt的评论请求。
Anthropic在法庭上
对Anthropic的诉讼于2023年10月提起,原告指控Anthropic的Claude模型是在大量版权歌词上训练,并按需再现这些歌词。
他们要求赔偿损失、披露训练集及销毁侵权内容。
Anthropic在2024年1月回应,否认其系统被设计为输出版权歌词,并称任何此类再现为“罕见的错误”,指责出版商没有提供证据表明普通用户会遇到侵权内容。
在2024年8月,该公司又遭到一起诉讼,这次是来自作者Andrea Bartz、Charles Graeber和Kirk Wallace Johnson,他们指控Anthropic在未经许可的情况下使用盗版版本的书籍训练Claude。
生成AI与版权
此案是针对生成AI公司日益增长的反对声浪的一部分,这些公司被指控在没有同意的情况下将版权材料纳入训练数据集中。
OpenAI正面临来自喜剧演员Sarah Silverman、作家公会和《纽约时报》的多起诉讼,指控该公司在未获得许可或授权的情况下使用版权书籍和文章训练其GPT模型。
Meta也在类似的诉讼中被提及,原告声称其LLaMA模型是在未经授权的文学作品和盗版数据集上训练的。
与此同时,在3月,OpenAI和谷歌敦促特朗普政府放宽有关AI训练的版权限制,称这些限制是创新的障碍,并在即将到来的美国“AI行动计划”的正式提案中提出了这一点。
在英国,一项允许人工智能公司在未获许可的情况下使用版权保护作品的政府法案本周遭遇阻碍,因上议院支持一项修正案,要求人工智能公司披露其在模型中使用的版权材料。