被记忆的句子的真相
确认了GPT-4模型在输出小说和新闻文章中的句子时是记忆的状态。首次通过论文揭示了AI在学习过程中记住的内容被如实复现的案例。
根据华盛顿大学和AI2的研究人员发表的论文,GPT-4在训练时记住了接触过的句子并再次生成这些句子的倾向。阿维拉莎·拉维钦德、崔艺珍、钱德拉·巴加瓦图拉等9名研究人员在2025年3月发表的论文中,通过‘信息引导探索(information-guided probing)’方法证明了这一事实。这种方法无需接触模型内部结构或权重,就能以统计方法判断GPT-4是否在记忆特定句子的状态下进行了输出。
研究人员分析了BookMIA电子书数据集,确认了GPT-4恢复小说原文的实例,包括单词排列、专有名词和标点位置都与原文一致。新闻文章中,部分纽约时报的内容以类似形式被再现,频率虽较低,但分析认为存在以相同方式记忆的可能性。

版权侵权诉讼
研究结果与纽约时报针对OpenAI提起的版权侵权诉讼直接相关。2023年底,纽约时报提出诉讼,称其文章被OpenAI的模型训练未经许可地使用。关键争议焦点是GPT-4是否会在用户请求下实际输出学习过的版权内容。
此次使用的‘信息引导探索’方法被认为是能证实该争议的技术证据。分析认为GPT-4以记忆状态重新输出了在训练中接触过的句子,成为生成内容是AI创作物而非原作者表达的可能性较大的依据。
美国版权法保护具体表达而非思想本身。因此即便在‘合理使用’(fair use)主张的情况下,如果GPT-4生成的句子结构与原作相似,也可能被认定为侵权。另外,若AI通过用户请求输出了版权句子,则企业或可能面临间接侵权责任的适用。

技术替代方案,制度仍不完善
研究人员同时提出了防止记忆的技术替代方案。‘SUV(选择性非学习)’是阻挡模型学习包含版权内容等特定数据的方法,‘DE-COP’是生成内容是否源自训练数据的后续识别分析方法。但尚未确认这些技术是否已用于包括GPT-4在内的商用模型。
讨论还包括在生成内容中嵌入水印以追踪出处的方法。然而这种方法仅适用于生成后的结果物,对消除或检测存在于模型内部的记忆表达有局限。像GPT-4这样已学习大量数据的模型,完全去除记忆内容的技术尚处于初期阶段。

重设规范的要求
围绕大语言模型学习中持有内容被视为记忆的程度讨论,已超越技术界限扩展至法律和制度的领域。如果没有有关数据收集的来源、版权人同意和学习范围等明确的标准,将来的相似争议不可避免。
GPT-4的案例仅仅是个开始,国内外所有大语言模型都无法免除版权问题。本论文所示的记忆情况不仅是简单的案例收集,还可能成为今后法院裁定的实证性依据。
AI技术在表达自由与创作者权利间选取何种平衡,由各国立法和司法体系决定。技术愈发高级,对应的法律责任和伦理标准也需要更加精细。