OpenAI回击纽约时报：似乎在故意操弄提示词以制造侵权结论

原创

2024-01-09 16:37 星期二

财联社史正丞

①纽约时报诉OpenAI案，也被广泛视为界定数据要素法律权益边界的重要案例；
②在1月8日的长文中，OpenAI强调使用公开数据训练大模型符合“公平使用”原则，同时已采取措施避免模型直接输出原文；
③OpenAI同时质疑纽约时报使用了非常规的手段来生产侵权证据。

财联社1月9日讯（编辑史正丞）面对势将载入科技史册的《纽约时报》起诉OpenAI一案，这家科技巨头本周发表长文，对使用公开信息训练大模型的合法性进行辩解，并指责《纽约时报》“没有对公众展现事情的全貌”。

（来源：OpenAI Blog）

在去年12月27日提出的诉讼中，《纽约时报》指控OpenAI与微软“在未经许可的情况下使用该媒体数百万篇文章”训练大模型，造成“数十亿美元的损失”，并要求OpenAI和微软销毁一切使用纽约时报内容训练出来的大模型。

科技巨头使用互联网信息训练大模型是否侵犯创作者版权一事，目前仍属于等待司法机构裁定的问题。正因如此，《纽约时报》诉OpenAI案就备受科技、传媒行业的关心，这个案子极有可能最终需要美国高院来定夺。

OpenAI讲了些什么？

OpenAI的回应，非常工整地分成四个部分：1、公司正在与媒体行业合作，创造新的机会；2、使用互联网数据训练模型是合理的行为；3、聊天机器人出现“反刍”现象是非常罕见的，正想办法避免这种情况；4、纽约时报可能存在蓄意诱导聊天机器人展示“反刍”的行为。

首先，这里需要先解释一下“反刍”（Regurgitation），指的是聊天机器人在回答问题时，简单重复或直接引用先前收到的信息。在版权官司中，证明侵权的重要步骤包括证明“被告未经授权复制受保护的作品”。类似的问题还有“无意识记忆”，指的是模型在训练过程中保留了训练数据中的具体细节，这也会对模型的质量造成破坏。

因此公司也安排了对应的限制措施，同时在模型输出时避免出现“反刍”。OpenAI强调，大模型是从庞大的人类知识总集中展开学习，任何一个领域（包括新闻）都只是其中的一小部分，任何单一的数据来源——包括纽约时报，对于模型旨在进行的学习而言都不具备显著性。

同样在版权官司中，被告常见的辩护策略包括主张他们的行为属于“合理使用”（Fair Use），OpenAI的文章中也提到了这一点。

OpenAI强调，使用公开的互联网信息训练人工智能模型属于“合理使用”的范畴。公司认为这一原则对创作者是公平的、对创新者是必要的，同时对美国的竞争力至关重要。

当然，这一主张仍需经历司法的确认。所以OpenAI也表示，学术圈、企业和创作者们对此“广泛支持”，这些人最近也向美国版权办公室提交了相关的意见。除此之外，OpenAI也强调欧盟、日本、新加坡、以色列等国也有法律允许使用版权内容训练模型。最后，OpenAI也曾向创作者们提供要求不使用他们内容训练模型的机制，纽约时报已经在去年8月提出了这项要求。

指责纽约时报“有所隐瞒”

OpenAI表示，公司一直在与《纽约时报》进行建设性的讨论，直到12月19日进行的最近一次对话。公司已经明确向纽约时报解释，他们的内容并没有对训练模型做出有意义的贡献，也不会对未来的训练产生足够的影响。正因如此，在12月27日看新闻得知纽约时报提出起诉时，公司感到意外和失望。

科技巨头也表示，纽约时报指出的“反刍”案例不仅存在瑕疵，而且可能是故意操弄的结果。

OpenAI表示，纽约时报提出的案例似乎来源于多年前的文章，并且这些文章在多个第三方网站上广泛传播。同时纽约时报“看起来”在故意操弄提示词，包括提供文章片段诱导聊天机器人进行“反刍”，或是从多次尝试中寻找有利于他们的证据。

OpenAI强调，公司已经展现了对版权问题的严肃态度，例如在去年7月发现新产品能够绕过媒体“付费墙”获取实时内容后，公司迅速采取措施下架了相关内容。

阅74.76W

我要评论

反馈意见

欢迎您发表有价值的评论，发布广告和不和谐的评论都将会被删除，您的账号将禁止评论。

发表评论

要闻

股市

关联话题

环球市场情报

0 人关注

+ 关注

美股动态

0 人关注

+ 关注

人工智能

0 人关注

+ 关注

首页

电报

话题

盯盘

VIP

FM

投研

下载

头条

A股

港股

环球

公司

券商

基金·ETF

地产

金融

汽车

科创

品见

（来源：OpenAI Blog）