OpenAI回击纽约时报:似乎在故意操弄提示词以制造侵权结论
原创
2024-01-09 16:37 星期二
财联社 史正丞
①纽约时报诉OpenAI案,也被广泛视为界定数据要素法律权益边界的重要案例;
②在1月8日的长文中,OpenAI强调使用公开数据训练大模型符合“公平使用”原则,同时已采取措施避免模型直接输出原文;
③OpenAI同时质疑纽约时报使用了非常规的手段来生产侵权证据。

财联社1月9日讯(编辑 史正丞)面对势将载入科技史册的《纽约时报》起诉OpenAI一案,这家科技巨头本周发表长文,对使用公开信息训练大模型的合法性进行辩解,并指责《纽约时报》“没有对公众展现事情的全貌”。

image

(来源:OpenAI Blog)

在去年12月27日提出的诉讼中,《纽约时报》指控OpenAI与微软“在未经许可的情况下使用该媒体数百万篇文章”训练大模型,造成“数十亿美元的损失”,并要求OpenAI和微软销毁一切使用纽约时报内容训练出来的大模型。

科技巨头使用互联网信息训练大模型是否侵犯创作者版权一事,目前仍属于等待司法机构裁定的问题。正因如此,《纽约时报》诉OpenAI案就备受科技、传媒行业的关心,这个案子极有可能最终需要美国高院来定夺。

OpenAI讲了些什么?

OpenAI的回应,非常工整地分成四个部分:1、公司正在与媒体行业合作,创造新的机会;2、使用互联网数据训练模型是合理的行为;3、聊天机器人出现“反刍”现象是非常罕见的,正想办法避免这种情况;4、纽约时报可能存在蓄意诱导聊天机器人展示“反刍”的行为

首先,这里需要先解释一下“反刍”(Regurgitation),指的是聊天机器人在回答问题时,简单重复或直接引用先前收到的信息。在版权官司中,证明侵权的重要步骤包括证明“被告未经授权复制受保护的作品”。类似的问题还有“无意识记忆”,指的是模型在训练过程中保留了训练数据中的具体细节,这也会对模型的质量造成破坏。

因此公司也安排了对应的限制措施,同时在模型输出时避免出现“反刍”。OpenAI强调,大模型是从庞大的人类知识总集中展开学习,任何一个领域(包括新闻)都只是其中的一小部分,任何单一的数据来源——包括纽约时报,对于模型旨在进行的学习而言都不具备显著性。

同样在版权官司中,被告常见的辩护策略包括主张他们的行为属于“合理使用”(Fair Use),OpenAI的文章中也提到了这一点。

OpenAI强调,使用公开的互联网信息训练人工智能模型属于“合理使用”的范畴。公司认为这一原则对创作者是公平的、对创新者是必要的,同时对美国的竞争力至关重要。

当然,这一主张仍需经历司法的确认。所以OpenAI也表示,学术圈、企业和创作者们对此“广泛支持”,这些人最近也向美国版权办公室提交了相关的意见。除此之外,OpenAI也强调欧盟、日本、新加坡、以色列等国也有法律允许使用版权内容训练模型。最后,OpenAI也曾向创作者们提供要求不使用他们内容训练模型的机制,纽约时报已经在去年8月提出了这项要求。

指责纽约时报“有所隐瞒”

OpenAI表示,公司一直在与《纽约时报》进行建设性的讨论,直到12月19日进行的最近一次对话。公司已经明确向纽约时报解释,他们的内容并没有对训练模型做出有意义的贡献,也不会对未来的训练产生足够的影响。正因如此,在12月27日看新闻得知纽约时报提出起诉时,公司感到意外和失望。

科技巨头也表示,纽约时报指出的“反刍”案例不仅存在瑕疵,而且可能是故意操弄的结果。

OpenAI表示,纽约时报提出的案例似乎来源于多年前的文章,并且这些文章在多个第三方网站上广泛传播。同时纽约时报“看起来”在故意操弄提示词,包括提供文章片段诱导聊天机器人进行“反刍”,或是从多次尝试中寻找有利于他们的证据。

OpenAI强调,公司已经展现了对版权问题的严肃态度,例如在去年7月发现新产品能够绕过媒体“付费墙”获取实时内容后,公司迅速采取措施下架了相关内容。

收藏
74.76W
我要评论
欢迎您发表有价值的评论,发布广告和不和谐的评论都将会被删除,您的账号将禁止评论。
发表评论
要闻
股市
关联话题
0 人关注
0 人关注