OpenAI 的 GPT 模型的巨大飞跃可能来自于吸收整个书面网络。其中包括阿克塞尔·施普林格 (Axel Springer)、康泰纳仕 (Condé Nast) 和美联社 (The Associated Press)等主要出版商的全部档案——未经他们的许可。但出于某种原因,OpenAI 已经宣布与许多这样的企业集团达成交易。
乍一看,这完全没有道理。为什么 OpenAI 会为它已经拥有的东西付费呢?为什么出版商会同意呢?其中一些出版商对他们的作品被盗感到诉讼式的愤怒。
我怀疑,如果我们对这些交易观察得足够长,我们就能看到网络成形未来的一种可能的形态。谷歌向外部提供的流量越来越少,这威胁到了整个网络的生存。 OpenAI 可能正试图填补搜索领域的权力真空。
优惠
让我们从我们所知道的开始。根据宣布 Axel Springer 交易的新闻稿,这些交易使 OpenAI 能够访问出版物,例如“通过添加有关各种主题的最新权威内容来丰富用户对 ChatGPT 的体验”。 “最近内容”部分是关键。抓取网络意味着有一个日期,超过该日期 ChatGPT 就无法检索信息。 OpenAI越接近实时访问,其产品就越接近实时结果。
一方面,这是微不足道的,只是小得令人尴尬的钱
我认为,围绕交易的条款仍然模糊,因为每个人都已经彻底签署了保密协议。当然,我对与本出版物的母公司 Vox Media 的交易细节一无所知。就出版商而言,保密细节可以让他们在转向谷歌和人工智能初创公司 Anthropic 时拥有更强的优势——就像不透露你之前的薪水可以让你向新的愿意索要更多的钱一样——成为雇主。
据The Information 报道,OpenAI 每年向出版商提供的资金仅为 100 万至 500 万美元。有一些关于与 Axel Springer、金融时报、新闻集团、康泰纳仕和美联社等出版商的交易的报道。我根据公开报道的数据进行粗略计算表明,这些交易的上限是每年每份出版物 1000 万美元。
一方面,这是微不足道的,只是小得令人尴尬的钱。 (该公司前顶级研究员 Ilya Sutskever仅2016 年就赚了 190 万美元。) 另一方面,OpenAI 无论如何已经抓取了所有这些出版物的数据。除非法院禁止其这样做,否则它可以继续这样做。那么,它究竟是为了什么呢?
也许是 API 访问,使抓取变得更容易、更及时。目前,ChatGPT 无法回答最新的查询; API 访问可能会改变这一点。
但这些付款也可以被认为是确保出版商不会因为 OpenAI 已经删除的内容而起诉 OpenAI 的一种方式。一家主要出版物已经提起诉讼,对于 OpenAI 来说,其后果可能要昂贵得多。法律纠纷将持续数年时间。
《纽约时报》准备提起诉讼
如果 OpenAI 吸收了整个基于文本的互联网,这意味着几件事。首先,短期内无法再次生成如此大量的数据,因此这可能会限制 ChatGPT 实用性的进一步飞跃。 (值得注意的是,OpenAI 尚未发布 GPT-5。)第二,很多人很生气。
其中许多人已经提起诉讼,其中最重要的是《纽约时报》提起的诉讼。 《纽约时报》的诉讼称,当 OpenAI 吸收其作品来培训其法学硕士时,它涉嫌侵犯版权。此外,通过这样做创建的产品OpenAI现在正在与《泰晤士报》竞争,其目的是“抢走它的观众”。
《纽约时报》的诉讼称,它试图与 OpenAI 谈判以允许使用其作品,但谈判失败了。我将根据我上面所做的数学进行大胆猜测,并说这是因为 OpenAI 向《纽约时报》提供的资金少得令人侮辱。它的借口?合理使用——允许在某些情况下未经许可使用受版权保护的材料的条款。
如果该报胜诉,OpenAI仅法定损害赔偿就必须支付至少 75 亿美元
如果《纽约时报》赢得诉讼,它可能有权获得法定损害赔偿,起价为每件作品 750 美元。 (我知道这些数字是因为——正如你可能从我使用的“法定”一词中猜到的——它们是由法律规定的。该报还要求赔偿损失、恢复原状和律师费。)《泰晤士报》称 OpenAI 摄入了 10总工程量为 100 万美元——因此,仅法定损害赔偿金就绝对至少为 75 亿美元。难怪《纽约时报》不会达成数百万美元的交易。
因此,当 OpenAI 与出版商达成交易时,从功能上讲,它们是一种和解,保证出版商不会像《纽约时报》那样起诉 OpenAI。它们的结构还使得 OpenAI 能够维持其之前对出版商作品的使用属于合理使用——因为 OpenAI 将不得不在多个法庭案件中辩称,尤其是与《纽约时报》有关的案件。
新闻媒体联盟首席执行官丹妮尔·科菲 (Danielle Coffey) 表示:“我确实有充分的理由相信,他们愿意在合理使用的情况下保留使用此信息的权利。” “如果他们不这样做,他们就不会在法庭上争论这一点。”
OpenAI 似乎希望稍微挽回一下自己的声誉。如果你要推出一款希望人们付费的新产品,它就不能带有大量的包袱和不确定性。 OpenAI 确实有包袱:为了进行合理使用辩护,它必须承认未经许可盗用了《纽约时报》的受版权保护的材料——这隐含着它也未经许可盗用了许多其他受版权保护的材料。它的论点只是它在法律上有权这样做。
还有一个准确性问题。在这一点上,我们都知道生成式人工智能会编造一些东西。出版商的交易不仅提供了合法性——它们还可以帮助提供生成人工智能信息,而这些信息不太可能导致令人尴尬的错误。
谷歌
发挥作用的不仅仅是诉讼预防和声誉管理。还记得这些交易如何为 OpenAI 提供最新信息吗? OpenAI 最近发布了自己的搜索引擎 SearchGPT。人工智能原生网络搜索仍处于萌芽阶段,但能够过滤掉人工智能生成的 SEO 大量内容,转而支持可靠信息的真实来源将是一个优势。
谷歌搜索在过去几年中严重退化,而谷歌在其结果之上添加的人工智能聊天机器人并没有完全帮助解决问题。有时它会给出不准确的答案,同时将包含真实信息的链接隐藏在页面下方。如果您想开发一款产品来颠覆我们所知的网络搜索,那么现在正是时候。
OpenAI 交易为出版商提供了更多筹码,并可能最终迫使谷歌坐到谈判桌前
谷歌还成功地激怒了出版商——不仅通过为其大型语言模型获取所有数据,还通过重新调整自己的用途。曾几何时,Google 搜索是发布商的主要流量来源,也是引导人们找到主要来源的一种方式。但后来,谷歌引入了“片段”,这意味着人们不必点击链接即可找到,例如,需要将椰子奶油稀释多少才能使其相当于椰奶。由于人们没有访问原始来源,因此发布商的广告没有获得尽可能多的展示次数。多年来搜索的各种其他变化意味着谷歌向出版商,尤其是规模较小的出版商带来的流量减少。
现在,谷歌的人工智能聊天机器人进一步排挤出版商。但 OpenAI 交易为出版商提供了更多筹码,并可能最终迫使谷歌坐到谈判桌前。
谷歌一般不习惯进行付费搜索交易。直到最近,发布商的安排仍然是获得流量推荐。但对于其聊天机器人,谷歌确实与 Reddit 达成了一项协议。谷歌每年花费 6000 万美元进入 Reddit,切断了所有未达成类似协议的搜索引擎。这比 OpenAI 支付给出版商的钱要多得多,并且已经打开了一扇出版商似乎打算走进去的大门。
占领搜索市场可以证明所有投资都是合理的
多年来,谷歌对普通人的用处已经越来越小。生成式人工智能可能会让情况变得更糟,因为它会创建充满垃圾文本的广告网站。当然,Google 不会一视同仁地对待它抓取的所有网站。但如果有人能想出一种能够提供更高质量信息的替代方案,那么迷失方向的搜索引擎可能就会遇到真正的麻烦。毕竟,这就是谷歌本身如何取代其之前的搜索引擎(例如 AltaVista)的原因。
OpenAI烧钱,今年可能亏损50亿美元。目前该公司正在进行另一轮谈判,估值超过 1000 亿美元。为了证明接近这一估值的合理性,它需要一条盈利之路。占领搜索市场可以证明所有投资都是合理的。
OpenAI 的 SearchGPT 还不是一个严重的威胁。它仍然是一个“原型”,这意味着如果它在告诉人们在披萨上涂胶水的顺序上犯了错误,那就更容易解释了。与 Google 不同的是,SearchGPT 的用户数量有限,因此很少有人会看到任何早期错误。
与出版商的交易还为 SearchGPT 提供了另一个声誉缓冲。它的竞争对手 Perplexity 因抓取明确禁止它的网站而受到批评。相比之下,SearchGPT 是与签署交易的出版商的合作。
当法院真正做出裁决时会发生什么?
目前尚不完全清楚转向“答案引擎”对于出版商的利润意味着什么。也许有些人会继续点击查看原始来源,特别是如果无法从大型语言模型中消除幻觉的话。另一种可能的模式来自 Perplexity,它迟来地推出了收入共享计划。
收入分享计划让 Perplexity 更容易声称其抓取内容属于合理使用(听起来很熟悉?)。 Perplexity 的情况与 ChatGPT 略有不同;它创建了一个“Pages”产品,不幸的是,该产品有抄袭受版权保护的材料的倾向。 《福布斯》和《康泰纳仕》已经向 Perplexity 发送了法律恶意图。
所以这是一个大问题:当法院真正做出裁决时会发生什么?这些出版商交易存在的部分原因是为了减少法律诉讼的威胁。但它们的存在可能会驳斥“为人工智能抓取受版权保护的材料是合理使用”的论点。
抄袭错误
对《纽约时报》有利的裁决可能对谷歌和 OpenAI 以及支持 OpenAI 的微软都有帮助。也许这就是谷歌前首席执行官埃里克·施密特(Eric Schmidt)所说的意思,他说企业家应该对受版权保护的作品为所欲为,并“聘请一大批律师来收拾残局”。
当涉及到版权法时,法院是不可预测的,因为它有点像色情片——法官一看到它就知道侵权。另外,如果《纽约时报》和 OpenAI 之间确实进行审判,那么无论谁胜诉,几乎肯定都会对判决提出上诉。
法庭案件需要时间,上诉需要更多时间。法院还需要数年时间才能解决这一切。对于像 OpenAI 这样的公司来说,这有足够的时间来发展主导业务。
她特别提到谷歌是如此之大,以至于它可以迫使出版商遵守其条款
假设 OpenAI 最终失败了。这意味着所有大型语言模型的创建者都必须付出代价。这可能会变得非常昂贵、速度非常快——这意味着只有最大的参与者才能参与竞争。它让每一个成熟的参与者都陷入困境,并有可能摧毁许多开源法学硕士。这使得谷歌、微软、亚马逊和 Meta 在生态系统中比它们已经占据主导地位的地位更加重要——还有 OpenAI 和 Anthropic,这两家公司都与一些主要参与者有交易。
新闻媒体联盟的科菲表示,大型科技公司如何应对针对它们的裁决也有一些先例。她特别指出,谷歌规模如此之大,以至于可以迫使出版商遵守其条款;似乎是为了强调她的观点,在我们采访几周后,谷歌在反垄断案件中被合法宣布垄断。
以下是谷歌巨大权力的一个例子:2019 年,欧盟授予数字出版商在谷歌使用其作品片段时要求付款的权利。这项法律首先在法国实施,导致谷歌告诉出版商它只会使用他们作品的标题而不是付费。 “因此他们向法国出版物发出了一堆信件,说如果你想被发现,就放弃版权保护,”科菲说。 “从这个意义上说,他们几乎凌驾于法律之上”,因为谷歌搜索占据主导地位。
谷歌目前正在利用其搜索主导地位以类似的方式挤压出版商。阻止人工智能总结人们的工作意味着谷歌根本不会列出他们,因为它使用相同的工具来抓取网络搜索和人工智能培训。
“这将是生态系统初期真正的反竞争悲剧。”
因此,如果《纽约时报》获胜,谷歌和其他主要人工智能公司似乎仍然可能要求达成对出版商没有多大好处的交易,同时也会摧毁竞争的法学硕士。 Public Knowledge 政策顾问尼古拉斯·加西亚 (Nicholas Garcia) 表示:“我非常担心我们正在建立一个生态系统,在这个生态系统中,唯一能够负担得起培训数据的人就是最大的公司。”
事实上,该诉讼的存在可能足以阻止一些玩家使用公开数据来训练他们的模型。人们可能会认为他们无法利用公开可用的数据进行训练,这会进一步缩小竞争动态,甚至超出计算和专家供应中已经存在的瓶颈。 “这将是生态系统初期真正的反竞争悲剧,”加西亚说。
OpenAI 并不是《泰晤士报》案件中唯一的被告;另一个是它的合作伙伴微软。如果 OpenAI 确实需要支付至少数亿美元的和解金,那么它可能会被微软收购——然后微软就拥有了 OpenAI 已经谈判好的所有许可协议,在这样的世界里,版权法要求进行许可交易。相当大的竞争优势。诚然,现在微软假装它并不真正了解 OpenAI,因为政府对反垄断有了新的兴趣,但当版权案件通过系统时,这种情况可能会改变。
OpenAI 可能会因为其谈判的许可协议而失败。这些交易为出版商的数据创造了一个市场,根据版权法,如果你扰乱了这样的市场,那么这就不属于合理使用。这种特殊的论点最近出现在最高法院关于安迪·沃霍尔 (Andy Warhol) 画作的案件中,该画作被发现与用于创作这幅画的原始照片不公平地竞争。
当然,法律问题并不是唯一的问题。我一直想知道一些更基本的问题:人们是否想要答案引擎,如果是的话,他们在财务上是否可持续?搜索不仅仅是寻找答案 – Google 是一种无需记住 URL 或为 URL 添加书签即可查找特定网站的方法。另外,人工智能的成本很高。 OpenAI 可能会失败,因为它根本无法盈利。至于谷歌,由于垄断调查结果,它可能会被监管机构分拆。
在这种情况下,也许出版商毕竟是聪明人:趁着钱还不错的时候拿到钱。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除