
上周,Reddit的搜索结果开始从谷歌以外的搜索引擎上消失后,该公司终于出面解释了原因,基本上淡化了搜索问题,并表示它厌倦了人工智能公司免费使用其数据进行培训。
Reddit首席执行官史蒂夫·霍夫曼在接受the Verge采访时表示:“我们已经让微软、Anthropic和Perplexity表现得好像互联网上的所有内容都是免费的。”“…这使得我们现在不得不阻止那些不愿意接受我们希望如何使用或不使用我们数据的人。”
霍夫曼指责微软用从必应收集的Reddit数据训练人工智能,并通过必应API转而出售这些数据。Reddit的搜索内容被撤下,似乎在很大程度上只是阻止这一过程的副产品,尽管该公司也不高兴必应的搜索引擎使用人工智能来总结其帖子,而不需要用户点击它们。
但对抗人工智能会如何破坏搜索?虽然它们看起来是完全不同的技术,但人工智能和搜索都依赖于“网络爬虫”,它们在互联网上滚动,收集可以存储、显示或在其他地方使用的数据。这种技术对于搜索引擎的工作方式是必要的,但它也可以用于人工智能训练。当网站更新他们的文件以阻止网络爬虫时,它会破坏两者。
考虑到霍夫曼大部分时间都在谈论人工智能,问题的关键似乎是Reddit不希望公司在没有任何发言权的情况下对其用户数据进行培训,霍夫曼告诉the Verge,微软、Anthropic和Perplexity等公司拒绝谈判。
“如果没有这些协议,我们就没有任何发言权,也不知道我们的数据是如何显示的,或者是用来做什么的。”这位首席执行官表示,“封锁这些公司真的很痛苦。”
请注意,这并不意味着Reddit是完全无私的。今年早些时候,该公司签署了一项每年6000万美元的许可协议,允许谷歌对其人工智能进行用户帖子的培训,这也解释了为什么Reddit的帖子仍然不受阻碍地出现在谷歌搜索中。同样,OpenAI也可以在Reddit的帖子上进行训练,其即将推出的搜索引擎将能够链接到这些帖子,尽管Reddit与ChatGPT制造商达成协议的具体金额尚未披露。
Reddit并不是反对人工智能,而是希望参与到数据处理的决策过程中。哦,还有报酬。
The Verge网站称,霍夫曼提到了微软人工智能首席执行官穆斯塔法·苏莱曼最近的评论,作为该公司希望打击的行为类型的一个例子。在阿斯彭创意节(Aspen Ideas Festival)上与CNBC的安德鲁·罗斯·索尔金(Andrew Ross Sorkin)讨论时,这位高管表示,“已经在开放网络上的内容……可以说是‘免费软件’。”
这当然是对版权法的一种创造性解释,但这也不是微软独有的。尽管谷歌与Reddit达成了协议,但在去年7月,Gizmodo发现了谷歌隐私政策的一项变化,即谷歌使用“公开信息”来训练其人工智能模型,而没有承认谷歌实际上并不拥有发布到互联网上的所有内容。
虽然目前还不清楚谷歌是如何定义“公开可用”的,但这项新的交易可能会让人们对这个问题有所了解。就目前而言,人工智能培训可能会从一个人人免费的阶段发展到一个阶段,在这个阶段,那些有能力让公司付费的人将得到他们应得的回报(假设从销售用户在人工智能出现之前制作的内容中获利,在你看来这是值得的)。除了Reddit, The Verge的母公司Vox Media也与OpenAI达成了协议,《大西洋月刊》也是如此。至于我们其他人,我们将不得不依赖监管,而监管对欧盟以外的人工智能反应迟缓。



