生成式人工智能很快就可以在人工智能生成的co上进行训练专家们正在敲响警钟。
这种现象被一些专家称为“模型崩溃”,可能会导致人工智能产生低质量的输出。
这个新词来源于AI-generated co内容充满了错误继续在互联网上泛滥。
广告广告
专家警告称,人工智能生成的内容可能会对生成内容的人工智能技术构成威胁。
在最近一篇关于如何训练像ChatGPT这样的生成式人工智能工具的论文中,来自牛津大学和剑桥大学等学校的人工智能研究人员团队发现,随着人工智能生成的内容在互联网上继续大量传播,这项技术背后的大型语言模型可能会在其他人工智能生成的内容上进行训练——他们将这种现象称为“模型崩溃”。反过来,研究人员声称,生成式人工智能工具可能会以较低质量的输出来回应用户的查询,因为它们的模型在“合成数据”上得到了更广泛的训练,而不是让它们的回答与众不同的人造内容。
其他人工智能研究人员也创造了自己的术语来描述这种训练方法。在7月份发表的一篇论文中,斯坦福大学和赖斯大学的研究人员将这种现象称为“模型自写失调”,即人工智能在其他人工智能生成的内容上进行自我训练的“自我消费”循环,可能导致生成式人工智能工具“注定”会出现图像和文本生成的“质量”和“多样性”下降。澳大利亚新兴技术研究实验室(Emerging Technologies Research Lab)研究人工智能的高级研究员贾森·萨多夫斯基(Jathan Sadowski)将这种现象称为“哈布斯堡人工智能”(Habsburg AI),他认为,人工智能系统在其他生成式人工智能工具的输出上进行了大量训练,可能会产生包含“夸张、怪诞特征”的“近亲突变”反应。
虽然这些现象的具体影响尚不清楚,但一些技术专家认为,“模型崩溃”和人工智能近亲繁殖可能会使人工智能模型难以确定训练的原始信息来源。因此,媒体等准确信息的提供者可能会决定限制他们在网上发布的内容,甚至将其置于付费墙之后,以防止他们的内容被用来训练人工智能,这可能会创造一个“公共信息的黑暗时代”,科技研究公司星座研究(Constellation research)首席执行官王雷(Ray Wang)在一篇文章中写道。
广告广告
一些科技专家对互联网上人工智能生成内容的增长不那么担心。人工智能公司Cohere的高级工程副总裁Saurabh Baji告诉Axios,人工指导对其人工智能生成模型的“成功和质量仍然至关重要”,而其他人则告诉Axios,人工智能生成内容的兴起只会使人工制作的内容更有价值。
自从OpenAI去年11月推出ChatGPT以来,人工智能生成的内容在互联网上泛滥,这些新术语应运而生。截至8月28日,新闻网站可靠性评估公司NewsGuard发现了452家“人工智能生成的不可靠新闻媒体,几乎没有人为监督”,其中包含充满错误的报道。据NewsGuard称,人工智能生成的网站,如iBusiness Day、爱尔兰头条新闻(Ireland Top News)和每日时间更新(Daily Time Update)等通用名称,可能会作为准确的信息来源吸引消费者,这将助长错误信息的传播。
不仅仅是人工智能生成的网站产生了充满不准确的文章。今年1月,科技出版物CNET使用“内部设计的人工智能引擎”发表了77篇文章,在得知其文章充斥着基本的数学错误后,不得不进行重大更正。几个月后,Gizmodo在该媒体发表了与事实不符的人工智能撰写的文章后,批评了该公司的高管。最近,微软从其旅游博客中删除了一系列文章,其中一篇被发现是一篇人工智能生成的文章,建议渥太华的游客访问渥太华食品银行,并“考虑空腹进入”。
计算社会科学研究员杨凯成(Kai-Cheng Yang)曾写过一篇关于恶意行为者可能利用OpenAI的聊天机器人的论文,他此前告诉Insider,既然ZeroGPT和OpenAI的文本分类器等人工智能内容检测器已被发现不可靠,人们可能会发现,通过人工监督在网上发现准确信息变得更加困难。
广告广告
“人工智能工具的进步将永久扭曲在线信息的观念,”杨说