人工智能开发人员正在使用人工智能生成的数据悄悄训练人工智能_综合

　　虽然大多数人工智能模型都是建立在人类产生的数据基础上的，但一些公司开始使用——或者正在试图弄清楚如何使用——人工智能本身产生的数据。如果他们能做到这一点，这可能是一个巨大的福音，尽管这让整个人工智能生态系统感觉更像是一种算法上的衔尾蛇。

　　据报道，包括OpenAI、微软(Microsoft)和市值20亿美元的初创公司Cohere在内的公司正越来越多地研究所谓的“合成数据”，以训练他们的大型语言模型(llm)，原因有很多，其中最重要的是它显然更具成本效益。

　　“人类创造的数据，”Cohere首席执行官艾登·戈麦斯(Aiden Gomez)告诉《华尔街日报》，“非常昂贵。”

　　然而，除了合成数据的相对廉价之外，还有规模问题。培训先进的法学硕士开始使用所有实际可用的人类创造的数据，这意味着要建立更强大的数据，他们几乎肯定需要更多。

　　戈麦斯说:“如果你能从网上获得所需的所有数据，那就太棒了。”“实际上，网络是如此嘈杂和混乱，它并不能真正代表你想要的数据。网络并不能满足我们所有的需求。”

　　正如首席执行官所指出的那样，Cohere和其他公司已经在悄悄地使用合成数据来训练法学硕士，“即使它没有广泛传播”，而OpenAI等公司似乎也希望在未来使用它。

　　报告指出，在今年5月的一次活动中，OpenAI首席执行官萨姆?奥特曼打趣称，他“非常有信心，很快所有数据都将是合成数据”，微软已经开始发布研究报告，研究合成数据如何增强更初级的法学硕士。报告指出，甚至有一些初创公司的全部目的就是向其他公司出售合成数据。

　　当然，这也有缺点:正如批评者指出的那样，人工智能生成的数据的完整性或可靠性很容易受到质疑，因为即使是用人工生成的材料训练的人工智能，也会犯重大的事实错误和错误。这个过程可能会产生一些混乱的反馈循环。牛津大学和剑桥大学的研究人员在最近的一篇论文中称这些潜在的问题为“不可逆转的缺陷”，原因不难理解。

　　总的来说，像Cohere这样的公司正在努力实现的目标是自学的人工智能，它们可以生成自己的合成数据。

　　“你真正想要的是模特能够自学，”戈麦斯说。“你希望他们能够……提出自己的问题，发现新的真理，创造自己的知识。这就是梦想。”

　　更多关于人工智能的信息:

• 圣诞火鸡这样做，鲜嫩多汁不干柴！	• 若特朗普强购格陵兰，专家警告英国食品价格将迎
• 阿富汗枪击案嫌犯拉赫曼努拉·拉坎瓦尔的隐秘人	• 西安疫情告急！风险管控升级，这些区域传播风险
• 愤怒农民驾拖拉机涌入伦敦，疾呼变革刻不容缓！	• 特朗普主题ETF经理抢购MAGA基金，引爆投资热潮

前资产没收部门负责人	阿拉伯联盟称以色列猛
乔·拜登出局，卡玛拉