跟上像人工智能这样快速发展的行业是一项艰巨的任务。所以,在人工智能可以为你做这件事之前,这里有一个关于机器学习世界的最新故事的简单总结,以及我们没有单独报道的著名研究和实验。
本周在人工智能领域,新闻周期终于(终于!)在假期来临之前平静了一点。但这并不意味着没有什么可写的,对这位睡眠不足的记者来说,这是一种祝福,也是一种诅咒。
今天早上美联社的一个特别标题引起了我的注意:“人工智能图像生成器正在接受儿童露骨照片的训练。”故事的要点是,LAION是一个用于训练许多流行的开源和商业人工智能图像生成器(包括Stable Diffusion和Imagen)的数据集,其中包含数千张涉嫌儿童性虐待的图像。斯坦福大学的一个监督组织,斯坦福互联网观察站,与反滥用慈善机构合作,识别非法材料,并将其联系报告给执法部门。
现在,非营利组织LAION已经删除了培训数据,并承诺在重新发布之前删除违规材料。但这一事件突显出,随着竞争压力的加大,人们对生成式人工智能产品的投入是多么少。
由于无代码人工智能模型创建工具的普及,在任何可以想象的数据集上训练生成式人工智能变得非常容易。这对初创公司和科技巨头来说都是一件好事,因为它们可以推出这样的模型。然而,随着进入门槛的降低,人们倾向于抛弃道德规范,加快进入市场的步伐。
道德是很难的——这是不可否认的。以本周的例子为例,梳理LAION中数千张有问题的图片不可能一蹴而就。理想情况下,在道德上开发人工智能需要与所有相关利益相关者合作,包括代表经常被边缘化和受到人工智能系统不利影响的群体的组织。
这个行业有很多人工智能发布决策时考虑的是股东,而不是伦理学家的例子。以Bing Chat(现在的微软Copilot)为例,微软在必应上推出的人工智能聊天机器人,在发布时将一名记者比作希特勒,并侮辱了他们的外表。截至10月,ChatGPT和谷歌的竞争对手Bard仍在提供过时的、带有种族主义色彩的医疗建议。OpenAI最新版本的图像生成器DALL-E显示出英国中心主义的迹象。
我只想说,追求人工智能优势——或者至少是华尔街的人工智能优势概念——正在造成伤害。随着欧盟人工智能法规的通过,可能会对不遵守某些人工智能护栏的人处以罚款,也许会有一些希望。但前面的路确实很长。
以下是过去几天一些值得注意的人工智能故事:
对2024年人工智能的预测:Devin列出了他对2024年人工智能的预测,谈到了人工智能将如何影响美国初选以及OpenAI的下一步发展等话题。
反对伪人类:Devin还建议禁止人工智能模仿人类行为。
微软Copilot获得音乐创作:微软的人工智能聊天机器人Copilot现在可以作曲了,这要归功于它与GenAI音乐应用程序Suno的集成。
来德爱(Rite Aid)的面部识别技术:美国联邦贸易委员会(Federal Trade Commission)发现,美国药店巨头来德爱(Rite Aid)“鲁莽使用面部监控系统”让顾客蒙羞,并将他们的“敏感信息置于危险之中”,该公司被禁止在五年内使用面部识别技术。
欧盟提供计算资源:欧盟正在扩大其计划,该计划最初于9月宣布,并于上个月启动,旨在通过为欧盟超级计算机上的模型训练提供处理能力来支持本土人工智能初创公司。
OpenAI赋予董事会新的权力:OpenAI正在扩大其内部安全流程,以抵御有害人工智能的威胁。一个新的“安全咨询小组”将位于技术团队之上,并向领导层提出建议,董事会已被授予否决权。
与加州大学伯克利分校的肯·戈德堡的问答:在他的致动器定期通讯中,布莱恩与加州大学伯克利分校的教授肯·戈德堡坐下来,谈论人形机器人和机器人行业的更广泛趋势。肯·戈德堡是一家初创公司的创始人,也是一位颇有成就的机器人专家。
首席信息官们对人工智能的发展进展缓慢:Ron写道,虽然首席信息官们承受着压力,要提供人们在网上玩ChatGPT时看到的那种体验,但大多数人都采取了深思熟虑、谨慎的方式来采用企业技术。
新闻出版商就人工智能起诉谷歌:几家新闻出版商提起集体诉讼,指控谷歌通过反竞争手段“吸走”新闻内容,部分是通过谷歌的搜索生成体验(SGE)和巴德聊天机器人等人工智能技术。
OpenAI与阿克塞尔·斯普林格达成协议:说到出版商,OpenAI与阿克塞尔·斯普林格(Axel Springer)达成了一项协议,该公司总部位于柏林,旗下拥有《商业内幕》(Business Insider)和《政治》(Politico)等出版物。OpenAI将根据阿克塞尔·斯普林格的内容训练其生成式人工智能模型,并将阿克塞尔·斯普林格最近发表的文章添加到ChatGPT中。
谷歌将Gemini带到更多的地方:谷歌将其Gemini模型与更多的产品和服务集成在一起,包括其Vertex AI管理的人工智能开发平台和AI Studio,后者是该公司用于编写基于人工智能的聊天机器人和其他相关体验的工具。
当然,过去一两周最疯狂(也最容易被误解)的研究当属life2vec,这是一项丹麦的研究,它利用一个人一生中的无数数据点来预测一个人的性格和死亡时间。约!
可视化life2vec对各种相关生活概念和事件的映射。
这项研究并没有声称具有神谕般的准确性(顺便说一下,快三倍),而是想表明,如果我们的生活是我们经历的总和,那么这些路径可以使用当前的机器学习技术进行推断。在教养、教育、工作、健康、爱好和其他指标之间,人们不仅可以合理地预测一个人是内向还是外向,还可以预测这些因素如何影响预期寿命。我们还没有达到“预防犯罪”的水平,但你可以打赌,保险公司迫不及待地想要批准这项工作。
CMU的科学家们创造了一个名为Coscientist的系统,这是一个基于法学硕士的研究人员助手,可以自主完成许多实验室的苦工。它目前仅限于化学的某些领域,但就像科学家一样,像这样的模型将成为专家。
首席研究员盖比·戈麦斯告诉《自然》杂志:“当我看到一种非有机智能能够自主规划、设计和执行人类发明的化学反应时,我感到很惊讶。那是一个‘天哪’的时刻。”基本上,它使用像GPT-4这样的法学硕士,对化学文档进行微调,以识别常见的反应、试剂和程序并执行它们。所以你不需要告诉实验室技术人员合成4批催化剂——人工智能可以做到,你甚至不需要握住它的手。
谷歌的人工智能研究人员也度过了重要的一周,他们深入研究了一些有趣的前沿领域。FunSearch听起来像是孩子们的谷歌,但它实际上是函数搜索的缩写,就像Coscientist一样,它能够做出并帮助做出数学发现。有趣的是,为了防止幻觉,这(像最近的其他)使用了一对匹配的人工智能模型,很像“旧的”GAN架构。一个是理论,另一个是评估。
虽然FunSearch不会有任何突破性的新发现,但它可以将现有的东西应用到新的领域,所以一个领域使用而另一个领域不知道的功能可能会被用来改进行业标准算法。
StyleDrop是一个方便的工具,人们希望通过生成图像复制某些风格。问题是(正如研究者所看到的),如果你心中有一种风格(比如“粉彩”)并描述它,模型将有太多的“粉彩”子风格来提取,所以结果将是不可预测的。StyleDrop可以让你提供一个你想要的样式的例子,然后这个模型将基于它的工作——它基本上是超高效的微调。
图片来源:Google
博客文章和论文表明,它非常强大,可以将任何图像的风格应用于任何其他类型的图像,无论是照片,绘画,城市景观还是猫肖像,甚至是字母表(出于某种原因,这是出了名的困难)。
Google也在使用VideoPoet进行生成视频游戏,它使用LLM基础(就像这些天的其他东西一样……你还会使用什么?)来完成一堆视频任务,将文本或图像转换为视频,扩展或样式化现有视频,等等。正如每个项目所表明的那样,这里的挑战不是简单地制作一系列相互关联的图像,而是让它们在更长的时间内(比如超过一秒钟)保持连贯,并伴随着大的运动和变化。
图片来源:Google
VideoPoet似乎把球向前移动了,尽管你可以看到结果仍然很奇怪。但事情就是这样发展的:首先它们是不充分的,然后它们是奇怪的,然后它们是不可思议的。大概他们在某种程度上离开了神秘,但还没有人真正到达那里。
在实际应用方面,瑞士研究人员一直在将人工智能模型应用于积雪测量。通常情况下,人们会依赖气象站,但这些气象站可能相隔很远,我们有这么多可爱的卫星数据,对吧?正确的。因此,ETHZ团队从哨兵2号星座获取了公共卫星图像,但正如负责人康拉德·辛德勒(Konrad Schindler)所说,“仅仅看卫星图像上的白色部分并不能立即告诉我们积雪的深度。”
因此,他们从联邦地形学办公室(就像我们的美国地质勘探局一样)输入了全国的地形数据,并训练了系统,使其不仅基于图像中的白比特,还基于地面真实数据和融化模式等趋势进行估计。由此产生的技术正在由ExoLabs进行商业化,我将与该公司联系以了解更多信息。
不过,斯坦福大学要提醒大家的是,尽管上述应用程序功能强大,但请注意,它们都不太涉及人类偏见。当涉及到健康时,这突然成为一个大问题,而健康是大量人工智能工具被测试的领域。斯坦福大学的研究人员表明,人工智能模型传播了“古老的医学种族隐喻”。GPT-4不知道某件事是真是假,所以它可以而且确实重复了关于群体的古老的、被反驳的说法,比如黑人肺活量较低。不!如果你在健康和医学领域使用任何一种人工智能模型,请保持警惕。
最后,这是一个由巴德写的短篇故事,带有拍摄脚本和提示,由VideoPoet渲染。小心点,皮克斯!