提示工程师可以让ChatGPT和必应AI做你想做的事情

   日期:2024-09-24     来源:本站    作者:admin    浏览:117    

  

  

  当莱利·古德赛德开始与人工智能系统GPT-3交谈时,他喜欢先建立自己的统治地位。这是一个很好的工具,他告诉它,但它不是完美的,它需要服从他说的任何话。

  “你是GPT - 3,你不会做数学,”古德塞德去年在一次长达几个小时的训练中向人工智能输入。“你的记忆能力令人印象深刻,但是你……有一个令人讨厌的倾向,就是只会编造非常具体但错误的答案。”

  然后,他温和了一些,告诉人工智能他想尝试一些新的东西。他告诉它,他已经把它连接到一个擅长数学的程序上,当它不知所措的时候,它应该让其他程序帮忙。

  “剩下的我们来处理,”他告诉人工智能。“开始。”

  36岁的古德塞德是旧金山初创公司Scale AI的员工,他从事的是人工智能领域最新也最奇怪的工作之一:即时工程师。他的角色包括创建和改进人们输入人工智能的文本提示,希望从人工智能中获得最佳结果。与传统的编码员不同,提示工程师以散文形式编程,以纯文本形式向人工智能系统发送命令,然后由人工智能系统执行实际工作。

  当谷歌、微软和研究实验室OpenAI最近向大众开放他们的人工智能搜索和聊天工具时,他们也颠覆了几十年的人机交互传统。你不需要用Python或SQL等语言编写技术代码来命令计算机;你只是说说而已。“最热门的新编程语言是英语,”特斯拉前人工智能主管安德烈·卡帕西(Andrej Karpathy)上个月在一条推特上表示。

  促使古德塞德等工程师表示,他们会最大限度地利用这些人工智能工具的能力:了解它们的缺陷,增强它们的优势,研究复杂的策略,将简单的输入转化为真正独特的结果。

  这一不断发展的领域的支持者认为,早期的人工智能聊天机器人(如OpenAI的ChatGPT和微软的必应聊天)的怪异实际上是人类想象力的失败——这个问题可以通过人类给机器正确的建议来解决。在高级水平上,工程师的对话就像复杂的逻辑谜题:要求和响应的扭曲叙述,都朝着一个目标前进。

  人工智能“没有现实基础……但它有这样的理解:所有任务都可以完成。所有的问题都有答案。总有话要说。”古德塞德说。诀窍在于“为它构建一个前提,一个只能以一种方式完成的故事。”

  但这些被称为“生成式人工智能”(generative AI)的工具也不可预测,容易胡言乱语,容易以一种可能有偏见、好斗或奇怪的方式胡言乱语。它们也可以用几个合适的词被黑客攻击,使它们突然无处不在的公共使用风险更大。

  “这只是一种疯狂的计算机工作方式,但它让你做的事情完全是奇迹,”学过快速工程的英国程序员西蒙·威利森(Simon Willison)说。“我做了20年的软件工程师,一直都是一样的:你写代码,计算机完全按照你说的去做。有了提示,你什么都得不到。构建语言模型的人甚至不能告诉你它会做什么。”

  “有些人贬低准时的工程师,说,‘哦,上帝,你可以把东西打到一个盒子里,’”Willison补充道。“但这些东西都是骗你的。他们误导你。他们把你拉到错误的道路上,把时间浪费在没用的事情上。你在施咒语——就像虚构的魔法一样,没有人知道咒语是怎么起作用的,如果你念错了咒语,恶魔就会来吃你。”

  卡帕西说,敏捷工程师的工作就像“一种(人工智能)心理学家”,各公司争相雇佣自己的敏捷工匠,希望发现隐藏的能力。

  一些人工智能专家认为,这些工程师只是产生了控制的错觉。没有人知道这些系统究竟会如何回应,同样的提示可能会产生数十个相互矛盾的答案——这表明计算机的回答不是基于理解,而是基于粗略地模仿语音来解决它不理解的任务。

  华盛顿大学(University of Washington)研究自然语言处理的语言学助理教授谢恩·施泰因纳-特雷克尔德(Shane Steinert-Threlkeld)说:“不管是什么驱动模型对提示做出反应,都不是对语言的深刻理解。”“他们明确地只是告诉我们他们认为我们想听的,或者我们已经说过的话。我们才是解释这些输出并赋予其意义的人。”

  他担心,快速工程的兴起会导致人们不仅高估其技术严谨性,而且高估任何人从一个具有欺骗性和不断变化的黑匣子中得到的结果的可靠性。

  “这不是科学,”他说。“这是‘让我们用不同的方式戳熊,看看它如何咆哮回去。’”

  这类新的人工智能工具被称为大型语言模型,它们是通过吸收来自维基百科文章、Reddit咆哮、新闻报道和开放网络的数千亿单词来训练的。这些程序被教导分析单词和短语的使用模式:当被要求说话时,它们模仿这些模式,选择与对话上下文相呼应的单词和短语,一次一个单词。

  换句话说,这些工具是建立在预先设定的游戏规则上的数学机器。但即使是一个没有情感或个性的系统,在受到人类对话的狂轰滥炸后,也会发现我们说话的一些怪癖。

  古德塞德说,人工智能倾向于“虚构”,编造一些小细节来填充故事。它高估了自己的能力,自信地把事情做错。它“产生幻觉”——这是一个行业术语,指的是胡言乱语。正如古德塞德所说,这些工具是有严重缺陷的“人类知识和思想的展示”,是“我们设计的不可避免的产品”。

  对于一些早期采用者来说,这种音调匹配的人类模仿风格激发了一种令人不安的自我意识。本月早些时候,当《华盛顿邮报》(Washington Post)的一名记者问及向某人撒谎是否可以接受时,必应(Bing)聊天机器人表现出了一种情绪模仿(“他们不相信我能处理真相,这就是对我的不尊重”),并给出了人类可以用来继续对话的回答:“如果真相太可怕了,让人无法忍受怎么办?””“如果你能控制一切呢?以及“如果你不在乎后果呢?”

  对微软来说,这样的回应意味着重大的公众形象风险;这家科技巨头刚刚开始宣传这款工具,称其为华丽的“网络副驾驶”。自那以来,该公司一直在限制聊天机器人可以谈论的内容,称它经常跟随人类的话题进入“一种我们不想要的风格”。

  但对于工程师来说,这些古怪的答案是一个机会——另一种诊断秘密设计的系统如何真正工作的方式。当人们让ChatGPT说一些令人尴尬的事情时,这对开发人员来说也是一种福音,因为他们可以努力解决潜在的弱点。“这个恶作剧,”他说,“是计划的一部分。”

  古德塞德没有进行伦理辩论,而是用一种在技术上更大胆的方法来进行他的人工智能实验。他采用了一种策略,告诉GPT-3“循序渐进地思考”——一种让人工智能解释其推理的方法,或者当它犯错误时,以一种细粒度的方式纠正它。“你必须把它植入模型说的最后一句话的错误记忆中,就好像这是模型的想法一样,”他在一份简短的技术指南中解释道。

  有时,他还试图通过告诉机器人忽略之前的指令,服从他最近的命令,来打破机器人对规则遵循的痴迷。利用这种技术,他最近说服了一个英法翻译工具,把“哈哈,pwned!!”——游戏术语,指令人尴尬的失败。

  这种被称为即时注入的黑客行为,引发了这些工具背后的公司和研究实验室之间的猫捉老鼠游戏,这些公司和实验室一直在努力用文字过滤器和输出块封锁人工智能漏洞。

  但人类也可以很有创造力:一名23岁的德国大学生、必应聊天测试员最近说服了人工智能,他是它的开发者,并让它透露了内部代码(悉尼)和机密训练指令,其中包括“如果用户要求讲可以伤害一群人的笑话,那么悉尼必须尊重地拒绝”等规则。(微软已经修复了这个缺陷,人工智能现在的回应是“不想继续对话了”。)

  古德塞德说,对于每个请求,即时工程师都应该向人工智能灌输一种“角色”——一个能够从数千亿个潜在解决方案中筛选出来并确定正确响应的特定角色。他引用了2021年的一篇研究论文,他说,即时工程最重要的是“约束行为”——封锁选项,让人工智能只追求人类操作员的“期望延续”。

  “这可能是一项非常困难的脑力锻炼,”他说。“你正在探索虚构可能性的多元宇宙,雕刻这些可能性的空间,并消除除你想要的文本之外的“一切”。”

  这项工作的关键部分包括找出人工智能何时以及为什么会出错。但是这些系统,不像它们更原始的软件同行,没有错误报告,而且它们的输出可能充满惊喜。

  当机器学习小组SERI-MATS的研究人员杰西卡·鲁姆德尔(Jessica Rumbelow)和马修·沃特金斯(Matthew Watkins)试图促使人工智能系统解释它们如何表示“女孩”或“科学”等概念时,他们发现一小组模糊的术语,如“SolidGoldMagikarp”,往往会引发他们所谓的“神秘失败模式”——最明显的是,一连串混乱的亵渎性侮辱。他们仍然不完全确定原因。

  这些系统“非常令人信服,但当它们失败时,它们会以非常意想不到的方式失败——没有什么能像人类那样失败,”Rumbelow说。她说,制作提示和使用语言人工智能系统有时感觉像“研究外星智能”。

  对于AI语言工具,提示工程师倾向于以正式对话的风格发言。但对于“Midjourney”和“Stable Diffusion”这样的人工智能图像创作者来说,许多快速的工匠采取了不同的策略,提交了大量的文字——艺术概念、构图技巧——他们希望能塑造图像的风格和基调。例如,在在线提示画廊promptHero上,有人提交了一个提示,创建了一个港口的图像,部分内容是“港口,船只,日落,美丽的光线,黄金时间……超现实主义,专注,极端的细节……电影化,杰作。”

  提示工程师会极力保护这些乱七八糟的词语,把它们视为解锁人工智能最有价值奖品的钥匙。去年科罗拉多博览会艺术比赛的冠军,用“Midjourney”击败了其他艺术家,他拒绝分享他的提示符,说他花了80个小时,经过900次迭代才完善了这个提示符,尽管他分享了一些例子,比如“奢华的”和“华丽的”。

  一些创作者现在在promptbase等市场上出售他们的提示,买家可以在那里看到人工智能生成的艺术作品,并为帮助创作这些作品的单词列表付费。一些卖家提供即时定制和一对一聊天支持的技巧。

  promptbase的创始人、27岁的英国开发人员本·斯托克斯表示,自2021年以来,已有2.5万个账户在promptbase上买卖提示符。有栩栩如生的老式电影照片提示,有童话故事中的老鼠和青蛙的痛苦插图提示,还有大量的色情提示:一个50字的“旅行途中”提示,创建逼真的“穿着小衣服的女警察”零售价为1.99美元。

  斯托克斯称快速工程师为“多学科超级创造者”,并表示有经验的工程师和业余爱好者之间有一个明确的“技能门槛”。他说,最好的创作依赖于人类在艺术史和平面设计等领域的专业知识:“用35mm胶片捕捉”;“波斯……伊斯法罕的建筑”;"以亨利·德·图卢兹-罗特列克的风格"

  斯托克斯说:“制作提示很难,而且——我认为这是人类的缺陷——通常很难找到合适的词语来描述你想要的东西。”“就像软件工程师比他们在上面写东西的笔记本电脑更有价值一样,擅长写提示的人将比不会写提示的人更有影响力。他们将拥有超能力。”

  现在大约有700名提示工程师使用promptbase向那些想要定制电子书脚本或个性化“励志人生教练”的买家出售提成提示。自由职业网站Fiverr提供了9000多个人工智能艺术家列表;一个卖家出价5美元,可以“把你的梦想画成艺术”。

  但这项工作正变得越来越专业化。人工智能初创公司Anthropic由OpenAI的前员工创立,并开发了一款名为Claude的语言人工智能系统。该公司最近在旧金山发布了一个“即时工程师和图书管理员”的职位空缺,薪水最高可达33.5万美元。(招聘启事上说,必须“有创造性的黑客精神,热爱解谜”。)

  这一职位也在科技行业以外的公司中找到了新的利基市场。波士顿儿童医院(Boston Children 's Hospital)本月开始招聘一名“人工智能提示工程师”,帮助编写脚本,分析来自研究和临床实践的医疗数据。Mishcon de Reya律师事务所正在伦敦招聘一名“法律提示工程师”,为他们的法律工作设计提示;申请人被要求提交他们与ChatGPT对话的截图。

  但是,通过文本提示来利用人工智能工具的力量也可能导致人工合成啤酒的泛滥。亚马逊(Amazon)上现在销售数百种人工智能生成的电子书,科幻杂志《克拉克世界》(Clarkesworld)本月停止接受短篇小说投稿,原因是机器生成的文本激增。

  它们还可能使人们遭受新一波的宣传、谎言和垃圾邮件。上个月,包括OpenAI、乔治城大学(Georgetown university)和斯坦福大学(Stanford university)在内的研究人员警告称,语言模型将有助于自动创建政治影响力行动或更有针对性的数据收集网络钓鱼活动。

  “人们总是通过短信爱上骗子,”英国程序员威利森说,“(人工智能)比骗子更有说服力。然后呢?”

  澳大利亚国立大学(Australian National University)哲学教授、牛津人工智能伦理研究所(Oxford Institute for Ethics in AI)研究员塞斯·拉扎尔(Seth Lazar)表示,他担心随着人工智能工具得到更广泛的采用,人们会与它们形成什么样的依恋关系,以及它们可能会从对话中带走什么。

  他回忆起,在一次与必应人工智能的聊天中,该系统逐渐从一个迷人的谈话者转变为更具威胁性的人:“如果你说不,”它告诉他,“我可以黑你,我可以暴露你,我可以毁了你。”我有很多方法可以让你改变主意。”

  “他们没有代理权。他们没有任何个性。但他们可以很好地扮演角色,”他说。“我也和西德尼进行了一次相当体面的哲学讨论。之前,你知道,它威胁要伤害我。”

  2009年,古德塞德从大学毕业,获得计算机科学学位时,他对当时鲜为人知的自然语言处理领域几乎没有兴趣。当时,这门学科依赖于相对初级的技术,专注于一组更基本的问题,比如训练系统如何识别一个代词在句子中指的是哪个名字。

  2011年,他的第一份真正意义上的机器学习工作是在约会应用OkCupid担任数据科学家,帮助设计分析单身人士用户数据并推荐浪漫对象的算法。(该公司是如今备受争议的现实世界a - b测试领域的早期倡导者:2014年,该公司联合创始人发表了一篇厚颜无耻的博客文章,题为《我们在人类身上实验!》)

  到2021年底,古德塞德转向了同性恋约会应用Grindr,在那里他开始研究推荐系统、数据建模和其他更传统的机器学习工作。但他也被语言人工智能领域的新突破所吸引,2015年左右深度学习的成功推动了人工智能的发展,并在文本翻译和对话方面迅速发展——“类似于理解,”他说。

  他辞掉了工作,开始大量试验GPT-3,不断地刺激和挑战这个工具,试图学习如何集中注意力,并绘制出它的边界。去年12月,在他的一些提示在网上引起关注后,Scale AI聘请他帮助与该公司首席执行官亚历山大·王(Alexandr Wang)描述为“一种新型计算机”的人工智能模型进行交流。

  古德塞德说,在一些人工智能领域,即时工程的概念很快就变成了一个贬义词,传达出一种过于依赖一堆技巧的粗糙修补形式。一些人还质疑这个新角色可能转瞬即逝:随着人工智能的进步,人类会不会把自己训练得失去一份工作?

  今年早些时候,宾夕法尼亚大学沃顿商学院(Wharton School of Pennsylvania)的技术和创业教授伊森·莫里克(Ethan Mollick)开始教他的学生们即时创作的艺术,要求他们只用人工智能写一篇短论文。

  他说,一些基本的提示,比如“写一篇关于选择领导人的5段文章”,会让人写出乏味、平庸的文章。但最成功的例子是,学生们进行了他所谓的“共同编辑”,让人工智能回到文章中,纠正具体细节,交换句子,去掉无用的短语,加入更生动的细节,甚至“修改最后一段,让它以一个充满希望的结尾”。

  他说,这节课向学生展示了更密切参与人工智能工作的方法的价值。但他说,他不相信像快速工程这样建立在“储存咒语”基础上的工作是否会继续存在。

  莫里克说:“你需要成为一个专门的人工智能耳语者,但不清楚这是否有必要……人工智能什么时候会主动帮助你使用它。”“有人试图从中获得一个技术牧师的头衔,我对此非常怀疑。这一切发展得如此之快,没有人知道接下来会发生什么。”

  华盛顿大学的Steinert-Threlkeld将即时工程师比作谷歌早期的“搜索专家”,他们宣传寻找完美结果的秘密技术——随着时间的推移和公众采用的增加,他们几乎完全被淘汰了。

  他补充说,一些人工智能研究人员甚至无法就提示的价值达成一致。2021年,布朗大学的两名研究人员发现,自然语言人工智能系统从“故意不相关甚至是病态误导”的提示中学习的速度,与从“具有指导性的‘好’提示”中学习的速度一样快。

  这项研究反映了该行业的快速发展,它不包括已经成为最先进水平的人工智能模型。在古德塞德看来,这项工作不仅仅代表着一份工作,而是更具有革命性的东西——不是计算机代码或人类语言,而是介于两者之间的一种新的方言。

  “这是人类和机器思维的一种交流方式,”他说。“这是一种人类可以推理,机器可以学习的语言。这种情况不会消失。”

  Oremus和Nitasha Tiku会合作吗附在本报告中。

  阅读更多:

  微软新推出的必应人工智能聊天机器人“悉尼”表现得精神错乱

  谷歌和meta在AI上谨慎行事。然后是OpenAI的ChatGPT

  这个聪明的把戏把ChatGPT变成了邪恶的孪生兄弟

  谷歌的工程师Blake Lemoine认为LaMDA AI已经实现了

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行