研究揭示AI模型在人类轻松应对的两项基础任务上表现不佳

   日期:2026-05-03     来源:本站    作者:admin    浏览:95    
核心提示:    就在全世界还在为“该恐惧还是该欢呼人工智能”争论不休时,AI却连一些人类觉得超级简单的事都搞不定。最新研究发现,AI

  

  就在全世界还在为“该恐惧还是该欢呼人工智能”争论不休时,AI却连一些人类觉得超级简单的事都搞不定。最新研究发现,AI居然连看个钟表日历都费劲!

  这项发现是由苏格兰的研究人员在2025年国际学习表征会议(ICLR)上公布的。他们的论文于3月18日发布在预印本服务器arXiv上,这意味着尚未经过同行评审。

  论文第一作者、爱丁堡大学的研究员罗希特·萨克塞纳针对这一发现发表声明称,这些缺陷必须得到纠正。

  她说:“大多数人从小就会看时间和使用日历。我们的研究结果凸显了AI在执行这些对人类而言相当基本的技能方面存在显著差距。”

  “如果要将AI系统成功集成到对时间敏感的现实世界应用中,比如日程安排、自动化和辅助技术,就必须解决这些不足。”

  研究人员通过向各种多模态大语言模型(MLLMs)输入一个包含钟表和日历图像的自定义数据集,来调查AI的计时能力。这些模型能够处理视觉和文本信息。他们测试的模型包括meta的Llama 3.2-Vision、Anthropic的Claude-3.5 Sonnet、谷歌的Gemini 2.0和OpenAI的GPT-4o。

  结果令人失望:超过一半的情况下,这些模型无法从钟表图片中识别出正确时间,或无法判断出某个样本日期是星期几。

  研究人员解释了为什么AI在“读时间”方面如此糟糕。

  萨克塞纳解释说:“早期的系统是基于带标签的示例进行训练的。而读取钟表时间需要不同的能力——空间推理。”

  “模型必须检测重叠的指针,测量角度,并处理各种不同的设计,比如罗马数字或风格化的表盘。对AI来说,识别出‘这是一个钟表’比真正读出时间要容易得多。”

  除了读时间,日期同样是个难题。如果问AI“一年中的第153天是星期几?”,失败率同样很高。结果对比如下:AI系统正确读取钟表时间的成功率仅为38.7%,正确读取日历的成功率仅为26.3%。

  萨克塞纳说:“算术对传统计算机来说是小菜一碟,但对大语言模型来说并非如此。AI并不运行数学算法,它是根据在训练数据中看到的模式来预测输出。”

  “所以,虽然它有时能正确回答算术问题,但其推理并不一致或基于规则,我们的工作凸显了这种差距。”

  这个研究项目是越来越多揭示AI与人类理解方式差异的最新成果之一。

  AI模型从熟悉的模式中获取答案,当训练数据中有足够多的例子时,它们表现最佳。但当它们需要运用抽象推理时,就常常会失败。

  萨克塞纳说:“对我们来说非常简单的任务,比如看钟表,对它们来说可能非常困难,反之亦然。”

  “AI很强大,但当任务混合了感知和精确推理时,我们仍然需要严格的测试、后备逻辑,并且在许多情况下,需要人类参与其中。”

  显然,要真正释放人工智能的潜力,还需要进行大量的研究。

  本文由万更网原创发布,未经许可,不得转载!

  本文链接:https://m.fdsil.com/b/121570.html

 
打赏
 
更多>同类文章

推荐图文
推荐文章
点击排行