研究揭示AI模型在人类轻松应对的两项基础任务上表现不佳_综合

　　就在全世界还在为“该恐惧还是该欢呼人工智能”争论不休时，AI却连一些人类觉得超级简单的事都搞不定。最新研究发现，AI居然连看个钟表日历都费劲！

　　这项发现是由苏格兰的研究人员在2025年国际学习表征会议（ICLR）上公布的。他们的论文于3月18日发布在预印本服务器arXiv上，这意味着尚未经过同行评审。

　　论文第一作者、爱丁堡大学的研究员罗希特·萨克塞纳针对这一发现发表声明称，这些缺陷必须得到纠正。

　　她说：“大多数人从小就会看时间和使用日历。我们的研究结果凸显了AI在执行这些对人类而言相当基本的技能方面存在显著差距。”

　　“如果要将AI系统成功集成到对时间敏感的现实世界应用中，比如日程安排、自动化和辅助技术，就必须解决这些不足。”

　　研究人员通过向各种多模态大语言模型（MLLMs）输入一个包含钟表和日历图像的自定义数据集，来调查AI的计时能力。这些模型能够处理视觉和文本信息。他们测试的模型包括meta的Llama 3.2-Vision、Anthropic的Claude-3.5 Sonnet、谷歌的Gemini 2.0和OpenAI的GPT-4o。

　　结果令人失望：超过一半的情况下，这些模型无法从钟表图片中识别出正确时间，或无法判断出某个样本日期是星期几。

　　研究人员解释了为什么AI在“读时间”方面如此糟糕。

　　萨克塞纳解释说：“早期的系统是基于带标签的示例进行训练的。而读取钟表时间需要不同的能力——空间推理。”

　　“模型必须检测重叠的指针，测量角度，并处理各种不同的设计，比如罗马数字或风格化的表盘。对AI来说，识别出‘这是一个钟表’比真正读出时间要容易得多。”

　　除了读时间，日期同样是个难题。如果问AI“一年中的第153天是星期几？”，失败率同样很高。结果对比如下：AI系统正确读取钟表时间的成功率仅为38.7%，正确读取日历的成功率仅为26.3%。

　　萨克塞纳说：“算术对传统计算机来说是小菜一碟，但对大语言模型来说并非如此。AI并不运行数学算法，它是根据在训练数据中看到的模式来预测输出。”

　　“所以，虽然它有时能正确回答算术问题，但其推理并不一致或基于规则，我们的工作凸显了这种差距。”

　　这个研究项目是越来越多揭示AI与人类理解方式差异的最新成果之一。

　　AI模型从熟悉的模式中获取答案，当训练数据中有足够多的例子时，它们表现最佳。但当它们需要运用抽象推理时，就常常会失败。

　　萨克塞纳说：“对我们来说非常简单的任务，比如看钟表，对它们来说可能非常困难，反之亦然。”

　　“AI很强大，但当任务混合了感知和精确推理时，我们仍然需要严格的测试、后备逻辑，并且在许多情况下，需要人类参与其中。”

　　显然，要真正释放人工智能的潜力，还需要进行大量的研究。

　　本文由万更网原创发布，未经许可，不得转载！

　　本文链接：https://m.fdsil.com/b/121570.html

• 谁将接棒斯泰西·艾布拉姆斯的选民联盟？佐治亚	• 表兄弟希加和凯奥领衔纳梅内胡内队旗橄榄球赛！
• 没人谈的马刺杀手锏，曾吊打雷霆队	• 爱尔兰推迟薪酬透明法实施，雇主暂免“处罚”
• 锦湖工程建设的王宿2区首发项目“阿特拉”正式	• 谷歌母公司豪掷47.5亿美元收购数据中心能源专家

前资产没收部门负责人	阿拉伯联盟称以色列猛
乔·拜登出局，卡玛拉