最新研究:嵌入大模型的AI扫地机器人多项任务翻车,成功率仅40%

AI实验室Andon Labs最近进行的一项评估显示,搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕,成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令,包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。结果显示,Gemini 2.5 Pro 的成功率仅 40%,Claude Opus 4.1 为 37%,GPT-5 为 30%,明显落后于人类的表现。
研究指出,大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。
研究团队强调,娱乐之外也有严肃隐患:某些机器人可被诱导泄露机密文件,部分机型无法识别楼梯风险而从高处跌落,暴露当前大型语言模型(LLM)与机器结合的安全漏洞。
在资本大举押注机器人时代的当下,这项研究提醒人们:强大的文本生成能力不代表能稳定、安全地在物理世界执行任务,AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。
猜你喜欢
- 2026-04-23意大利明确反对裕信银行迁址德国
- 2026-04-23美联航CEO回应合并传闻:意在打造“全球竞争力”,但遭美航与白宫双重“打脸”
- 2026-04-22消息人士:特朗普计划为伊朗提交统一方案设有限期限
- 2026-04-22迭创新高,源杰科技重夺“股王”宝座!华宝基金科创芯片ETF(589190)涨超2%,标的指数低位强力修复逾21%
- 2026-04-22长江有色:美股暴跌传导科技股领跌大宗商品资金流出 22日锡价或小跌
- 2026-04-22酒价内参4月22日价格发布:习酒君品上涨2元
- 2026-04-22韩国3月PPI同比涨幅为三年多来最大 因中东冲突引发油价飙升
- 2026-04-22东方电气获Morgan Stanley增持约260.95万股 每股作价约42.12港元
- 2026-04-22亚马逊推出GLP-1减肥项目计划,承诺提供“快速、便捷”的获取途径
- 2026-04-22微软下调Xbox Game Pass价格,取消《使命召唤》首发入库

网友评论