最新研究:嵌入大模型的AI扫地机器人多项任务翻车,成功率仅40%

AI实验室Andon Labs最近进行的一项评估显示,搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕,成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令,包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。结果显示,Gemini 2.5 Pro 的成功率仅 40%,Claude Opus 4.1 为 37%,GPT-5 为 30%,明显落后于人类的表现。
研究指出,大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。
研究团队强调,娱乐之外也有严肃隐患:某些机器人可被诱导泄露机密文件,部分机型无法识别楼梯风险而从高处跌落,暴露当前大型语言模型(LLM)与机器结合的安全漏洞。
在资本大举押注机器人时代的当下,这项研究提醒人们:强大的文本生成能力不代表能稳定、安全地在物理世界执行任务,AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。
猜你喜欢
- 2026-06-27美联储官员卡什卡里称通胀压力更趋广泛 央行或需加息
- 2026-06-27ISNA:伊朗伊斯兰革命卫队称德黑兰将回应美国在海峡附近的袭击
- 2026-06-27IPO承诺加速落地!马斯克获批收购光通信企业Mesh,推进太空算力战略
- 2026-06-27旺能环境:公司不存在逾期担保
- 2026-06-27特朗普前顾问博尔顿承认非法保留国防信息
- 2026-06-27标普确认美国信用评级为AA+ 展望仍为稳定
- 2026-06-27欧洲股市从纪录高位回落 科技股担忧再起
- 2026-06-27Semafor:贝森特介入AI政策 此前有警告称AI或令联储支付系统面临风险
- 2026-06-27欧陆通:公司作为国内领先的开关电源制造商,始终坚持以技术创新驱动业务发展
- 2026-06-27新强联:公司偏航变桨轴承及独立变桨轴承具备较强的竞争优势

网友评论