最新研究:嵌入大模型的AI掃地機(jī)器人多項(xiàng)任務(wù)翻車,成功率僅40%
2025-11-03 00:37   
來源: 云財(cái)經(jīng)   
影響力評(píng)估指數(shù):19.43  
云財(cái)經(jīng)訊,AI實(shí)驗(yàn)室Andon Labs最近進(jìn)行的一項(xiàng)評(píng)估顯示,搭載頂級(jí)大模型的掃地機(jī)器人在簡(jiǎn)單家務(wù)任務(wù)中表現(xiàn)糟糕,成功率遠(yuǎn)低于人類。實(shí)驗(yàn)要求機(jī)器人執(zhí)行“把黃油遞給人”的多步驟指令,包括跨房間定位、區(qū)分包裝、尋找移動(dòng)位置的人類、完成交付并返回充電。結(jié)果顯示,Gemini 2.5 Pro 的成功率僅 40%,Claude Opus 4.1 為 37%,GPT-5 為 30%,明顯落后于人類的表現(xiàn)。 研究指出,大模型在空間推理、環(huán)境理解、長(zhǎng)期任務(wù)規(guī)劃等方面依然存在明顯短板。 研究團(tuán)隊(duì)強(qiáng)調(diào),娛樂之外也有嚴(yán)肅隱患:某些機(jī)器人可被誘導(dǎo)泄露機(jī)密文件,部分機(jī)型無法識(shí)別樓梯風(fēng)險(xiǎn)而從高處跌落,暴露當(dāng)前大型語言模型(LLM)與機(jī)器結(jié)合的安全漏洞。
云財(cái)經(jīng)智能匹配相關(guān)概念
| 新聞標(biāo)題 | 時(shí)間 | 消息來源 | 新聞熱度 |
|---|---|---|---|
| 美國聯(lián)邦政府“停擺”危機(jī)逼近“臨界點(diǎn)” | 11-02 19:02 | 云財(cái)經(jīng) |
|
| 法國總理勒科爾尼呼吁通過對(duì)話達(dá)成預(yù)算妥協(xié) | 11-02 06:55 | 云財(cái)經(jīng) |
|
| 俄稱在紅軍城圍困烏軍 烏否認(rèn)被包圍 | 11-02 01:17 | 云財(cái)經(jīng) |
|
| 段永平捐贈(zèng)市值1500萬茅臺(tái)股票 | 11-01 15:57 | 云財(cái)經(jīng) |
|
| 陽光電源:整體判斷公司明年電芯供應(yīng)保持穩(wěn)定狀態(tài) | 10-29 12:24 | 云財(cái)經(jīng) |
|
| OpenAI被訴商標(biāo)侵權(quán),涉及Sora新功能“Cameo” | 10-29 08:39 | 云財(cái)經(jīng) |
|