The Decoder
Demis Hassabis 预测 2026 年 AI 三大趋势
正文翻译
Google DeepMind CEO Demis Hassabis 认为,接下来一年 AI 会在三个方向出现明显进展:
- 多模态模型继续突破
- 可交互的视频世界 / 世界模型继续发展
- 更可靠的 AI agents 更接近落地
Hassabis 在 Axios AI+ 峰会上表示,Gemini 现有的多模态能力已经开始支撑新一类应用。
他举了《搏击俱乐部》(Fight Club)中的一个场景来说明:过去的模型也许只能描述画面里“发生了什么动作”,但新的多模态 AI 不只是看见一个人摘下戒指,而是能把这一动作解释成一种哲学意义上的象征——即对日常生活的一种放弃与脱离。
这说明模型不再只是“识别图像内容”,而是在做更高层次的语义理解。
文中还提到,Google 最新图像模型也体现了类似能力:它能更精确地理解视觉内容,因此可以生成更复杂的结果,比如信息图表(infographics),而这在之前并不容易做到。
关于 agents,Hassabis 说:在一年左右的时间内,AI agent 有望“接近”能够自主处理复杂任务。 这个判断与他早在 2024 年 5 月给出的预测基本一致。
他的目标是构建一种“通用助手”:
- 能跨设备工作
- 能协助处理日常事务
- 能在不同任务与场景间流动
此外,DeepMind 也在推进所谓的“世界模型”(world models),例如 Genie 3 这类系统。它们可以生成可交互、可探索的视频空间,而不只是线性播放的视频内容。
核心观点压缩
如果只提炼这篇短文的重点,大概就是三句话:
- 多模态理解会越来越强,不只是看图说话,而是理解语义与象征层。
- AI agent 正在从“会聊天”走向“能办事”,但前提是可靠性明显提高。
- 视频生成的下一步不是更像真的短片,而是更像“可进入的世界”。
简短备注
这篇原文篇幅不长,更像新闻摘要。信息密度最高的地方在于 Hassabis 给出的三条主线,它们基本也代表了 DeepMind 对未来一年研发方向的优先级判断。
本文为中文导读与整理,不是原文逐字全文翻译。