资讯预计阅读 4 分钟

AutoGLM 深度拆解:AI 是怎么学会自己点外卖、订机票的?

智谱 AutoGLM 是一个能够自动操作手机和电脑的 AI Agent。它通过「屏幕理解+动作规划」的方式,像真人一样点击、滑动、输入,完成点外卖、订机票、填表单等复杂任务。

#智谱AI#AutoGLM#AI Agent#自动化#屏幕理解
AutoGLM 深度拆解:AI 是怎么学会自己点外卖、订机票的?

当 AI 从「回答问题」进化到「替你干活」,这中间需要跨过一道关键的技术鸿沟——AutoGLM 就是智谱跨越这道鸿沟的尝试。

AI Agent 到底是什么?不是聊天机器人的升级版

先澄清一个常见的误解:AI Agent 不是「更聪明的聊天机器人」。聊天机器人只会说话,而 AI Agent 会「动手」。

最直观的类比:聊天机器人像一个只能口头给建议的顾问,而 AI Agent 像一个真正替你跑腿的助手。你对聊天机器人说「帮我订一张明天去上海的机票」,它会回复「您可以打开携程 App,搜索航班...」。而你对 AutoGLM 说同样的话,它会真的打开 App、搜索航班、选择合适的班次、填写乘客信息——全程自动完成。

这听起来很酷,但背后的技术挑战远比大多数人想象的复杂。

屏幕理解:AI 的「眼睛」如何看懂手机界面?

AutoGLM 的第一个核心能力是「屏幕理解」。它需要像人类一样,看着手机或电脑屏幕,理解上面显示的是什么。

这比你想象的难得多。人类看一个 App 界面,能瞬间理解「这是一个搜索框」「这是提交按钮」「这个列表是搜索结果」。但对 AI 来说,屏幕只是一堆像素——它需要从这堆像素中理解页面结构、元素功能和交互逻辑。

AutoGLM 使用了多模态视觉理解技术,将屏幕截图作为输入,输出对界面元素的结构化理解。它不仅要识别「这里有一个按钮」,还要理解这个按钮的功能是什么、点击后会发生什么。这就像教一个从未见过智能手机的人使用 App——你需要让它理解「界面交互」这个全新的概念。

动作规划:AI 的「大脑」如何制定操作步骤?

看懂了屏幕还不够,AutoGLM 还需要「动作规划」——根据用户的指令,把一个复杂任务拆解成一系列具体的屏幕操作。

以「帮我点一份黄焖鸡米饭外卖」为例,AutoGLM 需要规划的步骤大致是:打开外卖 App → 在搜索框输入「黄焖鸡米饭」→ 从搜索结果中选择评分高的店铺 → 选择菜品和规格 → 确认收货地址 → 提交订单。

每一步都需要决策。搜索结果有很多家店,选哪家?规格有大份小份,选哪个?地址有家和公司两个,用哪个?AutoGLM 需要在每一步根据上下文信息做出合理的判断,遇到无法确定的选择时则向用户确认。

这种「分步执行+实时决策」的能力,依赖于底层 GLM 大模型的推理能力。模型需要理解任务目标,维护执行状态,处理异常情况(比如某家店已经关门了),并在必要时调整策略。

难点与挑战:为什么 AI Agent 这么难做?

AutoGLM 面临的技术挑战主要有三个方面。

第一是界面多样性。同一个功能在不同 App 上的界面完全不同,甚至同一个 App 在不同版本中界面也会变化。AutoGLM 需要具备泛化能力,而不是为每个 App 写一套规则。

第二是错误恢复。真实使用中,操作经常会出错——点错了按钮、页面加载失败、弹出了意料之外的对话框。AutoGLM 需要能够识别这些异常并自主恢复,而不是卡住不动。

第三是安全与隐私。让 AI 直接操作你的手机,意味着它能看到你的通讯录、聊天记录、银行 App。如何确保 AI 只做用户授权的操作,不越界访问敏感信息,这是一个必须解决的信任问题。

编辑点评

AutoGLM 代表了 AI 应用的下一个重大方向:从对话式 AI 到操作式 AI。如果说大模型让 AI 学会了「说」,那么 AI Agent 就是让 AI 学会了「做」。这个方向的潜力巨大——想想看,全世界有多少人每天花大量时间在手机上做重复性操作(查信息、填表单、比价格)。但同时,这个方向的技术门槛和信任门槛也是最高的。智谱选择在这个领域率先布局,既体现了技术野心,也需要在用户信任上投入更多努力。

原文链接


相关推荐