当 AI 从「回答问题」进化到「替你干活」,这中间需要跨过一道关键的技术鸿沟——AutoGLM 就是智谱跨越这道鸿沟的尝试。
AI Agent 到底是什么?不是聊天机器人的升级版
先澄清一个常见的误解:AI Agent 不是「更聪明的聊天机器人」。聊天机器人只会说话,而 AI Agent 会「动手」。
最直观的类比:聊天机器人像一个只能口头给建议的顾问,而 AI Agent 像一个真正替你跑腿的助手。你对聊天机器人说「帮我订一张明天去上海的机票」,它会回复「您可以打开携程 App,搜索航班...」。而你对 AutoGLM 说同样的话,它会真的打开 App、搜索航班、选择合适的班次、填写乘客信息——全程自动完成。
这听起来很酷,但背后的技术挑战远比大多数人想象的复杂。
屏幕理解:AI 的「眼睛」如何看懂手机界面?
AutoGLM 的第一个核心能力是「屏幕理解」。它需要像人类一样,看着手机或电脑屏幕,理解上面显示的是什么。
这比你想象的难得多。人类看一个 App 界面,能瞬间理解「这是一个搜索框」「这是提交按钮」「这个列表是搜索结果」。但对 AI 来说,屏幕只是一堆像素——它需要从这堆像素中理解页面结构、元素功能和交互逻辑。
AutoGLM 使用了多模态视觉理解技术,将屏幕截图作为输入,输出对界面元素的结构化理解。它不仅要识别「这里有一个按钮」,还要理解这个按钮的功能是什么、点击后会发生什么。这就像教一个从未见过智能手机的人使用 App——你需要让它理解「界面交互」这个全新的概念。
动作规划:AI 的「大脑」如何制定操作步骤?
看懂了屏幕还不够,AutoGLM 还需要「动作规划」——根据用户的指令,把一个复杂任务拆解成一系列具体的屏幕操作。
以「帮我点一份黄焖鸡米饭外卖」为例,AutoGLM 需要规划的步骤大致是:打开外卖 App → 在搜索框输入「黄焖鸡米饭」→ 从搜索结果中选择评分高的店铺 → 选择菜品和规格 → 确认收货地址 → 提交订单。
每一步都需要决策。搜索结果有很多家店,选哪家?规格有大份小份,选哪个?地址有家和公司两个,用哪个?AutoGLM 需要在每一步根据上下文信息做出合理的判断,遇到无法确定的选择时则向用户确认。
这种「分步执行+实时决策」的能力,依赖于底层 GLM 大模型的推理能力。模型需要理解任务目标,维护执行状态,处理异常情况(比如某家店已经关门了),并在必要时调整策略。
难点与挑战:为什么 AI Agent 这么难做?
AutoGLM 面临的技术挑战主要有三个方面。
第一是界面多样性。同一个功能在不同 App 上的界面完全不同,甚至同一个 App 在不同版本中界面也会变化。AutoGLM 需要具备泛化能力,而不是为每个 App 写一套规则。
第二是错误恢复。真实使用中,操作经常会出错——点错了按钮、页面加载失败、弹出了意料之外的对话框。AutoGLM 需要能够识别这些异常并自主恢复,而不是卡住不动。
第三是安全与隐私。让 AI 直接操作你的手机,意味着它能看到你的通讯录、聊天记录、银行 App。如何确保 AI 只做用户授权的操作,不越界访问敏感信息,这是一个必须解决的信任问题。
编辑点评
AutoGLM 代表了 AI 应用的下一个重大方向:从对话式 AI 到操作式 AI。如果说大模型让 AI 学会了「说」,那么 AI Agent 就是让 AI 学会了「做」。这个方向的潜力巨大——想想看,全世界有多少人每天花大量时间在手机上做重复性操作(查信息、填表单、比价格)。但同时,这个方向的技术门槛和信任门槛也是最高的。智谱选择在这个领域率先布局,既体现了技术野心,也需要在用户信任上投入更多努力。