自从去年 12 月开始关注 ChatGPT 并第一次上手体验之后,我就特别关注 AI 领域的一些新变化,为此还把朋友圈里一些做 AI 产品和技术的朋友挖了出来拉了个小群。
过去这一周,我发现大家都在密切关注一个叫 AutoGPT 的新项目。而且,这些人几乎每天都在朋友圈或群里转发自己的任务执行结果。
那么,AutoGPT 是什么?它和 ChatGPT 又有什么关系?
这里,我想简单跟你们聊聊。
AutoGPT 是一个基于 GPT-4 能力的开源项目,目前可以通过 Github 下载源码并部署安装。
可以看到,目前这个项目的 Star 数已经超过 35k 了,在国外圈子里也小火了一把。
AutoGPT 最大的特点在于能根据任务指令自主分析和执行,甚至还会自己给自己提出新的问题并回答。
这跟 ChatGPT 有所不同,在 ChatGPT 的交互方式中,你提出一条指令,ChatGPT 给出回应,接下来你再给,它再回。
而 AutoGPT 的交互方式是你提出一个需求或任务,它并不会着急给你答案,而是会分析这个问题,并且给出执行目标和具体任务,然后开始执行。
注意,它是真的会开始执行。
比如,国外的测试者通过 AutoGPT 创建了一个网站,当他输入自己的需求后,AutoGPT 直接调用 React 框架生成了一个前端页面。
AutoGPT 还提供一种能力,能实现存储。可以理解为给基于 GPT 的模型一个内存,你可以在本地训练一个 AI 助手,让它帮你完成一些日常执行工作。
因为使用部署过程需要先完成一些开发配置,还需要有 OpenAI 的 API 秘钥,对于一般的小白用户还不是很友好。
所以,你们可以体验下另一款基于 AutoGPT 的平替产品 AgentGPT。
这是一款基于浏览器的工具,但同样需要 OpenAI 的 API 秘钥来实现长时间访问并获得完整流程。
不过没有也没关系,可以先跳过体验一下大致流程。
你可以给自己的 AI 起个名字,然后在 Goal 这个输入框输入你想让它帮你完成的事项。
比如,我让它帮我达成一个目标,就是「理解程序员口中的API是什么意思」。
系统并没有着急给出答案,而是开始思考,并自主添加了三个子任务。
在这三个子任务中,一个是从可信渠道研究关于 API 的定义;一个是收集关于 API 在编程中的具体应用;还有一个就是全面详细解释 API 在软件开发中的具体意义。
接下来,AgentGPT 开始自主执行自己制定的第一个子任务,从网络上搜索到了关于 API 的准确定义,并且给出了信息源网址。
第一个子任务执行完成后,AgentGPT 开始自动执行第二个任务,找一些案例来帮助我理解。
从子任务执行结果可以看到,它例举了谷歌地图、推特、Facebook和亚马逊在应用场景中使用 API 的例子。
最后它又自动执行了第三个子任务,全面解释了一下 API 到底是什么。
然后我又给它提供了一个新目标,让它计算一下北京有多少辆出租车,并且同时把这个问题提给 ChatGPT。
需要说明的是,这两个实验环境都不是基于 GPT-4 完成的,如果切换到 GPT-4,效果会更好。
在 AgentGPT 里,这个问题同样被拆分成了三个子任务。
一个是去官方渠道查询、一个是通过计算机视觉识别去调用交通监控摄像头统计、还有一个是利用打车应用程序的众包数据,根据使用模式估计北京的出租车数量。
很明显,这些数据都很难获取,甚至获取不到,但至少 AgentGPT 给出了一些路径和思路。
同样的问题提给 ChatGPT,它直接无语了。
所以,类似 AutoGPT 和 AgentGPT 这样的衍生产品代表的是更聪明、更灵活、执行力更强、以及效率更高。
此外,对于之前我提过的写 prompt 的能力很重要的问题,可能 AutoGPT 的出现就给我啪啪打脸了。
这么看来,写 prompt 也不再是人类的一项优势,而提出准确的问题和目标才是。
剩下的,都可以交给 AI。
在我看来,AutoGPT 最大的意义在于像我们展示了一种可能性,就是 AI 的逻辑自洽和服务于垂直场景的能力。
或许,这也是为什么有人把这叫做「AI智能体」的原因了。
我们问,AI 理解、AI 分析、AI 执行、AI 验证。
或许,未来是这么一个循环路径。
据说今年 GPT-5 会来,那时候我们的认知和判断或许又会得到刷新。
未来,就是每一个正在发生的现在。