OpenAI CEO山姆·奧爾特曼認為,,2025年人們將會看到第一批AI智能體“加入勞動力大軍”,。
當?shù)貢r間周四,,OpenAI發(fā)布了自主智能體Operator,。在本月OpenAI推出新功能Tasks,被認為產(chǎn)品方向開始轉向AI智能體后,,OpenAI有了更實質性的動作,。
據(jù)OpenAI介紹,Operator可以代理用戶執(zhí)行基于網(wǎng)頁的操作,,例如查看,、輸入、點擊,、滾用網(wǎng)頁,,Operator是OpenAI最早的智能體之一。目前Operator還是研究預覽版本,,功能上有局限性,,美國的ChatGPT Pro會員可以使用該功能,。
在20多分鐘的介紹視頻中,OpenAI演示了Operator如何用于處理各種復雜的網(wǎng)頁任務,,如填寫表單,、訂購貨物。在演示中,,操作人員要求Operator預定某家餐廳傍晚7點的座位,,Operator就會自動打開網(wǎng)頁進入預訂網(wǎng)站,搜索餐廳并完成預定,。當Operator發(fā)現(xiàn)該時間點餐廳座位已經(jīng)訂完,,就會詢問用戶是否改訂7點45分的餐廳。如果上傳一張寫有雞蛋,、菠菜,、蘑菇、雞肉等食物的購物清單圖片,,Operator則會打開網(wǎng)頁并搜索這些物品,、加入購物車。Operator也能幫助用戶訂購外賣,。
從視頻中看,,Operator的操作頁面與ChatGPT的頁面非常相似,用戶可以在對話框中向Operator提出要求,。據(jù)OpenAI介紹,,支撐Operator的模型則是CUA(計算機代理使用)模型。CUA結合了GPT-4o的視覺能力,,且有高級推理能力,,CUA可與用戶的圖形界面交互,“看到”屏幕上的按鈕,、菜單和文本,,也可以執(zhí)行鼠標和鍵盤可執(zhí)行的操作。在CUA的能力支持下,,當遇到困難或犯了錯誤時,,Operator會利用推理能力進行自我糾正或將控制權交還給用戶。
在安全和隱私方面,,Operator執(zhí)行任務時,,人可以控制這個過程,而當用戶輸入支付信息等敏感信息時,,Operator會要求用戶接管,,在這個過程中Operator不會收集用戶輸入的信息。據(jù)介紹,Operator也會拒絕一些有害的請求,。未來OpenAI計劃開放CUA的使用接口,,使開發(fā)人員能用其構建自己的智能體。目前可使用Operator的用戶群體還有限,,ChatGPT Pro用戶每月會員費達到200美元,,Operator后續(xù)還計劃向ChatGPT Plus、Team,、企業(yè)用戶開放使用,。
Operator發(fā)布后,OpenAI總裁兼聯(lián)合創(chuàng)始人Greg Brockman(格雷格·布羅克曼)在社交媒體上表示,,2025年是智能體之年,。此前,OpenAI也已多次釋放發(fā)力智能體的信號,。
在被問及接下來的模型更新情況時,,OpenAI CEO山姆·奧爾特曼(Sam Altman)去年曾提到,接下來會有更好的模型,,但他相信下一個重大突破將是智能體,。本月初,山姆·奧爾特曼在一篇博客長文中表示,,相信2025年人們將會看到第一批AI智能體“加入勞動力大軍”,,從根本上改變各公司產(chǎn)出的東西。當?shù)貢r間1月14日,,OpenAI還推出了名為Tasks的測試版新功能,,用戶可用其創(chuàng)建和管理未來任務提醒,該功能也具備一定的智能體屬性,。
有研發(fā)人員告訴記者,,智能體的關鍵在于AI模型具備更強的主動性。在國內(nèi),,較早布局智能體企業(yè)是智譜AI。去年11月,,智譜AI發(fā)布了PC端智能體GLM-PC并開始邀請測試,,該智能體的功能也包括點外賣、發(fā)微信,。該智能體近日發(fā)布了更新,,推出“深度思考”模式并增加了專用來做邏輯推理和代碼生成的功能。
智譜華章總裁王紹蘭去年12月表示,,2025年AI領域有兩個重要發(fā)展方向,,其中一個就是智能體技術,也就是大模型使用工具,“現(xiàn)在手機APP還需要按照人的方式在操作,,可以想象大模型能熟練使用工具對行業(yè)意味著什么,。”