在今年的CNCC大會上,智譜科技的一項新技術引發了廣泛關注——AutoGLM,一個能夠模擬用戶在手機和網頁上操作的智能助手。這一創新不僅展示了AI在日常生活中的應用潛力,還標志著智譜在通往通用人工智能(AGI)道路上的又一重要進展。
智譜發布的AutoGLM功能強大,現場實測中,用戶只需一句話即可指令AI在美團上點咖啡,全程無需人工干預,除了付款環節。智譜還展示了其最新的GLM-4-Voice情感語音模型,該模型在情感表達、語音控制等方面表現出色,甚至能模仿多種方言和情緒。
在CNCC的圓桌論壇中,專家們討論了AGI的實現路徑,強調了多模態、推理與自我學習的重要性。智譜的AutoGLM正是其在工具能力上的新探索,也是其AGI實現路徑的一部分。
智譜的清言情感語音助手在多方面實現了突破,如響應速度、情緒感知、情感共鳴等。在實測中,該助手不僅能進行英語陪練,還能切換至日語,甚至能模仿多種方言,如北京腔、臺灣腔、東北腔和粵語。
技術方面,AutoGLM基于智譜的GLM-4大模型家族,特別是新發布的GLM-4-Voice情感語音模型。該模型采用端到端的設計,避免了傳統級聯方案中的信息損失和誤差積累,擁有更高的建模上限。
智譜在探索AGI的過程中,經歷了從單一模態到多模態的轉變。其AGI路徑注重文本大模型的能力提升,同時逐步融入圖像、視覺、語音等模態,并持續迭代代碼模型、視頻生成模型等。
智譜CEO張鵬介紹,智譜將人工智能分為L1到L5五個等級,其中L4和L5體現了AI的自我學習能力。目前,智譜發布的手機助手已達到L3的工具使用階段,并計劃在本月底推出升級版的視頻生成模型CogVideoX-Plus。
智譜內部認為,目前距離AGI的實現還有很長的路要走。他們根據大腦的能力,將AGI的技術維度分為了多個方面,包括多模態感知與理解能力、長短期記憶能力、深度思考與推理能力、情感與想象力等。