6月1日,在2021北京智源大會開幕式上,北京智源人工智能研究院理事長張宏江、學術副院長唐杰介紹和發布了“悟道”模型。這是全球迄今最大的超大規模智能模型。
目前,“大模型+大算力”是邁向通用人工智能的一條可行路徑。大模型對于人工智能發展具有重大意義,未來將基于大模型形成類似電網的變革性AI產業基礎設施。AI大模型相當于“發電廠”,將數據,也就是“燃料”,轉換為智能能力,驅動各種AI應用。如果將大模型和所有的AI應用相連接,為用戶提供統一的智能能力,全社會將形成一個智能能力生產和使用的網絡,即“智網”。大模型就是下一個AI的基礎平臺,是未來AI發展的戰略基礎設施。
張宏江表示,國際主流的大模型主要基于英文語料研發,智源研究院作為AI基礎建設的先行者,成立了由智源研究院學術副院長唐杰教授領銜,100多位科研骨干共同參與的“悟道”團隊,啟動面向中文的大規模智能模型研發工作。“悟道”模型系統將構建“大模型、大平臺、大生態”,持續研發超大規模智能模型,圍繞大模型研發,構建大規模算力平臺,同時對外開放模型能力,“賦智”各行業發展,構建大模型生態。今年3月20日,智源研究院發布了中國首個超大規模智能模型“悟道1.0”,訓練出中文、多模態、認知、蛋白質預測等系列模型。經過不到3個月的持續更新迭代,“悟道2.0”實現了更高層面的跨越。
唐杰介紹,“悟道”超大模型智能模型旨在打造數據和知識雙輪驅動的認知智能,讓機器能夠像人一樣思考,實現超越圖靈測試的機器認知能力?!拔虻馈眻F隊在大規模預訓練模型研發上做了很多基礎性工作,形成了自主的超大規模智能模型技術創新體系,擁有從預訓練理論技術到預訓練工具,再到預訓練模型構建和最終模型測評的完整鏈條,從技術上是完整成熟的。通過一系列原始創新和技術突破,本次發布的“悟道2.0”實現了“大而聰明”,具備大規模、高精度、高效率的特點。
“悟道2.0”模型的參數規模達到1.75萬億,是GPT-3的10倍,打破了之前由國外預訓練模型創造的1.6萬億參數記錄,是目前中國首個、全球最大的萬億級模型。
“悟道2.0”模型在中英雙語共4.9T的高質量大規模清洗數據上進行的訓練。訓練數據包含WuDaoCorpora中的1.2TB中文文本數據、2.5TB中文圖文數據,以及Pile數據集的1.2TB英文文本數據?!拔虻?.0”模型一統文本與視覺兩大陣地,支撐更多任務,更加通用化。
大規模預訓練模型的參數規模通常遠超傳統的專用人工智能模型,在算力資源、訓練時間等方面消耗巨大。為了提升大規模預訓練模型的產業普適性和易用性,悟道團隊搭建高效預訓練框架,在高效編碼、高效模型、高效訓練、高效微調和高效推理等方面進行全鏈路的原創突破或迭代優化,實現效率的大幅提升。
同時,“悟道”模型研發過程中,智源研究院建設了全球最大的語料數據庫WuDaoCorpora2.0,包含全球最大的中文文本數據集、全球最大的多模態數據集、全球最大的對話數據集,為行業內大規模智能模型的研發提供了豐富的數據支撐。
此外,智源研究院還推動開展“悟道”超大規模智能模型產業生態建設,將面向個人開發者、中小創新企業、行業應用企業、IT領軍企業等不同主體,分別提供模型開源、API調用、“專業版”大模型開發、大模型開發許可授權等多種形態的模型能力服務,賦能AI技術研發。
本次大會上,智源研究院與新華社、美團、小米、快手、搜狗、360、寒武紀、第四范式、好未來、智譜華章等22家“悟道”大模型產業生態戰略合作單位進行了簽約,并發出組建“悟道”大模型技術創新生態聯盟的倡議,吸引更多企業加入,將以聯盟為樞紐,以企業需求為導向推動模型研發,共同開發基于“悟道”大模型的智能應用,以模型研發和應用促進產業集聚。















