參數是由機器學習模型在訓練過程中學習到的數值。機器學習模型中的參數值決定了模型如何解釋輸入數據并做出預測。調整參數是確保機器學習系統的性能得到優化的一個必要步驟。圖1.2.9按部門突出顯示了Epoch數據集中包含的機器學習系統的參數數量。隨著時間的推移,參數的數量一直在穩步增加,自2010年代初以來,這個增長尤為急劇。人工智能系統正在迅速增加其參數的事實反映了它們被要求執行的任務的復雜性增加,數據的可用性增加,底層硬件的進步,最重要的是,更大的模型的性能演示。
1950-22年按部門劃分的重要機器學習系統的參數數量
圖1.2.9
圖1.2.10按領域展示了機器學習系統的參數。近年來,參數豐富的系統數量不斷增加。
1950-22年重要的機器學習系統按領域劃分的參數數
圖1.2.10
計算趨勢
人工智能系統的計算能力,或稱“計算能力”,是指訓練和運行機器學習系統所需的計算資源量。通常,一個系統越復雜,所訓練它的數據集越大,所需的計算量就越大。在過去的五年里,重要的人工智能機器學習系統使用的計算量呈指數級增長(圖1.2.11)。對人工智能計算需求的增長有幾個重要的影響。例如,更密集型計算的模型往往對環境的影響更大,而工業參與者往往比大學等其他模型更容易獲得計算資源。
1950-22年重要機器學習系統的分部門訓練計算(FLOP)
圖1.2.11
自2010年以來,在所有的機器學習系統中,語言模型需要的計算資源越來越多。
1950-22年重要機器學習系統的分域訓練計算(FLOP)
圖1.2.12
大型語言和多模態模型
大型語言和多模態模型,有時被稱為基礎模型,是一種新興的、日益流行的人工智能模型,它對大量數據進行訓練,并適應各種下游應用程序。像ChatGPT、DALL-E 2和MakeA-Video這樣的大型語言和多模態模型-Video模型已經展示了令人印象深刻的能力,并開始在現實世界中廣泛應用。今年,人工智能指數對負責發布新的大型語言和多模態模型的作者的國家隸屬關系進行了分析。10這些研究人員中的大多數來自美國的研究機構(54.2%)(圖1.2.13)。2022年,來自加拿大、德國和印度的研究人員首次為大型語言和多模式模型的發展做出了貢獻。
2019-22年按國家選擇大型語言和多模態模型(占總數的%)的作者
圖1.2.13
圖1.2.14提供了自GPT-2以來發布的大型語言和多模態模型的時間軸視圖,以及產生這些模型的研究人員的國家附屬機構。2022年發布的一些著名的美國大型語言和多模態模型包括OpenAI的DALL-E 2和谷歌的PaLM(540B)。2022年發布的唯一一種中國大型語言和多模式模式是GLM-130B,這是清華大學的研究人員創建的一種令人印象深刻的雙語(英語和中文)模式。同樣于2022年底推出的布魯姆計劃,由于它是1000多名國際研究人員合作的結果,因此被列為不確定計劃。
選擇大型語言和多語言模式模型發布的時間軸和國家歸屬
圖1.2.14
參數計數
隨著時間的推移,新發布的大型語言和多模態模型的參數數量大幅增加。例如,GPT-2是2019年發布的第一個大型語言和多模式模型,它只有15億個參數。由谷歌于2022年推出的PaLM擁有5400億美元,是GPT-2的近360倍。在大型語言和多模態模型中,參數的中位數隨著時間的推移呈指數級增長(圖1.2.15)。
2019-22年選擇大型語言和多模態模型的參數數
圖1.2.15
2025-05-12 08:39
2025-05-12 08:33
2025-05-12 08:30
2025-05-12 08:23
2025-05-07 13:20
2025-05-06 10:42
2025-05-06 10:41
2025-05-06 09:28
2025-05-06 09:27
2025-04-28 14:41