一文了解 ChatGPT 等 LLMs 得到明顯改進的 3 個變化_CHI

Author：

Time：1900/1/1 0:00:00

原文作者：TanyaMalhotra

來源：Marktechpost

近年來，大型語言模型在全世界受到了廣泛贊賞，并在自然語言處理領域備受歡迎。這使我們能夠使用比以往任何時候都更好、更清晰的語言理解來描述智能系統。

諸如GPT-3、T5、PaLM等LLMs的性能有了顯著提高，并且這些模型將繼續存在，因為它們可以完成從通過學習閱讀來模仿人類，到生成文本和總結長段落內容的所有工作。而根據一些深入的研究，如果LLM的規模很大，那么它的表現就會很好。通過在大量數據上訓練這些模型，它們可以理解人類語言的語法、語義和語用學。?

Mysten Labs聯創：Web3不僅僅關乎金錢，還關乎平等和透明:金色財經報道，Mysten Labs聯合創始人Evan Cheng表示，投資者可能會從財務機會和收入的角度來看待Web3，但這忽略了一個重點，即試圖建立一個更公平、更透明的基礎設施，讓內容創造者站在最前沿。在Web2.0中，內容創建者將他們的作品上傳到中央服務器，而Web3則不同，它允許用戶點對點交互，并為互聯網上的活動增加了一個新的所有權層。

如今的互聯網是建立在用戶的工作之上的，Instagram、Facebook、Twitter這些大公司控制著傳播，并從中獲利。他們從中榨取了很多利潤。更重要的是，它涉及透明度和缺乏公平，這就是我們需要回到的地方。[2023/2/16 12:10:53]

由OpenAI開發的流行的大型語言模型ChatGPT之所以發展得如此之快，正是因為采用了人類反饋強化學習等先進技術。通過RLHF，機器學習算法結合并使用人工輸入提高了模型的性能。它針對預訓練的LLM進行了微調，用于開發聊天機器人、虛擬助手等任務。

超過785.3萬枚DOGE從多個錢包轉至未知錢包:金色財經報道，Dogecoin Whale Alert數據顯示，7,853,117枚DOGE（價值598,415美元）從多個錢包轉移到一個未知錢包。[2022/12/26 22:08:09]

此外，ChatGPT等LLMs所基于的預訓練基礎模型也得到了明顯的改進。這主要是由于三個方面的變化：

1.實踐證明，模型的擴展性對提高其性能很有幫助。以Pathways語言模型為例，該模型通過擴展小樣本學習大大影響了其性能，小樣本學習可以減少根據具體應用調整模型所需的特定任務訓練實例的數量。

NFT平臺Revel宣布完成780萬美元種子輪融資:金色財經報道，?NFT平臺Revel宣布完成780萬美元的種子輪融資，?Dragonfly Capital領投。 Union Square Ventures、Sfermion、6th Man Ventures、Gaingels、Wagmi Ventures、Alumni Ventures、Global Impact Ventures、Hansa Labs 和 Polygon等領投。

Revel首席執行官Adi Sideman表示，這筆資金將用于擴展 Revel 的 web3 互操作性、生成和協作 AI 功能以及社交功能。[2022/12/19 21:54:44]

通過使用Pathways語言模型在6144TPUv4芯片上擴展和訓練5400億個參數，PaLM展示了重復擴展的好處，其表現超過了各種傳統模型，并顯示出很大的進步。因此，深度和寬度的擴展都是提高基礎模型性能的一個重要因素。

2.另一個變化是在預訓練時增加標記數量的過程。像Chinchilla這樣的模型已經證明，通過增加預訓練數據，大型語言模型的表現會更好。

Chinchilla是一個計算最優模型。在相同的計算預算下，在70B參數和比Gopher模型多四倍的數據上進行訓練，Chinchilla的表現一致優于Gopher，它甚至比GPT-3、Jurassic-1和Megatron-TuringNLG等LLMs效果更好。這清楚地描述了對于每一個計算最優的訓練，標記的數量應該相應地縮放——即模型大小的兩倍，因此訓練標記的數量應該是兩倍。?

3.第三個變化是使用干凈和多樣化的預訓練數據。Galactica的性能證明了這一點，它是一種存儲、混合和推理科學知識的大型語言模型。經過幾篇科學論文文本的訓練，Galactica的表現優于GPT-3、Chinchilla等模型。另一個大型語言模型BioMedLM是一種針對生物醫學文本的特定領域LLM，在針對特定領域數據進行訓練時，它表現出了巨大的性能提升。它清楚地表明，在特定領域的數據上進行的預訓練勝過在通用數據上的訓練。

結論

LLMs的成功無疑歸功于多種因素的混合，包括RLHF的使用和預訓練基礎模型的發展。這三個變化極大地影響了LLMs的性能。此外，GLaM通過使用稀疏激活的混合專家架構，以更少的訓練成本擴展模型的容量，從而顯著提高了性能。因此，這些變化為更高級的語言模型開辟了道路，而這些模型將繼續讓我們的生活變得輕松。??

Tags：CHI TUR GPT RES Mochimo Elves Century GGPT Doge Your Own Research