ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_CHA

Author：

Time：1900/1/1 0:00:00

撰文：TanyaMalhotra

來源：Marktechpost

編譯：DeFi之道

圖片來源：由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功，大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型，允許用戶生成有意義的文本。不僅如此，它還可以回答問題，總結長段落，編寫代碼和電子郵件等。其他語言模型，如Pathways語言模型、Chinchilla等，在模仿人類方面也有很好的表現。

Coin Metrics將為Chainlink喂價提供其機構級參考利率數據:加密金融數據提供商Coin Metrics近日宣布將提供其機構級參考利率數據，以支持Chainlink喂價。將Coin Metrics數據引入Chainlink喂價將有助于建立對高吞吐量區塊鏈和第二層解決方案的支持，并進一步提高數據質量。（coinmetrics）[2021/7/28 1:20:18]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋，而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

Kadena將集成Chainlink以簡化報價:加密貨幣初創公司Kadena今日宣布，將使用Chainlink現有的鏈上預言機為基于Kadena的資產定價。Kadena將自己定位為比特幣和以太坊區塊鏈的高吞吐量替代品，其創始人表示將于2020年第三季度末上線兩家排名前十的加密貨幣交易所。（Coindesk）[2020/5/20]

ChatGPT使用來自人類反饋的強化學習，通過最小化偏差對模型進行微調。但為什么不是監督學習呢？一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢？人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因，即為什么強化學習被用于微調而不是監督學習。

動態 | 國際洪門將基于CAM公鏈發行洪門鏈Home Chain:日前，在第20屆中國國際投資貿易洽談會暨第五屆金融科技峰會上，國際洪門總會理事長薛常明與中企通寶總裁黃春盛簽署戰略合作協議，國際洪門將基于CAM公鏈發行Home Chain（洪門鏈），為洪門旗下的全球各產業進行區塊鏈深度開發和應用，進行全方位“鏈改”，為全球一千余萬洪門昆仲及眾多企業服務。國際洪門主席劉沛勛也出席了本次簽約儀式并發表講話。

此外，作為Home Chain落地生態的組成部分，國際洪門慈善總會福建省分會于9月11日在中企大數據正式揭牌，這也是繼中國綠色善行學雷鋒總會后全球第二個使用區塊鏈技術的慈善機構。[2018/9/12]

不使用監督學習的第一個原因是，它只預測等級，不會產生連貫的反應；該模型只是學習給與訓練集相似的反應打上高分，即使它們是不連貫的。另一方面，RLHF則被訓練來估計產生反應的質量，而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的，而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是，它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上，改變反應中的個別單詞可能對整體損失只有很小的影響，但如果一個單詞被否定，產生連貫性對話的復雜任務可能會完全改變上下文。因此，僅僅依靠SL是不夠的，RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型，但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示，RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵，而SL由于其文本段落級的損失函數而未能很好做到這一點。