以太幣交易所 以太幣交易所
Ctrl+D 以太幣交易所
ads
首頁 > 幣贏 > Info

ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_CHA

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

Coin Metrics將為Chainlink喂價提供其機構級參考利率數據:加密金融數據提供商Coin Metrics近日宣布將提供其機構級參考利率數據,以支持Chainlink喂價。將Coin Metrics數據引入Chainlink喂價將有助于建立對高吞吐量區塊鏈和第二層解決方案的支持,并進一步提高數據質量。(coinmetrics)[2021/7/28 1:20:18]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

Kadena將集成Chainlink以簡化報價:加密貨幣初創公司Kadena今日宣布,將使用Chainlink現有的鏈上預言機為基于Kadena的資產定價。Kadena將自己定位為比特幣和以太坊區塊鏈的高吞吐量替代品,其創始人表示將于2020年第三季度末上線兩家排名前十的加密貨幣交易所。(Coindesk)[2020/5/20]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

動態 | 國際洪門將基于CAM公鏈發行洪門鏈Home Chain:日前,在第20屆中國國際投資貿易洽談會暨第五屆金融科技峰會上,國際洪門總會理事長薛常明與中企通寶總裁黃春盛簽署戰略合作協議,國際洪門將基于CAM公鏈發行Home Chain(洪門鏈),為洪門旗下的全球各產業進行區塊鏈深度開發和應用,進行全方位“鏈改”,為全球一千余萬洪門昆仲及眾多企業服務。國際洪門主席劉沛勛也出席了本次簽約儀式并發表講話。

此外,作為Home Chain落地生態的組成部分,國際洪門慈善總會福建省分會于9月11日在中企大數據正式揭牌,這也是繼中國綠色善行學雷鋒總會后全球第二個使用區塊鏈技術的慈善機構。[2018/9/12]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAAINChainHAIblockchain公司介紹influencechainplugchain幣機制blockchain錢包下載

幣贏
美聯儲“緊急放水”3000億美元 能為金融市場“止血”嗎?_300

文章作者:JosephPolitano文章編譯:Blockunicorn 在硅谷銀行倒閉后,美聯儲向銀行借出了3000億美元的緊急資金,這是否足夠?自2020年以來.

1900/1/1 0:00:00
從立項到未來元宇宙 復盤Azuki的走紅之路_AZU

作者:Soya 與BAYC、CryptoPunk相比,后起之秀Azuki的走紅也許更值得NFT收藏品乃至元宇宙項目參考借鑒.

1900/1/1 0:00:00
就在今晚 鮑威爾將作出任內最艱難的利率決定_FOM

來源:財聯社 加息or不加息?在本月初或許沒有人會想到,這個尖銳而又敏感的問題,會如此早地被擺上美聯儲官員們的會議桌上……毫不夸張地說.

1900/1/1 0:00:00
我如何在Crypto中 3年1000倍to $10M?_CRY

原文作者:VINCERO我是如何進入?Crypto?的?2017?年,在?Bali,當時也算是個?Nomad,但是還不懂什么是?Crypto.

1900/1/1 0:00:00
Cobo神魚:密碼學駭客是Web3底層驅動力_COB

近日,加密友好銀行Silvergate以及硅谷銀行的關閉引發了美股及加密貨幣在內的風險資產的一系列動蕩,比特幣價格在兩萬美元關口劇烈波動.

1900/1/1 0:00:00
晚間必讀|GPT-4引AI賽道大熱 百度緊追熱點 Web3與AI有哪些結合?_區塊鏈

1.Ordinals會讓比特幣再次變得有趣嗎?NFT生態的一種新的原語Ordinals對于比特幣的發展而言,無疑打開了一扇奧弗頓之窗.

1900/1/1 0:00:00
ads