ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型——BloombergGPT。
3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。
報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。
一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。
維珍銀河董事長:金融混亂或將比特幣推向新高度:金色財經報道,硅谷投資公司Social Capital首席執行官、維珍銀河董事長Chamath Palihapitiya表示,如果全球金融體系崩潰,比特幣將推動數十億人的金融可及性,金融混亂將把比特幣推向新的高度。另一方面,Palihapitiya仍然對比特幣可能對金融基礎設施做出的改變持樂觀態度。此外,Palihapitiya表示,無論誰在11月贏得大選,通貨膨脹都會繼續。[2020/10/8]
關于BloombergGPT
報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:
彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。
人大國際貨幣研究所副研究員:金融區塊鏈加快標準化建設:中國人民大學國際貨幣研究所副研究員曹勝熙表示,疫情期間,區塊鏈技術在助推企業融資過程中進一步發揮了作用。日前《金融分布式賬本技術安全規范》正式出爐。與此前相比,《規范》主要針對金融行業,對分布式賬本的用戶管理、監管支撐、隱私保護等方面提出了更高要求。在《規范》推出后,金融區塊鏈在架構設計、模塊功能、軟件接口等各方面都有了參考基準,這一基準是走在世界前列的。《規范》發布之前,國內金融區塊鏈應用存在野蠻生長情況,一些應用宣稱基于區塊鏈,但與實際不符;還有一些應用雖然基于區塊鏈,但在安全性上并不保險。《規范》發布后,既可以排除前一類“假”的區塊鏈項目,也可以規范已應用區塊鏈技術但安全上存在漏洞的項目。(經濟日報)[2020/3/26]
我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。
動態 | Upvest籌集780萬美元為企業在區塊鏈標記金融資產:德國資產代幣初創公司Upvest已經在A輪融資中籌集了700萬美元,以幫助企業在區塊鏈上標記金融資產。本輪融資由concept Capital牽頭,Partech Ventures和Holtzbrinck Ventures也參與其中。(Theblock)[2019/12/12]
使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和LeScao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。
結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。
現場 | 原人民銀行金融信息化研究所所長李曉楓:下一步區塊鏈金融應用會是資產方向:金色財經現場報道,12月1日,在三亞舉辦的海南國際離岸創新創業示范區建設暨區塊鏈?數字資產交易技術創新高端論壇上,原中國人民銀行金融信息化研究所所長李曉楓演講表示,“ABCD”四個技術中,人民銀行對于區塊鏈有立項和參與,因此促進了今年區塊鏈在金融方向的落地應用。銀行業務分為是負債、資產、中間業務。區塊鏈主要在中間業務中應用,例如支付、供應鏈金融等。下一步區塊鏈的金融應用是資產方向。一個技術,對于銀行來說,可管理性很重要。[2019/12/1]
1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠
動態 | 馬耳他金融管理局為缺乏經驗的加密投資者設置上限:據Timesofmalta消息,日前,馬耳他金融服務管理局發布最新規定,規定缺乏經驗的投資者在12個月內只能購買價值5000歐元的虛擬金融資產。只有那些被定義為經驗豐富的投資者才能投入更多資金,例如那些已經涉足IC0的人,投入的資金不超過其凈資產的1%,不包括他們的住宅。規定同時包含其他投資者保護機制,包括需要獨立的第三方作為資產和投資者資金的托管人。[2018/10/31]
在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:
除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。
此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。
2.BloombergGPT的訓練數據集:
BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。
為了提高數據質量,FINPILE數據集也使用了公共數據集,例如ThePile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。
對金融領域的理解更準
報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:
以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。
報告指出,從測試來看,BloombergGPT在五項任務中的四項表現最佳,在NER中排名第二。因此,BloombergGPT有其優勢性。
測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。
測試二:FiQASA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。
測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。
測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。
測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。
對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。
ChatGPT為彭博點贊
華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:
它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。
這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。
背景 CCPGames是一家成立于1997年的冰島游戲開發公司,以其現代科幻太空MMO游戲《EVEOnline》而聞名。自成立以來,CCPGames一直致力于創造比現實生活更有意義的虛擬世界.
1900/1/1 0:00:00退出騙局,我們俗稱的項目跑路。又被形象地稱為“拉地毯”,是Web3.0領域的一種犯罪詐騙手段。RugPull的常見做法是在創建一個看似合法的DeFi項目之后,制造虛假的交易量和用戶數量來提高項目.
1900/1/1 0:00:00自2022年11月香港財經事務與庫務局正式發布了《有關香港虛擬資產發展的政策宣言》,標志著香港作為我國最為國際化、經濟活動最頻繁的金融地區之一,正式加入了競爭世界虛擬資產中心的大潮中.
1900/1/1 0:00:00文/0xAsharib,區塊鏈開發人員;譯/金色財經xiaozou 術語解釋: 1、EigenLayer:是以太坊的再質押集,由一組智能合約構成.
1900/1/1 0:00:00金色財經報道,以太坊再質押協議EigenLayer完成5000萬美元的A輪融資,BlockchainCapital領投.
1900/1/1 0:00:00原文作者:JosephPolitano原文編譯:Blockunicorn 盡管簽名銀行的失敗并未受到足夠的關注,但它仍是美國歷史上第三大破產案例.
1900/1/1 0:00:00