作者:SrinivasGumparthi博士,VenkataVaraPrasad博士
來源:SSRN
發布:2022.08.31
摘要
目的:股票價格預測一直作為一門研究課題,因為它在國家宏觀經濟中具有重要的作用。很難用一組特定的公式寫下股票的未來價值。當我們預測一只股票的未來價格時,許多因素都會出現。其中最重要的是歷史價格和成交量數據。
方法:隨著機器學習的興起,人們提出了多種預測股票價格的方法。目前,已開發了RNN、LSTM、CNN滑動窗口等各種模型,但都不夠精確。這項工作的興趣在于預測股票的價格,以及比較使用兩種算法,即KalmamFilters和XGBoost,并獲得結果。KalmamFilters本質上是遞歸的,并使用反饋機制進行誤差校正。這種修正能讓他們做出準確的預測,因為它們可以將市場波動考慮在內,而XGBoost對于非線性數據集來說是一種很有前途的技術,可以通過檢測數據中的模式和關系來收集知識。此外,XGBoost還能有效地捕獲特征的時間依賴性。
新穎性:最后,結合KalmamFilters和XGBoost開發了一個Hybrid模型,給出了未來投資和股票預測所需的完美預測。與KalmamFilters和Hybrid模型相比,XGBoost的平均準確率更高。
研究結果:混合模型似乎能準確地預測樣本的未來趨勢,但并不是對所有樣本都能做到這一點。XGBoost模型對NSE數據集的平均準確率為88.66%,對NYSE數據集的平均準確率為90.11%。KalmamFilter模型對NSE數據集的平均準確率為89.09,對NYSE數據集的平均準確率為64.96。該Hybrid模型對NSE數據集的平均準確率為76.79%,對NYSE數據集的平均準確率為70.91%。然而,對于個股,Hybrid模型表現優于XGBoost和KalmamFilter。
關鍵字:XGBoost,KalmanFilter,Hybrid模型,NSE,NYSE,市場情緒
1.介紹
如今,股票市場已成為大家的一個重要投資領域,很多普通人也對股票投資很感興趣。受環境、和其他社會因素的影響,股票市場價格波動很大。因此,有必要對股票價格預測進行廣泛分析。早期的統計模型和機器學習模型用于股票價格的預測。但考慮到歷史數據,數據量越來越大,這些模型在股票價格預測方面的準確性逐漸下降。因此,在當前的工作中,作者提出了一種結合統計和機器學習模型的混合模型。利用Kalmanfilter和XGBoost的優點來提高預測準確度。
很多研究人員使用各種統計和機器學習模型來解決這個問題。很少有人研究這些模型的組合,也很少有人給出印度股市帶來的顯著結果。Chatziset等人的研究旨在利用機器學習技術預測股市危機事件。該方法是基于尋找股票市場崩盤事件在不同時間框架的概率。考察了股票、債券和貨幣市場之間的交叉傳染效應。使用模型預測日收益,利用對數收益的平方計算日波動率。XGBoost在1天和20天內都有最佳的經驗表現。
yearn.finance利用Curve Finance上Iron Bank的流動性池推出新yVault:官方消息,yearn.finance宣布利用Curve Finance上Iron Bank的流動性池,推出一個新的yVault。
Cream Finance表示,該yVault策略使用Iron Bank中的cyDAI、cyUSDC和cyUSDT賺取穩定幣,提高了利率。[2021/3/24 19:13:06]
Sen等人使用具有反向傳播算法的ANN作為訓練階段,并使用多層前饋網絡作為預測股票價格的網絡模型。研究了一種基于ANN的股票交易決策支持系統。本文還討論了基于決策過程的神經網絡的研究進展。該模型隨輸入值和時期的不同組合而變化。它輸出性能曲線、誤差曲線和輸出圖形。驗證效果良好,回歸值為0.996。
Dey等人將各種深度學習算法與XGBoost進行比較,以預測Yahoo數據集的股票市場回報。預測周期分別為28天、60天和90天。已經計算了每一項的準確性、預測性、召回率和特異性。繪制每個模型的假陽性率。
Karyaet等人在論文中,采用集合卡爾曼濾波平方根法和集合卡爾曼濾波法對股票價格進行預測。模擬結果表明,EnKF方法的估計結果比EnKF-SR方法更精確,即EnKF方法的估計誤差約為0.2%,而EnKF-SR方法的估計誤差為2.6%,。
Mortezaet等人的項目,試圖在NSE上使用機器學習技術來預測股票的未來價格,他們使用線性回歸和SVM回歸。線性回歸將使用股票前一天的收盤價來預測股票第二天的開盤價。SVM回歸將用于預測第二天股票的收盤價和開盤價之間的差值。外匯匯率、NSE指數、移動平均線、相對強弱指數等外部因素,被用來獲得最大的準確性。
DevShah等人在論文中,討論了股票市場分析的技術和基本方法。在技術分析中詳細討論了統計、機器學習、模式識別、情感分析和混合技術,還考慮了算法交易。作者總結說,包含混合和統計的機器學習技術,將產生更好的結果。人工神經網絡是人工智能的一部分,是一種識別數據中隱藏的、未知的、適合股票市場預測模式的常用方法。所選股票的歷史數據用于建立和訓練模型。
Song等人在論文中,將RNN-LSTM模型與SVM和XGBoost進行了比較。數據集是通過應用Python庫從GoogleFinance的API中獲得的。選擇了20家在NASDAQ和NYSE交易的公司。考慮了RSI、ADX和拋物線SAR等指標。通過繪制測試集誤差圖來比較結果。
Wanjawaet等人的研究,提出使用具有多層感知器的前饋人工神經網絡,通過反向傳播來預測股票價格。該模型分4個階段進行迭代。數據集來自內羅畢證券交易所和NYSE。通過改變隱藏層和感知的數量進行調優。每個調優實驗都基于前一個實驗模型進行的。最終模型的配置比為5:21:21:1,使用80%的可用數據進行訓練。采用均方根誤差作為參數,將獲得的結果與原始結果進行比較。結果表明,該模型對股票價格的預測具有較好的效果。
徐等人進行了比較文獻調查,證明ANN比SVM預測更準確。使用反向傳播訓練若干個前饋ANN。該評估是在NASDAQ證券交易所進行的,采用了6個月的數據集。模型的輸入是短期歷史股票價格和每周的天數。通過對每個隱藏層中神經元數目和設置不同的值,來優化神經網絡的結構。
河北省將全面激活利用區塊鏈等技術的在線新經濟:河北省發改委日前印發《河北省加快在線新經濟發展行動計劃(2020-2022年)》。目標是全面激活河北在線新經濟活力,在線新經濟是利用互聯網、5G、人工智能、大數據、云計算、區塊鏈等新一代信息技術,與先進制造業、教育文化、文娛消費、衛生健康、交通出行、物流配送等深度融合,具有在線互聯、智慧互動、開放互融特征的新業態、新模式。(河北新聞網)[2020/8/8]
鄭紅英等人提出了一種新的深度學習模型-隨機長短期記憶,旨在防止過擬合。該模型由Modaugnet-C框架和另一個用于預測的LSTM模塊組成,Modaugnet-C框架通過一個LSTM模塊和另一個LSTM模塊來增強單個LSTM模塊的潛力,其中一個LSTM模塊可以使用額外的增強數據來降低過擬合的風險,這些數據與用于預測的股票數據有很強的相關性。這在SSEC和S&P500數據集上進行了測試,該模型在準確性上優于其他模型。
WidodoBudiharto提出了一個模型,該模型結合了LSTM和基于R語言的統計計算,用于預測Covid-19大流行期間印度尼西亞交易所的股票。該模型在預測不到一年的短期數據時表現良好,準確率達94.5%,超過了長期數據的預測。
SalvatoreM.Cartaet等人使用機器學習方法,借助決策樹的二元分類技術來衡量未來股票價格波動的幅度。這些詞匯是從全球發表的文章、行業相關新聞等中識別和生成的。這些數據將與提取的特征一起輸入到預測模型。這在S&P500指數公司進行了測試,但準確率只有50-60%。
Milad等人比較了人工神經網絡和啟發式算法與傳統的時間序列模型來預測股票價格。這些模型用于各種國際指數,如Nasdaq指數、S&P500指數和DJI指數。與時間序列模型比較,ANN模型的誤差最小,預測效果更好。
Zelingheret等人測試使用各種機器學習模型來預測玉米價格的波動。他們考慮了線性模型,分類和回歸樹,隨機森林,梯度聚類。這些方法基于均方根誤差、漏一交叉驗證等,證明對玉米價格預測有效。
Chetan等人使用多種機器學習算法進行了比較研究,并結合情緒分析來預測Covid-19大流行期間的股票價格,因為這個時期社交媒體存在大量情緒。在所考慮的模型中,邏輯回歸模型表現最好,而KNN模型的準確性最低。
2.設計和方法
預測模型的架構圖。首先清理從NSE獲得的數據集,以檢查空值,并獲取從YahooFinance收集的市場情緒數據。然后對其進行預處理,以獲得各種其他特征,例如調整后的閉合因子、閉合偏移、開啟偏移、開啟差、閉合差、高差和低差等。輸入正在清理的庫存數據。然后將該數據發送到三個模型中的每一個。在第一個模型——KalmanFilter,數據在每次迭代時都要經過預測和更新步驟。在預測步驟中,根據在前一時間步驟K-1更新的特征計算下一時間步驟K的收盤價。在更新步驟中,與前一時間步驟的預測相對應的特征被更新。在XGBoost中,數據集經歷兩個階段——擬合和預測。在擬合階段,該模型遞歸地構建各種決策樹,將范圍縮小到損失函數值最小的決策樹。在預測階段,使用此決策樹進行下一步的預測。對于Hybrid模型,我們首先運行XGBoost算法來執行特征選擇。這些特征輸入到KalmanFilter,預測股票的收盤價。然后,我們執行輸出分析以比較模型的結果。
聲音 | 中國銀行前行長李禮輝:利用區塊鏈建立可信數據登記與證實平臺,可以容納更多的交易對手:據新浪財經報道,中國銀行前行長、中國互聯網金融協會區塊鏈工作組組長、第十二屆全國人大財經委員李禮輝在“2019中國供應鏈高峰論壇”上發表演講表示,區塊鏈建立了一種“技術背書”的信任機制,通過數學方法解決信任問題,以算法程序表達規則,只要信任共同的算法程序就可以建立互信,能夠在信任未知或信任薄弱的環境中形成可信任的紐帶,節約信用形成所需的時間和成本。利用區塊鏈技術建立可信數據登記與證實平臺,可以容納更多的交易對手。[2019/5/19]
圖1體系結構圖
2.1KalmanFilter
在統計學中,KalmanFiltering是一種算法,使用一系列測量數據,包含隨時間推移觀察到的統計噪聲和不準確性。該算法對未知變量的估計往往比僅基于單一特征的估計更準確。它估計每個時間段變量的聯合概率分布。KalmanFilter是以RudolfE.Kalman名字命名的,他是該理論的主要開發者之一。
Xk=Fk*Xk+BkUk+Wk
Fk是應用于先前狀態Xk-1的狀態轉換模型,
Bk是應用于控制向量Uk的控制輸入模型,
Wk是假定從零均值多元正態分布中提取的過程噪聲。
2.2XGBoost
XGBoost是一種以開源方式實現的高效且流行的梯度增強樹算法。梯度提升是一種監督學習算法。XGBoost試圖通過組合一組更簡單、更弱的模型的估計值來準確預測目標變量。
XGBoost是一種集成學習方法。集成學習提供了一種系統的解決方案,結合了多個學習者的預測能力。結果是一個單一的模型,它來自多個模型的聚合輸出。形成集成的基本學習者,可以來自相同的學習算法或不同的學習算法。廣泛使用的集成學習者是Bagging和Boosting。XGBoost最主要的用途是決策樹,其次是統計模型。
當使用梯度提升進行回歸時,每個回歸樹都將一個數據點映射到它的一個連續葉子上,且弱學習者是回歸樹。XGBoost最小化了一個正則化目標函數,該目標函數結合了凸損失函數和模型復雜性的懲罰項。訓練迭代地進行,添加新樹來預測先前樹的殘差,然后將這些樹與先前樹組合起來,以進行最終的預測。被稱之為梯度提升,是因為它使用梯度下降算法來最小化添加新模型時的損失。
3.數據集及其實現
3.1數據集
該數據集包含來自紐約證券交易所和國家證券交易所的10個腳本的股票價值。股票的名稱及其符號如下表1所示。
表1:顯示了所考慮的數據集
動態 | CryptoKaiju推出可利用區塊鏈溯源的加密主題玩具:據Bitcoin Magazine報道,英國初創公司CryptoKaiju正推出一系列加密主題的收藏玩具,可在區塊鏈上追溯。[2018/11/29]
HDFCBANK數據的樣本如表2所示。它由開盤價、收盤價、最高價、最低價、交易量、調整后收盤價、每股收益、市盈率等列組成。我們既考慮了股票的基本面,也考慮了市場情緒,這有助于我們更好地預測。
表2:來自NSE的HDFC銀行數據集
我們使用皮爾遜相關矩陣發現了每一對特征之間的數據相關性。如圖2所示。數據關聯有助于理解數據集中多個變量和屬性之間的關系。使用相關性,我們可以獲得一些見解,例如一個或多個屬性依賴于另一個屬性,或另一個屬性的原因,以及一個或多個屬性與其他屬性相關聯。
圖2數據集中特征的相關性
對數據集進行預處理以獲得其他特征,例如調整因子、調整閉合位移、開放位移、高差、低差、開放差和關閉差等特征。預處理后的數據集如表3所示。
表3:預處理的HDFC數據集
調整后的收盤價和開盤價有助于將前一天調整后的收盤價和開盤價與第二天調整后的收盤價和開盤價相關聯。開盤價、最高價、最低價和收盤價分別乘以調整因子,使其與調整后的收盤價相對應。
PankajKumar博士的研究結果表明,每股收益是所選公司股票市場價格的可靠預測指標,市盈率對股票市場價格的預測有顯著影響。因此,從整體上看,每股收益是A股市場價格表現的主要反映指標。
3.2KalmanFilter
3.2.1初始化
卡爾曼濾波器類被定義為數據成員F、H、Q、R和P初始化為單位矩陣和X-平均或預測狀態估計。
3.2.2預測
該步驟必須預測系統的均值X和協方差P。當給定卡爾曼對象作為輸入時,函數predict執行預測。
3.2.3更新
該步驟計算給定待更新的特征Z及其標準偏差R系統的均值X和協方差p。函數更新執行X,y的更新,S,K,P。矩陣乘法利用向量的點積。
對于每個時間步長K,執行預測和更新步驟以獲得預測值。該預測數組由必須進行預測的日期相對應的收盤價組成。這些值取決于參數,如打開、高、低、調整關閉、調整關閉位移、開放位移、EPS、PE比率等。在這一步之后,我們必須通過對照地面實況來計算預測中的誤差。對于此計算,我們使用絕對百分比誤差的平均值,其計算公式為:error=*100/]*100)。預測圖是在考慮的整個時期內繪制的。為此,我們使用Python中可用的matplotlib包。
動態 | 康佳集團將利用區塊鏈等技術提高企業協同發展能力:據深圳新聞網報道,康佳集團股份有限公司日前入選國家商務部發布的“全國供應鏈創新與應用試點企業”名單。據相關負責人透露,未來康佳將把供應鏈金融業務將打造成為結合物聯網技術與供應鏈服務、植根于智慧家居場景下電子產品行業內資源高度整合的供應鏈集成服務企業,利用區塊鏈等IT技術,整合各方優質資源,提高企業、產業和區域間的協同發展能力。[2018/10/18]
3.3XGBoost
下面將詳細討論所涉及的算法和XGBOOST算法的實現細節。該實現是在Anaconda框架下使用Python完成的。
3.3.1Bagging
盡管決策樹是最容易解釋的模型之一,但決策樹表現出高度可變的行為。考慮將被隨機分成兩部分的單個訓練數據集。每個部分將訓練一個決策樹以獲得兩個模型。當這兩個模型都符合時,它們將產生不同的結果。由于這種行為,決策樹被認為與高方差有關聯。Bagging或Boosting聚合有助于減少任何學習者的差異。并行創建的幾個決策樹構成了Bagging技術的基礎學習者。用替換后的樣本數據對這些學習者進行訓練。最終的預測輸出是所有學習者的平均輸出。
3.3.2Boosting
在Boosting中,所有的樹都是按順序構建的,這樣每個后續的樹都會減少前一棵樹的錯誤。每棵樹從它的前項中學習并更新錯誤。因此,所有后續的樹將從錯誤的更新版本中學習。偏差很高的基礎學習者是弱學習者,預測能力只比偶然猜測強一點點。每一個弱學習者都為預測提供了重要信息,從而通過組合這些弱學習者來產生一個強學習者。最后一個和最后的強學習者具有較低的偏差和方差。
與隨機森林等Bagging技術形成鮮明對比的是,XGBoost中的Boosting模型利用了分裂次數較少的樹。這樣的小樹是高度可解釋的,因為樹的深度非常小。迭代次數或樹的數量、梯度提升的學習率和樹的深度等參數,可以通過k-fold交叉驗證等驗證技術進行優化選擇。過擬合是由于樹太多造成的。因此,有必要謹慎選擇助推的停止標準。
3.4HybridModel
HybridModel是統計模型,Kalmanfilter和機器學習模型XGBoost的組合。Hybrid模型有助于正確預測股票價值,提高各種數據集的準確性和一致性。當利益變量不能直接測量時,Kalmanfilters可以最優地估計感興趣的變量,間接測量是可用的。對于這種間接測量,可以使用14個參數。通過特征提取,XGBoost算法在14個參數中根據權值取前5個參數。前5個參數因股票而異。將這5個參數輸入Kalmanfilter,對未來股票價值進行預測,并提取輸出。
通過在測試集中輸入no,對以下每個模型進行測試,測試集包含400天的庫存數據,預測必須在幾天后進行。所有的模型都用兩個不同的數據集進行了測試——一個由價格變動組成,另一個由價格變動和市場情緒組成。價格變動包括開盤價、最高價、最低價、收盤價、成交量、股息率、成交量等數據。市場情緒是指投資者對某一特定證券的整體心理。這是普通大眾的感覺,通過證券交易的價格變動表現出來。極高的市盈率表示給定股票的價格很高,隨時可能下跌。在這種情況下,可以說股票超買了。低市盈率表明對公司的業績和未來缺乏信心。每股收益是指公司持有的每股股票的收益。它是衡量公司盈利能力的指標。通常優選較高的EPS。
3.4.1Kalmanfilter
下圖描述了該模型在考慮市場情緒前后的HDFC銀行數據集預測。我們可以看到,該模型在后一種情況下表現得更好。如圖3所示,僅考慮價格變動,我們的準確率僅為88%。但如圖4所示,考慮市場情緒后,我們的準確率為91.75%。準確率大大提高。
圖3不考慮市場情緒的HDFC預測
圖4考慮市場情緒的HDFC預測
該模型還針對18個可用數據集中的其余數據集進行了測試,這些數據集總結在下表4中。
表4不同數據集的Kalmanfilter模型準確性
從上述結果中我們可以看出,該模型對NSE的各種數據集的表現是一致的,并且可以依賴該模型做出更好的預測,但對于NYSE,準確率并不一致且不高。
3.4.2XGBoost
XGBoost模型是為國家證券交易所的HDFC銀行數據集和紐約證券交易所的JPMorgan數據集開發的。這些模型是在有市場情緒和沒有市場情緒的情況下訓練的。不同于KalmanFilters在加入市場情緒后會產生準確率和誤差率的顯著變化,XGBoost中的準確率和誤差率保持不變。因此,在進一步的訓練中考慮了市場情緒。在為數據建立模型后,JPMorgan
和HDFC銀行的測試數據的準確率分別為91%和88%。
圖5考慮市場情緒的HDFC數據集的準確性
圖6考慮市場情緒的JPM數據集的準確性
圖5和圖6分別顯示了測試HDFCBank和JPMorganandChase數據集時獲得的準確性和誤差。
圖7訓練HDFC數據集時增強回歸樹的權重
圖8訓練JPM數據集時增強回歸樹的權重
圖7和圖8顯示了在訓練模型時獲得的增強回歸樹的權重,然后用于進一步預測訓練集。
該模型還針對18個可用數據集中的其余數據集進行了測試,這些數據集總結在下表5中。
表5XGBoost模型在不同數據集上的準確性
3.4.3Hybrid模型
兩個不同公司股票的模型結果,如下所示。
圖9XGBoost為HDFC數據集發現的功能重要性
圖10XGBoost為JPM數據集找到的功能重要性
從上面通過實現XGBoost算法獲得的圖9和圖10中,我們可以找到預測時在增強回歸樹中起最重要作用的特征。我們只考慮上述步驟中的前5個特征,并將這些特征提供給KalmanFilter模型,以進行最終的股票價值預測。
圖11Hybrid模型對HDFC數據集的預測
圖12Hybrid模型對JPM數據集的預測
該模型在不同的數據集上表現一致。圖11和圖12顯示,對于兩個數據集,該模型的準確度優于其他兩個單獨模型所獲得的準確度。
該模型還針對18個可用數據集中的其余數據集進行了測試,這些數據集總結在下表6中。
表6不同數據集的混合模型準確度
4.結論
股票市場預測分析是在20個樣本上進行的,其中10個屬于國家證券交易所,另外10個屬于紐約證券交易所。平均而言,10年期間的股票價值由每個樣本2300行組成。所考慮的時間區間為2006年-2016年和2010年-2020年。XGBoost模型與用于分析的20個樣本是一致。XGBoost模型對NSE數據集的平均準確率為88.66,對NYSE數據集的平均準確率為90.11。盡管KalmanFilter統計模型產生了令人印象深刻的結果,但模型的準確性并不一致。KalmanFilter模型對NSE數據集的平均準確率為89.09,對NYSE數據集的平均準確率為64.96。混合模型似乎可以很準確地預測腳本的未來趨勢,但它不能對所有樣本都這樣做。Hybrid模型對NSE數據集的平均準確率為76.79,對NYSE數據集的平均準確率為70.91。將每個季度的市場情緒添加到所有樣本中,似乎可以提高三個模型的準確性。當數據集由更高價值的股票數據組成時,混合模型似乎優于其他兩個模型。
5.未來
論文中描述的三個模型都給出了良好的準確度和一致的結果。但Hybrid模型在股票價值的未來預測方面是最好的,它預測了市場的高點和低點,并提高了效率。作為項目的未來工作,我們可以考慮一組樣本來進行樣本選擇。然后,我們可以在這些樣本上執行投資組合管理,其中模型返回所需的投資、可接受的風險和手頭的投資金額。
6.參考文獻:
來源:智通財經網 智通財經APP訊,中國儒意(00136)公布,于2022年9月19日,該公司、海昌海洋公園控股有限公司(02255)與歐樺文娛(香港)有限公司立一份業務合作協議.
1900/1/1 0:00:00日前,一位客戶提著一個沉甸甸的袋子走進鄒城農商銀行三里營支行。工作人員見狀立刻迎上去接過袋子,打開一看,里面幾個塑料袋裝著面值不同的硬幣和一些皺巴巴的小額紙幣.
1900/1/1 0:00:00當前的Web3.0概念,是基于區塊鏈技術進行開發的。利用區塊鏈的不可篡改性與公開性,實現數據確權.
1900/1/1 0:00:00如何打開快手店定向品類的錢幣?報白需要什么資質和條件?Billions項目組如何打開快手店的硬幣類別?收藏品如何上架?快手店退市人民幣收藏如何上架?美國國會法案呼吁聯邦政府研究加密貨幣用于非法活.
1900/1/1 0:00:00本節摘自原創書籍《初心部落,找回失落的家園!》第四部分:文明4.0--重返家園 四、貨幣屬于勞動者 1、貨幣演化途中的文明陷阱.
1900/1/1 0:00:00本節摘自原創書籍《初心部落,找回失落的家園!》第二部分:文明2.0--“勇敢者”游戲7、虛擬的加密數字貨幣--比特幣 由于信用貨幣有中心化控制問題,而貴金屬貨幣使用攜帶又實在不方便.
1900/1/1 0:00:00