在智能合約領域,"以太坊虛擬機 EVM" 以及其算法和數據結構就是第一性原理。
本文從合約為什么要分類出發,結合每個場景可能面對怎樣的惡意攻擊,最終給出一套達成相對安全的合約分類分析算法。
雖然技術含量較高,但亦可作為雜談讀物,一覽去中心化系統間博弈的黑暗森林。
因為太重要了,可謂是交易所、錢包、區塊鏈瀏覽器、數據分析平臺等等 Dapp 的基石!
一筆交易之所以是 ERC 20 轉賬,是因為他的行為符合 ERC 20 標準,至少得有:
交易的狀態是成功
To 地址為某個符合 ERC 20 標準的合約
調用了 Transfer 函數,其特點是該交易 CallData 的前 4 位為0x a 9059 cbb
執行后,在該 To 地址上發出了transfer的事件
分類有誤則交易行為會誤判
以交易行為為基石,則 To 地址能否被準確分類則對其 CallData 的判斷會有截然不然的結論。對 Dapp 而言,鏈上鏈下的信息溝通高度依賴于交易事件的監聽,而同樣的事件編碼也只有在符合標準的合約中發出,才具有可信度。
分類有誤則交易會誤入黑洞
如果用戶進行一筆 Token 轉移,轉入到某個合約中,如果該合約沒有預設 Token 轉出的函數方法,則資金會雷同于 Burn 一樣被鎖定,無法控制
FTC因隱私和安全問題對推特進行更深入審查:金色財經報道,據知情人士透露,在埃隆·馬斯克收購推特后,美國聯邦貿易委員會(FTC)對該公司的隱私和數據安全做法進行更深入的調查。FTC律師在上個月詢問了兩名推特前高管——前首席隱私官Damien Kieran和首席網絡安全官Lea Kissner。這次調查標志著FTC至少第三次就其隱私和數據安全做法對推特進行審查,審查可能導致數百萬美元的罰款,以及FTC對馬斯克本人施加義務的新命令,這些義務將適用于其所有公司,即使他卸任CEO或離開推特也仍然有效。(金十)[2022/12/21 21:57:32]
且如今大量項目開始增加內置的錢包支持,要為用戶管理錢包也就不可避免的,需要時刻從鏈上實時分類出最新部署的合約,是否能夠吻合資產標準。
鏈上是一個沒有身份沒有法治的地方,你無法制止一筆正常的交易,哪怕他是惡意的。
他可以是冒充外婆的狼,做出多數符合你預期的外婆行為,但目的是進屋搶劫。
聲明標準,但可能實質不符合
常見的分類方式是直接采用 EIP-165 標準,讀取該地址是否支持 ERC 20 等,當然,這是一個高效率的方法,但是畢竟合約是對方控制,所以終究是可以偽造出一份申明。
165 標準的查詢,只是在鏈上有限的操作碼中,用最低成本去防止資金轉入黑洞的方法。
這也是為什么我們之前分析 NFT 的時候,特地提及標準中會有一類SafeTransferFrom的方法,其中Safe就是指代了采用 165 標準判斷出對方聲明自己具備了 NFT 的轉移能力。
全國政協原副主席陳元:深入推進區塊鏈創新發展 積小勝為大勝:金色財經現場報道,2020年8月14日,全球區塊鏈創新發展大會于江西贛州開幕,會上全國政協原副主席、國家開發銀行董事長陳元致辭表示,贛州搶抓區塊鏈技術發展機遇,是一件非常有意義的事情,是前景光明的新方向。目前區塊鏈已經廣泛運用在多個領域,希望贛州和各界持續貫徹區塊鏈發展精神,深入推進區塊鏈創新發展,積小勝為大勝。[2020/8/14]
唯有從合約字節碼出發,做源碼層面的靜態分析,從合約預期的行為出發才有更精準的可能性。
接下來咱們將系統的分析整體方案,注意我們的目的是“精度”和“效率”兩項核心指標。
要知道即使方向是對的,但要抵達大洋的彼岸路途也并不明朗,要做字節碼分析的第一站是獲取代碼
從上鏈后的角度講有getCode,一個 RPC 方法,可以從鏈上指定的地址里獲取到字節碼,單論讀取的話這是非常快捷的,因為從 EVM 的賬號結構中就把 codeHash 放在最頂端的位置。
但是這個方法等于是單獨對某個地址做獲取,想要進一步提升精度和效率呢?
如果是部署合約的交易,如何在其剛執行完甚至他還在內存池中便獲取部署的代碼?
如果該筆交易是合約工廠的模式,則交易的 Calldata 里是否存在源碼呢?
最后的我的方式是,是分類進行一種類似篩子的模式
對于非合約部署的交易,則直接用getCode獲取其中涉及的地址進行分類,
對于最新內存池的交易,篩選出 to 地址為空的交易,其 CallData 則是帶有構造函數的源代碼
重慶市與華為簽署協議 在區塊鏈等領域展開深入合作:4月29日,重慶市政府與華為技術有限公司簽署全面深化戰略合作框架協議。華為將深度參與重慶數字經濟建設,重點支持重慶新一代人工智能創新發展,共同打造重慶市(兩江新區)未來智能汽車科技城,重點建設智能超算中心,共建5G工業領域聯合實驗室,在數據中心、物聯網、區塊鏈、工業互聯網、新型智慧城市、智慧水利、智能終端、5G、智慧園區、機器視覺、人才培養等領域展開全面深入合作。(證券時報)[2020/4/30]
對于合約工廠模式的交易,由于其中可能是合約部署出的合約再循環調用其他合約來執行部署,則遞歸的去分析該筆交易的子交易,記錄每個 type 為CREATE或者為CREATE 2 的 Call。
我做了個 demo 實現的時候,發現還好現在 rpc 的版本比較高,因為整個過程最難的便是執行 3 的時候,如何遞歸找到指定 type 的 call,最底層的方式是通過 opcode 還原上下文,我吃了一驚!
還好現在的 geth 版本里有debug_traceTransaction 方法,他可以幫助解決在通過 opcode 操作碼中梳理每一個 call 的上下文信息,整理出核心的字段。
最終可以對多種部署模式的(直接部署,工廠模式單部署,工廠模式批量部署)的原始字節碼都獲取到。
最最簡單但不安全的方式,是把 code 直接做字符串匹配,以 ERC 20 為例符合標準的函數則有
聲音 | 菲律賓參議員:菲律賓不急于出臺加密法規,建議成立專項小組做深入研究:菲律賓參議員Grace Poe表示,該國議員們并不急于出臺使金融技術和加密貨幣等數字資產合法化的法律措施:“這是一件非常復雜的事情。事實上,立法者真的不應該急著起草一項有關這方面的法律。我們仍然需要學習很多東西,特別是在金融技術和數字資產方面。對我們大多數國人來說,這是陌生的領域,雖然他們中的一些人已經通過在線貸款接觸了這一領域。但在沒有適當的信息和教育的前提下,許多人實際上是受害者。”
參議員Francis Tolentino表示,監管機構應“放慢腳步”,研究“未成熟的”領域。對于具體應對方案,參議員建議成立一個工作小組來研究這一領域。該小組將由以下機構組成:菲律賓央行(BSP)、菲律賓證交會(SEC)、菲律賓存款保險公司、財政部以及卡加延經濟區管理局。Tolentino還建議,如果有涉及海外菲律賓工人的擔憂,勞工和就業部也應包括在該小組中。據證交會專員Luis Amatong稱,委員會將頒布新規則,要求擁有數字產品的公司必須注冊并受到監管審查,特別是如果其具有投資計劃。另外,BSP和SEC已經同意進行定期討論,以便可以提出實際的立法建議。(Rappler)[2019/9/23]
在函數名之后的,則是該函數的函數簽名,之前在分析的時候提及,交易都是依賴匹配 callData 的前 4 位找到目標函數的,拓展閱讀:
所以合約字節碼里必然存儲有這 6 個函數的簽名。
當然,這種方法非常快捷 6 個都查到就完事的,但不安全的因素則是,如果我采用 solidity 合約中,單獨設計一個變量,存儲值為0x 18160 ddd 那么他也會將認為我有了這個函數。
那進一步的準確方法則是做 Opcode 的反編譯!反編譯則是將獲取到的字節碼轉到操作碼的過程,更高級的反編譯則是再轉成偽代碼,更利于人的閱讀,這次我們用不上,反編譯的方法列于文末的附錄中。
聲音 | 中國科學院院士王小云:密碼技術將深入融合5G、區塊鏈、人工智能等數字經濟領域:據中國國際貿易促進委員會四川省委員會官網消息,7月29日,第四屆中國網絡與信息安全大會在成都隆重召開。中國科學院院士王小云在題為《密碼技術與數字經濟高質量發展》的報告中指出,目前我國及世界已經進入到大數據應用和數字經濟高速發展的新時期,但是信息的惡意獲取、篡改、偽造和濫用,使得數字經濟的安全問題日趨嚴重。而密碼技術作為保障數字經濟高質量發展的一個重要技術手段,將深入融合5G、區塊鏈、人工智能、衛星性、物聯網、智慧城市等眾多數字經濟領域,助推智慧社會高速發展。[2019/7/31]
solidity(高級語言)->bytecode(字節碼)->opcode(操作碼)
我們就可以清晰的發現一個特征,函數簽名都會被PUSH 4 這個操作碼所執行,所以進一步的方法則是從全文中提取PUSH 4 后的內容,與函數標準做匹配。
我也簡單做了下性能實驗,不得不說 Go 語言的效率很強大, 1 W 次反編譯只需要 220 ms。
接下來的內容會有一定難度
上文中準確率有所提升但還不夠,因為是全文搜索PUSH 4 的,因為我們仍然可以構建一個變量,是byte 4 的類型,這樣一來也會觸發PUSH 4 的指令。
在我苦惱的時候,想到一些開源項目的實現,ETL 是一個讀取鏈上數據做分析的工具,其中會解析出 ERC 20、 721 的轉移單獨成表,所以必然具備分類合約的能力。
分析下來,可以發現他是基于代碼塊的分類,只處理第一個basic_blocks[ 0 ]里的push 4 指令
那問題來到了,如何準確判斷代碼塊了
代碼塊的概念源于REVERT + JUMPDEST 這 2 個連續的操作碼,這里必然需要連續的 2 個,因為在整個函數選取器的 opcode 區間里,如果函數數量過多,則會出現翻頁的邏輯,那也會出現JUMPDEST 這個指令。
函數選擇器的作用是,讀取該筆交易的 Calldata 的前 4 位字節,并與代碼中預設有的合約函數簽名進行匹配,協助指令跳轉到存儲了該函數方法指定的內存位置
讓我們嘗試一個最小的模擬執行
這部分是兩個函數的選擇器store(uint 256)和retrieve(),可算出簽名是2 e 64 cec 1 , 6057361 d
進行反編譯后,則會得到如下的操作碼串,可以說分兩個部分
第一部分:
在編譯器中在合約中僅函數選擇器部分會去獲取到 callData 的內容,寓意是獲取其 CallData 的函數調用簽名,注釋如下圖。
我們可以通過模擬 EVM 的內存池變化來看看效果
第二部分:
判斷是否與選擇器的值匹配的過程
1、將 retrieve()的 4 字節函數簽名(0x 2 e 64 cec 1)傳入 stack 上,
2、EQ 操作碼從 stack 區彈出 2 個變量,即0x 2 e 64 cec 1 和0x 6057361 d,并檢查它們是否相等
3、PUSH 2 將 2 個字節的數據(這里為0x 003 b,十進制為 59)傳入 stack,stack 區有一個叫做程序計數器的東西,它規定了下一個執行命令在字節碼中的位置。這里我們設置 59 ,因為那是 retrieve()字節碼的起始位置
4、JUMPI 代表"如果...,則跳轉至...",它從 stack 中彈出 2 個值作為輸入,如果條件為真,程序計數器將被更新至 59 。
這就是 EVM 是如何根據合約中的函數調用,來確定它需要執行的函數字節碼的位置的原理。
實際上,這只是一組簡單的“if 語句”,用于合約中的每個函數以及它們的跳轉位置。
整體簡述如下
每個合約地址可以通過 rpc getcode 或者debug_traceTransaction,獲取到部署后的bytecode ,采用 GO 中 VM 和 ASM 庫,反編譯后即獲取到opcode
合約在 EVM 運行原理中,會有以下特征
采用REVERT+JUMPDEST這 2 個連續的 opcode 作為代碼塊的區分
合約必然具備函數選擇器的功能,該功能也必然在第一個代碼塊上
函數選擇器中,其函數方法均采用PUSH 4 作為 opcode ,
該選擇器所包含的 opcode 中,會出現連續的PUSH 1 00; CALLDATALOAD; PUSH 1 e 0; SHR; DUP 1 ,核心功能是加載 callDate 數據并進行位移操作,從合約功能上其他語法不會產生
3. 對應的函數簽名在 eip 中定義,并且有必選和可選的明確說明
走到這里我們就可以說,基本實現高效率,高準確率的合約分析方法了,當然既然已經嚴謹了這么久,不妨再嚴謹一些,我們上文方案里中基于 REVER+JUMPDEST 來做代碼塊的區分,結合其中必然的 CallDate 加載和位移來做唯一性判斷,那是否存在,我可以用 solidity 合約也實現出類似的操作碼序列呢?
我做了下對照實驗,從 solidity 語法層面雖然亦有 msg.sig 等獲取 CallData 的方法,但編譯后其 opcode 的實現方法不同
十四君
個人專欄
閱讀更多
金色早8點
Odaily星球日報
金色財經
Block unicorn
DAOrayaki
曼昆區塊鏈法律
隨著全球金融格局的轉變,去中心化金融 (DeFi) 正在展露頭腳,成為更多傳統機構的替代方案。 在充滿活力的 Cosmos 生態系統中,Hover 正在成為滿足借貸需求的領先協議.
1900/1/1 0:00:00作者:@EatonAshton2,Beosin安全研究員。自2023年2月Ordinals協議推出后,BTC NFT的鑄造與BRC-20代幣的熱潮導致BTC網絡高度活躍.
1900/1/1 0:00:00作者:Web3地圖 EigenLayer 已在主網上線,可能預示著下一次重要的空投。EigenLayer 最近在主網上線,這引發了加密世界的關注.
1900/1/1 0:00:00作者:深鏈DCNews 編譯:深姐 自以太坊名稱服務 (ENS) 于 2017 年推出以來.
1900/1/1 0:00:00作者:金色財經Jason.金色財經 區塊鏈6月18日訊 美國證券交易委員會發起對幣安和Coinbase訴訟后引發了加密社區的極大不滿.
1900/1/1 0:00:00HashKey PRO作為香港目前唯二的兩家合規加密貨幣交易所,在此次的VASP牌照申請開放申請時,第一時間提交了申請表。對于他們來說,接下來要做的就是等待牌照下發,然后開放散戶業務.
1900/1/1 0:00:00