以太幣交易所 以太幣交易所
Ctrl+D 以太幣交易所
ads

如何分析數據:數據分析基礎指南_ELT

Author:

Time:1900/1/1 0:00:00

無論身處公司的哪個部門或以什么角色參與工作,數據分析對公司所有員工都至關重要。對于分析最新活動的投資回報的營銷人員,或是審查使用數據的產品經理,識別、探索趨勢和波動的能力都是幫助決策的一項基本技能。

但Splunk的一項全球調查表明,企業收集的所有數據中,有55%是“暗數據”,即收集但從未使用過的信息。這些未被使用的數據,有些是因為公司不知道它已經被收集,有些則是因為團隊不知道如何進行分析。

同一項調查發現,76%的高管認為對現有員工進行數據科學培訓將有助于解決公司的暗數據問題。如果員工了解如何分析不同類型的數據,公司將能夠更好地利用收集到的信息。

幸運的是,數據分析是一項可以學習的技能。無需成為“數字人”、擁有高級統計學學位或通過數小時的深入培訓來了解如何分析數據。相反,通過本篇指南,我們希望可以幫助您掌握一些基本的數據分析技能——從清理數據、選擇正確的分析工具以及分析模式和趨勢,以便能夠得出準確的結論和可行性的見解。

定義你的目標

在開始分析數據之前,第一步需要設定一些明確的目標。

設定的目標可能會因為所在的團隊、收集的數據以及您在企業中的角色而有所不同,例如:

高盛:探索如何確定比特幣和其他加密資產的“基本面”:本周,高盛經濟研究團隊的Zach Pandl和Isabella Rosenberg發布報告,探索了如何確定加密資產的基本面問題。報告指出,將加密資產等同于黃金是確定其基本面的常見框架,但除此之外,加密貨幣價格也與其底層分布式網絡的價值有關。報告使用區塊鏈地址估算網絡用戶數量,并與貨幣市值進行比較,觀察到:“市值與網絡規模之間存在明顯的相關性”,且相關性超過1。他們基于歷史數據計算出的平均增長曲線接近價值=用戶數的1.4次冪,這給出了一個利用基本面作為市值參考的基準比率。基于該推斷,報告指出BTC的市值遠大于基本面,其基于用戶增量的價值(基本面)與市值相比存在嚴重偏差。過去幾年,比特幣市值較2018年平均水平上漲520%,但網絡僅增長60-100%。報告認為這一偏差意味著要么比特幣現在被高估,要么2018年被低估,要么兼而有之。但報告也指出,除基本面因素外,加密貨幣上漲還有眾多其他因素,包括情緒,以及它作為一種快速致富的新方式的吸引力。但投機交易帶來的網絡活動增加并不能完全反應基本面的改善,因為平臺并未獲得更高的經濟價值,要使加密貨幣網絡具備可持續價值,活動需要由非投機性用例驅動,而目前此類用例十分缺乏。(雅虎財經)[2021/7/21 1:06:15]

財務團隊希望通過分析團隊費用數據來尋找節約成本的機會

營銷團隊正在尋找通過查看潛在客戶活動的變化來提高免費試用轉化率的方法

Life預言機協議:正在探索如何把真實數據存儲在Filecoin網絡:北京時間2021年5月18日15時,Life預言機協議官方發布博客表示正在探索如何把真實數據存儲在Filecoin網絡。Life去中心化數據預言機協議啟動于2017年,旨在實現區塊鏈與現實世界的數據可信交互。Life是一個集成了智能合約、加密算法、通證經濟以及各種API的綜合性去中心化預言機網絡。生態參與者可依靠智能硬件采集設備進行海量數據收集,后端接入Life完成數據的加密存儲、確權和自由流轉。目前Life與可信硬件廠商的合作開發已經進展到了最后的階段,相關可信硬件(數據采集設備)已經研發完成,不久將會上市。Life技術團隊目前正基于Filecoin網絡完善相關的API,以實現可信硬件采集的數據可直接上傳至Filecoin網絡。[2021/5/19 22:20:00]

技術團隊需要了解有多少客戶受到最近一次服務中斷的影響,因此需要查看大量產品使用數據

產品團隊需要在產品路線圖中優先考慮新功能和錯誤修復,以便分析產品最近的支持情況以及了解對客戶最重要的內容

這些目標可以引導收集什么樣的數據、使用什么樣的分析工具以及從數據集中獲得什么樣的見解。

清理數據并刪除不需要的任何內容

Robinhood因未恰當披露如何應對高頻交易機構而遭到調查:金色財經報道,股票與加密貨幣投資平臺Robinhood因未能恰當地披露如何將客戶訂單發送給高頻交易機構而受到民事欺詐調查。根據報告,這項由美國證券交易委員會(SEC)進行的調查已進入“高級階段”,可能導致其遭到1000萬美元的罰款。[2020/9/3]

數據分析結果的好壞取決于開始使用的數據。如果您獲得的數據不完整、不準確或不一致,那么分析結果將可能會不完整或存在誤導性。因此,收集到數據后的下一步,需要花費一定的時間進行清理,確保數據前后一致并且不包含重復信息。

查看小型數據集時,我們可以知道,在電子表格Excel中進行手動清理是最容易的。接下來,舉幾個清理數據的簡單操作:

添加標題行以便于理解電子表格每一列信息的含義

如果數據集中存在同一記錄的多個副本,可以刪除重復的行或列

可以刪除一部分在分析過程中不打算使用的行或列

標準化數據,統一數字、日期或貨幣等數值的表達方式

如果需要處理大量數據集,可以考慮借助一些專用的數據清理工具來加快數據處理的速度。或者借助一些自帶前期數據處理功能的分析工具,例如DataFocus。

直播 | 方魚 > 老牌交易所滿幣如何在合約市場異軍突起:金色財經 · 直播主辦的《 幣圈 “后浪” 仙女直播周》第5期本期3:00準時開始,本期“后浪”仙女 滿幣網 CMO 將在直播間聊聊“老牌交易所滿幣如何在合約市場異軍突起”,感興趣的朋友掃碼移步收聽![2020/6/18]

除此之外,還可以從源頭上,選擇實施數據治理策略,為公司如何收集和管理數據制定明確的指導方針,可以大大減少將來花費在清理數據上的時間。一些數據治理最佳實踐包括:

為何時以及如何收集數據創建標準流程

采用標準化命名約定以減少數據中的不一致

如果已采用自動化數據收集,需要注意任何錯誤消息及不正確的數據

編輯和更新過去收集的數據,使其符合新標準

清理和標準化數據是分析數據的重要準備步驟。數據清理可以幫助用戶不至于基于不正確的數據得出錯誤的結論,并且更有可能獲得有用的見解。

構建數據分析工具包

目前大多數公司依靠Excel或其他電子表格工具來存儲和分析他們的數據,但是有許多不同的平臺可以幫助您分析數據。使用何種類型的數據分析工具主要取決于兩件事:

需要分析的數據類型。定量數據通常是數字的,比較適合在電子表格和可視化工具中呈現。但定性數據是非結構化的,因此很難僅在電子表格中得出有用的見解。您需要一種對定性數據進行分類或結構化的工具,以便能夠有效地對其進行分析。

英格蘭銀行正在探討如何將CBDC引入現有市場:英格蘭銀行(BoE)正在權衡發行以英鎊為單位的央行數字貨幣(CBDC)的利弊。他們剛發布了一份長達57頁的報告,探討了如何將CBDC引入現有市場,既充當價值存儲又用于日常交易。據悉,英國中央銀行逐漸意識到,數字英鎊可能會破壞當前的銀行體系。但是,數字貨幣可以利用最新的金融科技,使消費者更輕松快捷地進行交易。(Cointelegraph)[2020/3/13]

需要分析的數據量。如果每周或每月只分析一個小數據集,也許完全可以手動進行分析。但是,您處理的數據量越大,就越有可能需要投資于自動化數據分析工具。這些平臺將減少人為錯誤的可能性并加快分析過程。

以下是對數據分析工具的分類,按照其最適合的特定類型進行劃分:

Excel或Google表格等電子表格是最傳統的工具,非常適合小批量數據分析或數據檢查,無需深入的技術知識即可開始

需要收集和分析中大型數據集以發現趨勢、問題和決策的公司建議使用商業智能(BI)工具

預測分析工具使用公司的歷史數據和機器學習來預測績效變化將如何影響未來結果

數據建模工具表示信息如何在各種業務系統之間流動和連接。公司使用數據建模工具來查看哪些部門擁有哪些數據以及這些數據集如何交互

數據可視化工具以表格、圖形和其他多樣化的形式表示信息,以便更輕松地發現數據集中的趨勢

當然,現在市面上主流的商業智能BI工具,例如DataFocus,都是將數據建模、數據預處理、數據可視化以及權限控制等功能集成后的工具,基本一個工具就可以滿足公司的日常分析需求。

在數據中尋找模式和趨勢

數據清洗完成,并且已經選定用到的分析工具,接下里,就可以開始數據分析過程了。

首先,在數據集中尋找趨勢。這是最基礎,也是最容易發現的。針對數字數據和結構化數據,選擇借助可視化繪制圖表是相對容易的;但如果是對于電子郵件、社交媒體信息等非結構化數據,可能需要使用不同的數據分析方法。您可以嘗試以下幾種數據分析方法:

文本分析使用機器學習從非結構化文本數據中提取信息,例如電子郵件、社交媒體消息、支持票和產品評論等。主要涉及檢測和解釋這些非結構化數據中的模式。

情感分析使用機器學習和自然語言處理來檢測非結構化文本數據中的積極或消極情緒。公司經常使用情緒分析來衡量社交媒體消息、產品反饋和支持票中的品牌認知度。

主題分析使用自然語言處理將預定義的標簽分配給文本數據。它對于組織和結構化文本數據很有用。例如,您可以使用主題分析對支持反饋進行分類,幫助了解公司或產品的哪些領域給客戶帶來的問題最多。

隊列分析涉及在特定時間范圍內檢查相似客戶組內的數據。公司可能會查看在同一個月內注冊客戶的產品使用變化。

其次,發現模式后,不要通過假設相關性就確定數據之間的因果關系。例如,在看到產品注冊量激增的同時,社交媒體關注者也在大幅增加,可能會假設所有新用戶都來自社交媒體。但是,通過跟蹤鏈接跳轉,發現很少有人通過社交媒體訪問網站,更不用說注冊產品了。因此,一定要花費時間收集足夠的證據來檢驗事件的因果關系。

將當前數據與歷史趨勢進行比較

當數據中的趨勢和問題難以被識別時,可能是因為數據被孤立地查看。沒有添加時間維度的對比,數據就只是目前展現的單一快照。

因此建議將當前數據與歷史數據進行比較,將發現的趨勢置于上下文中起承前啟后的作用。當然,針對不存在歷史數據的情況,例如一個全新的產品使用數據,可以通過行業基準進行比較。您可以尋找不同公司、公司不同部門或不同行業的績效基準。

需要注意的一點:如果您使用的是基準數據,可能很難找到與您規模或階段相似的公司。因此,請記住將這些數據用作參考點,而不是直接將您的表現與這些基準進行比較。

尋找與您的期望背道而馳的數據

當您開始分析數據時,您就已經為想要學習的內容和期望找到的見解設定了明確的目標和假設。但這極有可能會導致確認偏差,因為您更有可能注意到支持您現有假設或假設趨勢的數據。

基于此,需要尋找與期望背道而馳的趨勢或數據點來保持開放的心態,還可以從原始數據中尋找異常值。當在數據中發現異常時,一定要進一步調查它們,得出解釋。

同時,還應該看看數據中有多少異常值會扭曲你的結果。顯著的異常值很容易扭曲數據的平均值,因此可能需要跟蹤中位數取代平均值。或者可以在分析中將這些異常值剔除。

可視化數據并解釋結果

當數據以可視化圖表的方式進行展現,會更加直觀和靈活,也更容易理解和解釋數據,這里我們可以借助DataFocus等BI可視化工具繪制多樣化的圖表。

DataFocus是國內首款搜索式BI工具,由一群熱衷于技術的極客傾情7年打造而成,功能涵蓋了一體式湖倉、ELT、下一代智能搜索式BI系統,數據鏈接器和轉換器,并提供全功能的一站式數據分析服務。

同時支持遠程數據共享和權限配置,通過歷史問答和數據看板,公司團隊的任何人都可以隨時隨地查看數據,大大加快了工作效率。

數據看板制作完成后可以保存成看板模板,為后續的分析減輕負擔,上述的這些看板樣式就是比較基礎的看板樣式,可以通過注冊DataFocus后咨詢客服人員免費獲得。

后續步驟:分析數據后要做什么

分析完成后,如果你不對形成的洞察結果做任何事情,那么收集和分析得出的這些數據是沒有意義的。因此,需要將您的發現用于:

根據當前的績效數據設定切合公司實際的目標和KPI

改善客戶體驗,因為分析可以讓您更好地了解客戶的需求和行為

根據對產品使用情況和支持票證的分析,就產品路線圖中的優先級做出數據驅動的決策

做出更理智、更有依據的業務決策,因為您將清楚地了解什么是有效的,什么是無效的

雖然數據分析可能是一項耗時的任務,但重要的是要記住這不是最終目標。數據分析的意義,是在于幫助用戶能夠做出明智的決策。

往期內容

銷售預測的影響因素有哪些?看完這篇你就懂了

數據小白工作中不得不學的8個常見數據分析方法

還在用Excel做報表?國產新型無代碼BI可視化大屏優勢顯現

一個數值教你判定營銷活動有效性:營銷投資回報率

監測毛利率能給企業盈利帶來什么?一文看懂

Tags:ELT數據鏈數字人ELT幣ELT價格數據鏈幣是什么幣數字人直播軟件多少錢數字人民幣推廣一天能掙多少錢數字人虛擬主播軟件

比特幣交易所
“幣圈大佬”馬斯克_馬斯克

前沿科技,數智經濟文|周文斌 幣圈大跌,讓馬斯克也惹上官非。當地時間6月16日,一位狗狗幣的投資者將馬斯克告上法庭,理由是馬斯克及其公司在明知狗狗狗幣沒有價值的情況下,自2019年以來仍然不斷宣.

1900/1/1 0:00:00
始于創新,崩于濫用:這不是加密貨幣的哀傷 金融業已經哀麻了_區塊鏈

這是專欄《文理兩開花》的第7篇文章 據史料記載,無中生有,以少搏多,空手套狼,四兩撥千——一直都是人類最喜歡做的事情。因為這代表了智慧,代表了創造.

1900/1/1 0:00:00
印鈔廠好多錢,為何員工不趁機抽幾張?看完整個印鈔流程就明白了_數字人

如今我們生活在一個物質資源十分發達的年代,在這樣一個時代人人逐利,大家都拼命的追趕,想要賺取更多的財富,讓自己過上更好的生活.

1900/1/1 0:00:00
0元換芯破先例,極氪的“黑紅”之旅_CEO

出品|子彈財觀 作者|荷默 編輯|蛋總 “極氪換芯,不講武德。”這是近期在蔚來車主群體中流傳頗廣的一句話.

1900/1/1 0:00:00
海昌海洋公園與上海脈馳達成戰略合作協議,圍繞小豬佩奇等IP開展多樣化合作_SIS

據市場消息,8月10日,海昌海洋公園控股有限公司公布與上海脈馳文化發展有限公司達成戰略合作協議.

1900/1/1 0:00:00
臺媒:3天軍演期間,宜蘭縣蘇澳漁民損失約5千萬元新臺幣_VERA

8月4日12時,解放軍重要軍事演訓行動于臺島周邊六大區域正式開始。 8月4日下午,中國人民解放軍東部戰區火箭軍部隊,對臺島東部外海預定海域,實施多區域、多型號常導火力突擊,導彈全部精準命中目標,

1900/1/1 0:00:00
ads