夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

美林數據
ABOUT US
美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商。

數據挖掘方法論—企業數據挖掘成功之道(方法篇)

2019-05-24 16:34:29
在過去幾年,隨著信息化技術的高速發展,數據逐漸變為企業最有價值的戰略資產,人們迫切希望能夠從數據中發掘價值和探索規律,以便為企業在研發、生產、營銷、管理、運維等各個環節遇到的問題提供新的解決思路,用數字化戰略為企業賦能。

為什么需要一個數據挖掘方法論?
要實現對數據價值的深度發掘,數據挖掘技術無疑是最有效的手段之一。對于企業來說,要開展數據挖掘項目,就必須要了解數據挖掘項目是區別于傳統的軟件開發類項目,其呈現出復雜性高、周期長、不確定高等特點,特別是不確定性高,是其最典型的特點,主要體現在數據的不確定性、結果的不確定性和方案的不確性等方面,這樣就導致整個數據挖掘項目管控難度高,因此一個行之有效的數據挖掘方法論(明確的流程模型)是非常有必要的。
數據挖掘方法論

行業數據挖掘方法論都有哪些?
長期以來,隨著數據挖掘市場的發展和成熟,由不同的組織機構提出過很多的方法論,如CRISP-DM、SEMMA、5A等,其中CRISP-DM、SEMMA是應用最為廣泛。CRISP-DM (cross-industry standard process for data mining),即為“跨行業數據挖掘過程標準"。此KDD過程模型于1999年歐盟機構聯合起草. 通過近幾年的發展,CRISP-DM 模型在各種KDD過程模型中占據領先位置,采用量達到近60%。排在其后的是由SAS公司提出的SEMMA。SEMMA更偏重于數據挖掘的建模過程,與SAS的EM工具進行整合,其模型管理部署部分則體現在另外的工具套件中。CRISP-DM是從一個數據挖掘項目執行的角度談方法論,CRISP- DM的考慮的范圍比SEMMA 要大。CRISP-DM強調,數據挖掘不單是數據的組織或者呈現,也不僅是數據分析和統計建模,而是一個從理解業務需求、尋求解決方案到接受實踐檢驗的完整過程。因此,從一個項目的管理實施完整流程來說,CRISP-DM更適用一些,本文后續主要以CRISP-DM為主進行詳細介紹。


行業數據挖掘

CRISP- DM方法論
CRISP-DM方法論將一個數據挖掘項目的生命周期分為六個階段,其中包括業務理解(business understanding),數據理解 (data understanding),數據準備(data preparation),建立模型(modeling),評估模型(evaluation)和結果部署(deployment)。這六個階段的順序是不固定的,我們經常需要前后調整這些階段。這依賴每個階段或是階段中特定任務的產出物是否是下一個階段必須的輸入。圖中箭頭指出了最重要的和依賴度高的階段關系。
CRISP- DM方法論
階段一:業務理解(business understanding)
業務理解,指從業務角度來理解項目目標和要求,接著把這些理解知識轉換成數據挖掘問題的定義和實現目標的最初規劃。
數據挖掘-業務理解

在這個階段,主要通過業務需求調研,明確要解決的業務問題,如果業務問題一開始不明確,就需要從整個企業的內部不同業務板塊(如營銷、生產、管理等)或從企業與上下游產業鏈之間的關系來切入與業務專家進行研討,形成分析主題庫,同時需要對每個業務問題的產生背景、業務流程、業務價值、傳統解決方法及效果、相關數據資源、涉及哪些部門及領導等內容,調研一定要充分,基于這些調研內容可以對于主題庫中的分析主題從可行性、價值性、難易度等多方面進行衡量,為分析主題開展的優先級提供指導。業務目標確定后,一方面需要從業務角度確定成功的標準,這個有利于最后判定結果的有效性和價值性,另一方面也需要確定數據挖掘目標、初步方案和成功標準,在成功標準度量指標這里需要結合當前傳統方式的效果和歷史建模經驗綜合來確定,同時也必須要保障該標準具備可驗證性,這也是最后保障項目驗收成功的重要依據,很多項目最終失敗,都是忽略了這個環節,一定要慎重。

階段二:數據理解 (data understanding)
數據理解,指從數據收集開始,然后接著是一系列活動,這些活動的目的是:熟悉數據,甄別數據質量問題、發現對數據的真知灼見、或者探索出令人感興趣的數據子集并形成對隱藏信息的假設。
數據挖掘-數據理解

在這個階段,主要的工作就是基于業務理解階段梳理的數據需求,收集原始數據,同時對于數據的數據量(維度和樣本大小)、數據的質量(缺失值、異常值、不一致性等),數據的分布規律(各種統計指標)等進行初步探索,初步判斷該數據是否具備初步分析的可行性,形成一份數據質量分析報告。同時對于預測性問題,如分類、回歸等問題,需要明確目標變量,很多目標變量可以不是通過單一變量直接獲取,需要通過多個變量結合業務進行確定,如確定一個用戶是否是欠費用戶,則需要從欠費次數和欠費金額兩個維度確定欠費用戶的判定規則,規則定義的嚴苛程度,需要與建模的正負樣本分布、業務的認可度、數據的分布等多個方面綜合制定。

階段三:數據準備(data preparation)
數據準備,指從最初原始數據構建最終建模數據的全部活動。數據準備很可能被執行多次并且不以任何既定的秩序進行。包括為建模工作準備數據的選擇、轉換、清洗、構造、整合及格式化等多種數據預處理工作。
數據挖掘-數據準備

在這個階段,最終目標是要基于業務理解階段的建模方案構建建模所需的寬表,即將多個表信息進行整合,包括表之間的聯接,明細數據的匯總加工等,同時在過程中需要對于數據的質量問題(包括缺失值、異常值等)進行處理;對數據的字段進行變換,如規范化和標準化,或都將數據進行映射變換,如Log變化,數值型按區間轉換成名詞型字段等多種加工策略;在特征工程這里,一方面需要從業務角度加工新的計算指標,另一方面需要進行自動特征構建、特征選擇、特征降維等方面的工作,來提升模型的性能。數據準備階段的工作,經常會隨著模型性能的評估結果進行反復調整和優化,以便為建模提供更高質量的數據。

階段四:建立模型(modeling)
建立模型,指選擇和使用各種建模技術,并對其參數進行調優。一般地,相同數據挖掘問題類型會有幾種技術手段。某些技術對于數據形式有特殊規定,這通常需要重新返回到數據準備階段。
數據挖掘建模

在這個階段,主要基于業務理解階段確定的建模方案,選擇相應的建模算法,開始建模和評估模型。這個階段在建模算法的選擇方面,需要注意兩個問題,一是算法和參數的選擇上,可以按照經常選擇常用的方法和參數來調試,也可以使用自動學習類的方法,如自動擇參/分類/回歸/聚類/時序等方面,來自動選擇算法和參數,降低在這個階段的嘗試成本,提升效率。二是需要結合建模的精度,對于建模方案進行優化,最為典型的就是開始定位為某一類數據挖掘問題,可以轉換成另一類數據挖掘問題的方式來解決,如回歸問題,可以轉換成分類問題來解決,當然前提是對于數值預測的單值準確性要求不高。時序問題,可以轉換成回歸問題來解決等方面,這個更依賴于個人的建模經驗。

階段五:評估模型(evaluation)
評估模型,指在此階段,需要從技術層面判斷模型效果以及從業務層面判斷模型在實際商業環境當中的實用性。
數據挖掘模型評估

在這個階段,已經從建立模型階段獲取了從理論上性能表現更好的模型,需要結合業務階段確定的數據挖掘模型的成功標準,回歸到實際業務中進行模型性能的實測,可以采用A/B測試的方案進行評測。這個階段的工作,是需要有相關的業務部讓或營銷部來來配合的,所以需要提前在項目計劃中確定需要協調的資源和評測的方案,評測的對比方案一定要得到客戶方認可才行,以便降低反復評測的風險。

階段六:結果部署(deployment)
結果部署,指將其發現的結果以及過程組織成為可讀文本形式或將模型進行工程化封裝滿足業務系統使用需求。
數據挖掘結果部署

在這個階段,已經得到的理論和實際驗證后的模型,需要將模型的成果書面化,從六個階段進行總結,形成數據分析報告,在這個過程中,也是對整個分析流程的再度審查,保障模型成果的真實性和準確性。如果涉及到工程化應用,還需要將模型發布成不同方式(調度、同步/異步服務API、實時服務等),供其它業務系統進行整合,形成最終的決策應用系統,指導實際業務的開展。最后,對于模型上線后的性能需要定期進行監測,以便后期對于模型性能進行持續性的優化工作。

以上,是我結合個人實際項目經驗對于數據挖掘項目實施方法論的理解與總結,希望能給企業決策者、數據分析師和項目管理人員有一定的啟發和收獲,最后,我想強調的一點是,數據挖掘項目的特點決定了它是有失敗的風險的,方法論可以降低的項目失敗的風險,但我們必須要正確看待失敗,因為項目的探索過程中沉淀的知識和成果是對于企業來說是也非常寶貴的,因此從企業的管理層來說,必須要有足夠的耐心和信心對于這類項目以足夠支持。
 

服務熱線
400-608-2558
咨詢熱線
15502965860-
美林數據
微信掃描二維碼,立即在線咨詢
夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

  • <center id="vcica"><optgroup id="vcica"></optgroup></center>
  • 主站蜘蛛池模板: 久久综合999| 亚洲欧美美女| 日韩视频中文字幕| 一区二区视频免费在线观看| 国产在线不卡视频| 国内成人精品2018免费看| 国模叶桐国产精品一区| 国产午夜一区二区三区| 韩国女主播一区| 亚洲黄色成人网| 亚洲精品日韩综合观看成人91| 亚洲精品国产欧美| 亚洲视频在线观看视频| 国产精品99久久久久久久久| 亚洲一区久久久| 欧美一区二区视频在线观看| 久久久久久久网| 欧美96在线丨欧| 欧美三级日本三级少妇99| 欧美视频四区| 国产三级精品三级| 亚洲大片免费看| 在线中文字幕日韩| 欧美在线视频播放| 你懂的视频欧美| 欧美性理论片在线观看片免费| 国产免费成人在线视频| 在线欧美福利| 一区二区三区久久网| 久久国产88| 欧美激情第五页| 国产精品一二| 亚洲黄色视屏| 亚洲欧美日韩国产综合在线| 久久午夜羞羞影院免费观看| 欧美日本韩国| 国产综合久久久久影院| 亚洲三级免费| 午夜精品久久久久久久99水蜜桃| 另类国产ts人妖高潮视频| 欧美无砖砖区免费|