
1、歸納問題類型
項目分析方案設計的關鍵前提是明確業務問題,經過業務需求的了解和數據探索的環節,我們對于業務知識和數據已經建立了較為清晰的認知,分析方案設計需要在業務和數據認知基礎上結合以往的案例分析經驗,仔細分析項目的業務問題類型,確定解決問題的框架。如果問題歸納出現偏差,將會導致后續的建設方案走向誤區,從而導致模型效果不理想,達不到業務要求。對于缺少項目經驗的數據分析師,可以參考《數據分析類項目交付方法論》和《數據分析類項目最佳實踐》中的經典案例進行學習(本階段參考:《數據分析類項目交付方法論》;《數據分析類項目最佳實踐》,我們也在此羅列了目前常見的基本業務問題類型,包括關鍵因子、分類問題、回歸問題、聚類問題、關聯規則問題、時間序列問題、綜合評價問題、信號分析問題 最優化問題,將結合具體情景對各個問題類型進行說明。
2、初步解決思路
明確問題類型后,即可根據不同的問題初步設計解決思路,確定大致的解決問題框架,公司參與了很多項目,積累了大量的業務知識和業務成果,我們面對的項目有很大可能存在可供參考的先例,借鑒歷史相似案例的模型設計思路可以提升項目交付效率,本文總結了幾個經典具體問題的解決思路。
3、完整方案設計
在明確問題類型,有了初步的解決思路之后,接下來正式進入項目方案設計的環節,文章先總結了在完整方案設計過程中包含的每個階段,可以參考《數據挖掘項目成功的黃金準則》和《數據挖掘方法論介紹》中了解具體的步驟內容和注意事項(本階段參考:《數據挖掘項目成功的黃金準則》;《數據挖掘方法論介紹》)。
數據分析項目設計時需要遵循一定的標準流程,這樣不僅可以保證數據挖掘每一個階段的工作內容有章可循,而且還可以保證最終的挖掘成果更加準確,更加有說服力。一般情況下,數據挖掘分析分為以下幾個步驟:
業務理解,確定業務目標和數據挖掘目標、明確分析需求;
數據理解,收集原始數據、描述數據、探索數據、檢驗數據質量;
數據準備,選擇數據、清洗數據、構造數據、整合數據、格式化數據;
建立模型,選擇建模技術、參數調優、生成測試計劃、構建模型;
評估模型,對模型進行較為全面的評價,評價結果、重審過程;
結果部署,分析結果落地形式。
整個數據分析項目都要圍繞這幾個步驟來實施。有時兩個步驟可以同時交替進行,例如,業務理解和數據理解有時可以同時進行;有時幾個步驟需要迭代進行,例如,數據準備、建立模型和評估模型這三個步驟經常需要循環迭代多次,才能得到理想的模型。但是需要強調的是:六個步驟缺一不可!