數據分析常見問題的解決思路
2023-12-07 19:13:20
次
在數據分析項目中明確問題類型后,即可根據不同的問題初步設計解決思路,確定大致的解決問題框架,公司參與了很多項目,積累了大量的業務知識和業務成果,我們面對的項目有很大可能存在可供參考的先例,借鑒歷史相似案例的模型設計思路可以提升項目交付效率,本文總結了幾個經典具體問題的解決思路。
1、尋找關鍵因素
關鍵因素是通過對大量的歷史數據分析,尋找影響結果的關鍵因素。在尋找關鍵因素時,我們可以使用多種方法去提取影響目標變量的關鍵因素。可以將關鍵因素的尋找問題轉換為回歸問題,在對于目標變量為數值型時,去構建回歸模型,從而在模型中尋找出關鍵的因素和影響程度。又可以使用統計分析方法去尋找關鍵因素,比如主成分分析、因子分析、卡方檢驗、lasso、F檢驗等。
例如某地PM2.5影響因素分析項目中,PM2.5是空氣中直徑小于2.5微米的顆粒物,能夠長時間懸浮在空中,其能夠長時間懸浮在空中,因其粒徑較小,表面積大,易于集聚有毒物質,是霾的成因之一。它隨著呼吸進入到人體肺部,危害人體的呼吸系統和心血管系統,導致咳嗽、心率失常等疾病的發生,對心肺病患危害尤為重要。客戶的目標是哪些因素對產生PM2.5息息相關,根據已有PM2.5的歷史樣本信息判斷PM2.5含量,從而尋找出關鍵因素。使用回歸算法建議PM2.5預測模型,從而得到影響PM2.5的因素為一氧化氮、觀測數據發生的時間點、臭氧等。
2、預測分析
一般對于預測分析問題,根據業務目標和數據類型可以判斷屬于回歸問題還是分類問題,確定問題類型之后,可以將其進行轉換處理。當目標變量為字符型時,判斷屬于分類問題,可以使用分類算法去解決,當目標變量為數值型時,判斷屬于回歸問題,可以使用回歸算法去解決,但有時候可以將分類問題轉換成回歸問題進行處理。
例如在石油壓裂井預測項目中,原來的目標是預測是否對油井壓裂,但是實際模型實施過程中,需要知道油井壓裂后具體的產量,從而根據產品去判斷是否給井上壓。這時就可以將油井是否壓裂預測轉變為油井壓裂之后產油量情況,就需要使用回歸方法進行產油量的預測,得到產油量預測結果,結合現有的業務規則進行結果的區間劃分,從而去挑選出需要壓裂的井信息,為業務人員做參考。
3、評價類問題的定性和定量解法
定性評價和定量評價是什么。簡單來說,定量評價是將評價指標量化,并采用模型和數學統計方法對評價對象做出判斷。定性評價是帶有主觀性的評價做出判斷。
在實際的分析項目中經常會遇到“設備運行狀態評價”等這種評價類的問題,首先去判斷給出的指標類型,從而判斷是使用定性評價還是定量評價,有時候為了更精準的把每一類設備或者用戶進行描述,需要將定性和定量的方法結合起來進行綜合的描繪。
例如在泵站機組運行狀態評價中,利用泵站機組的擺度方數據、振動數據、瓦溫、油溫數據、電機數據等,基于AHP層次分析法綜合評價算法,構建泵組機組運行狀態評價模型,從而實現水泵機組實時運行狀態的綜合評價。
例如設備運行狀態的重過載精準預測,基于設備的基本信息數據、資產信息數據、投入信息數據、運行數據等,利用綜合評價算法完成設備運行狀態智能感知,并將其結果劃分為優、良、劣、差四級。基于評價結果,再結合設備投運年限、設備半年內重過載情況、設備上一年同期運行情況等數據,利用分類算法可以預測出哪些配變下個月的哪一天會發生重過載,為檢修部門提供精準維護配變名單。
4、信號分析
信號是工業領域中多種時變要素的表示方式,它不同于關系型業務數據的特殊性,屬于單一數據類型,次序與間隔包含時間信息,使其難以直接使用現有數據分析工具,并且大量的機器學習、深度學習方法難以直接應用于原生信號數據形式。因此平臺針對信號數據擁有特有的信號接入,信號處理,信號特征提取等算法去對信號數據進行分析。主要的分析思路可根據下方進行構建。