數據挖掘過程中數據質量常見處理方法
2023-12-06 16:58:00
次
在建模工作之前,先要了解數據的質量情況,常見的數據質量問題包括缺失值、異常值等,針對于不同的問題和場景,Tempo人工智能平臺提供不同的方法進行識別和處理。
1、缺失值問題識別
對于缺失值的識別可以使用到的節點包括屬性生成、描述數據特征、數據過濾和過程查詢分析器節點。
屬性生成節點可以使用isnull函數進行缺失值識別,該函數支持任意類型數據的缺失值識別,最終返回true和false。
描述數據特征節點可通過勾選【缺失個數】選項進行實現。
數據過濾節點可以在【過濾條件】處選擇缺失,并勾選保留滿足以下任意條件的數據。
過程查詢分析器節點的計算列功能同屬性生成節點,數據過濾功能同數據過濾節點。
2、缺失值處理
對于缺失值的處理可以使用到的節點包括數據過濾、過程查詢分析器、缺失值處理和自動數據處理節點。
數據過濾節點適用于將存在缺失值的行全部刪除的情況,在【過濾條件】處選擇非缺失,并勾選保留滿足以下全部條件的數據。
過程查詢分析器節點的數據過濾功能同數據過濾節點。
缺失值處理節點可以對【處理方式】根據使用場景進行選擇。
自動數據處理節點可以選擇缺失值填充規則來進行處理,對于數值型字段可以使用最大值、最小值、平均值、中位數和自定義值的方式進行填充;對于字符型字段可以使用最多次數項、最少次數項和自定義值的方式進行填充。
3、異常值問題識別
對于異常值的識別可以使用到的節點包括數據過濾、屬性生成、過程查詢分析器、異常值檢測、孤立點分析以及箱線圖節點。
數據過濾、屬性生成、過程查詢分析器節點適用于已知正常范圍去輸出異常范圍數據的情況。數據過濾節點可以在【過濾條件】處選擇保留不介于某個區間的數值型或日期型數據,選擇保留不在列表中中的字符型數據,并勾選保留滿足以下全部條件的數據。屬性生成節點可以使用邏輯函數對字符型或者數值型數據進行處理。過程查詢分析器使用數據過濾和計算列功能可以達到數據過濾和屬性生成節點的功能。
異常值檢測節點可以通過【異常值操作】中選擇僅輸出異常值或標記異常值并輸出整表進行實現,檢測方式包括基于四分位距和自定義異常檢測公式。
箱線圖節點可以在【離群點處理方式】中選擇只輸出離群值,并在洞察-數據集中進行異常值的查看。該節點有兩種使用場景,一種是對單變量進行類別分組畫箱線圖求各組離群值,另一種是對多變量畫箱線圖求各變量的離群值。
4、異常值處理
對于異常值處理可以使用異常值檢測、自動數據處理和數據平滑節點。
異常值檢測節點可在異常值操作中選擇直接刪除、用均值替換和用自定義值替換的方式進行處理,檢測方式包括基于四分位距和自定義異常檢測公式。
自動數據處理節點可以選擇異常值處理規則來進行處理,即使用該節點可以實現3sigma準則下的異常值處理方法。
數據平滑節點可以有效地去除數據中的噪音數據,通過選擇多項式樣條插值或者五點三次移動平滑方法進行處理,還可以調節插值粒度。
5、案例
以基于設備運行狀態的重過載精準預測案例為例,首先利用Tempo人工智能平臺的描述數據特征節點,對數據進行描述性統計分析,以便于分析和解決數據質量問題,洞察結果如下圖所示:
從上圖可以看出,行業指標存在缺失值,使用缺失值處理節點對其使用最多次項進行填充,缺失值處理節點配置界面如下:
使用異常值檢測節點對原始數據進行異常值的識別,洞察中輸出異常數據集和各指標分位點,洞察結果如下圖,可以看到輸出的異常數據集為空表,說明原數據集不存在異常值,也無需進行異常值處理。
對于執行完的流程可以在洞察中對結果數據集、模型、圖表等進行查看,還可以將所有內容導出為word報告,方便進一步對其進行修改,最終形成數據質量報告和探索結論報告。
基于設備運行狀態的重過載精準預測案例導出的word報告見下圖: