大量的數(shù)據(jù)中隱藏著商業(yè)價(jià)值,各行各業(yè)都在做大數(shù)據(jù)挖掘分析,尋找數(shù)據(jù)價(jià)值,但是卻很少有人關(guān)注數(shù)據(jù)質(zhì)量的問(wèn)題,數(shù)據(jù)挖掘分析質(zhì)量高不高,直接影響數(shù)據(jù)挖掘分析成果的價(jià)值,保證數(shù)據(jù)質(zhì)量才是數(shù)據(jù)挖掘分析的關(guān)鍵。
數(shù)據(jù)質(zhì)量體現(xiàn)為數(shù)據(jù)的正確性、準(zhǔn)確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質(zhì)量在數(shù)據(jù)挖掘分析的各個(gè)環(huán)節(jié)都應(yīng)用加以控制和保證,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘分析到最后數(shù)據(jù)挖掘分析成果展現(xiàn)及應(yīng)用,其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)。《哈佛商業(yè)評(píng)論》近期的一項(xiàng)研究表明,人們將80%的時(shí)間用于數(shù)據(jù)清理和組織,而數(shù)據(jù)挖掘分析時(shí)間僅占20%。有了Tempo大數(shù)據(jù)分析平臺(tái),數(shù)據(jù)預(yù)處理將變得簡(jiǎn)單高效!下面我們來(lái)看看其中一些重要的功能。
Tempo大數(shù)據(jù)分析平臺(tái)支持多種數(shù)據(jù)預(yù)處理方法,包括對(duì)行、列、表的30余種數(shù)據(jù)預(yù)處理節(jié)點(diǎn),實(shí)現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)預(yù)處理,為挖掘分析做好準(zhǔn)備。其中行處理包括:數(shù)據(jù)過(guò)濾、排序、隨機(jī)抽樣、數(shù)據(jù)平衡等;列處理包括:重命名、屬性過(guò)濾、屬性生成、隨機(jī)數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設(shè)置角色等;表處理包括:數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類(lèi)匯總、表轉(zhuǎn)置等;高級(jí)處理包括:數(shù)據(jù)平滑、主成分分析、因子分析、孤立點(diǎn)分析、RFM、季節(jié)解構(gòu)、異常值檢測(cè)、奇異值分解、分箱、局部多項(xiàng)式回歸等。
以某企業(yè)的全國(guó)銷(xiāo)售訂單分析為例,在構(gòu)建挖掘分析模型前需要進(jìn)行數(shù)據(jù)預(yù)處理。
第一步,數(shù)據(jù)連接
將銷(xiāo)售訂單數(shù)據(jù)表與客戶信息數(shù)據(jù)表做數(shù)據(jù)表連接,連接方式為內(nèi)連接,如下圖所示,將兩表以城市、顧客姓名及訂單號(hào)相同為連接條件,組合成包含銷(xiāo)售訂單信息及客戶信息的數(shù)據(jù)寬表。
第二步,數(shù)據(jù)過(guò)濾
通過(guò)數(shù)據(jù)過(guò)濾節(jié)點(diǎn),將寬表數(shù)據(jù)中符合分析條件的數(shù)據(jù)篩選出來(lái),如下圖所示,篩選出銷(xiāo)售額大于50萬(wàn)的客戶。
第三步,屬性生成
通過(guò)屬性生成節(jié)點(diǎn),構(gòu)造新的屬性。如下圖所示,構(gòu)建新的屬性產(chǎn)品評(píng)價(jià)單價(jià)和凈利潤(rùn)。
第四步,缺失值處理
將所有字段進(jìn)行缺失值處理,支持對(duì)不同的字段類(lèi)型采用不同的缺失值處理方式,如下圖所示,如數(shù)值型字段支持用平均值、最大值、最小值、中位數(shù)、眾數(shù)或自定義等方式進(jìn)行缺失值的處理,字符型和日期型數(shù)據(jù)支持最多次數(shù)項(xiàng)、最少次數(shù)項(xiàng)或自定義方式進(jìn)行缺失值處理。
第五步,異常值檢測(cè)
異常值檢測(cè)利用原始數(shù)據(jù)的分布的特征情況,對(duì)存在異常和噪聲的數(shù)據(jù)進(jìn)行檢測(cè)和識(shí)別。如下圖所示,可基于四分位距進(jìn)行異常值檢測(cè)也可根據(jù)業(yè)務(wù)情況自定義異常值條件來(lái)檢測(cè)異常值,支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標(biāo)記異常值并輸出整表等操作。這里我們自定義折扣點(diǎn)大于1或銷(xiāo)售額小于0或者訂單數(shù)量基于四分位距的異常值點(diǎn),不作為分析數(shù)據(jù),將異常值直接刪除,從而進(jìn)行下一步分析。(我們也可以將異常值數(shù)據(jù)輸出單獨(dú)分析,也許能發(fā)現(xiàn)一些業(yè)務(wù)問(wèn)題)
第六步,數(shù)值型屬性變換
根據(jù)客戶的銷(xiāo)售額情況,請(qǐng)客戶分為小客戶、大客戶、重要客戶三個(gè)等級(jí)。如下圖所示,數(shù)值型屬性變換_區(qū)間轉(zhuǎn)字符,我們定義銷(xiāo)售額在50-100萬(wàn)的客戶為小客戶,100萬(wàn)-500萬(wàn)的為大客戶,500萬(wàn)以上的為重要客戶。
第七步,主成分分析
為了減少變量數(shù)目并避免多重共線性,用主成分分析方法,在保留原有數(shù)據(jù)90%的信息的基礎(chǔ)上提取主成分,然后再用主成分參與構(gòu)建模型。
第八步,設(shè)置角色
將主成分分析的計(jì)算結(jié)果作為自變量,構(gòu)建KMeans聚類(lèi)模型,進(jìn)行模型評(píng)估,將模型結(jié)果輸出到指定的關(guān)系庫(kù)中,如下圖所示。
運(yùn)用Tempo大數(shù)據(jù)分析平臺(tái)通過(guò)使用靈活多樣的數(shù)據(jù)預(yù)處理手段,大大提升了數(shù)據(jù)質(zhì)量,為后續(xù)構(gòu)建挖掘模型提供了更精準(zhǔn)的數(shù)據(jù),同時(shí)使構(gòu)建的數(shù)據(jù)挖掘模型更貼合業(yè)務(wù)實(shí)際,為后續(xù)業(yè)務(wù)應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ)!