夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

如何巧用大數(shù)據(jù)分析工具提高數(shù)據(jù)質(zhì)量

2022-06-09 17:45:44
大量的數(shù)據(jù)中隱藏著商業(yè)價(jià)值,各行各業(yè)都在做大數(shù)據(jù)分析,挖掘數(shù)據(jù)價(jià)值,但是卻很少有人關(guān)注數(shù)據(jù)質(zhì)量的問題,數(shù)據(jù)分析質(zhì)量高不高,直接影響數(shù)據(jù)分析成果的價(jià)值,保證數(shù)據(jù)質(zhì)量才是數(shù)據(jù)分析的關(guān)鍵。
 數(shù)據(jù)質(zhì)量體現(xiàn)為數(shù)據(jù)的正確性、準(zhǔn)確性、不矛盾性、一致性、完整性和集成性這六大方面。數(shù)據(jù)質(zhì)量在數(shù)據(jù)分析的各個(gè)環(huán)節(jié)都應(yīng)加以控制和保證,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析到最后數(shù)據(jù)分析成果展現(xiàn)及應(yīng)用,其中數(shù)據(jù)處理環(huán)節(jié)是提升數(shù)據(jù)質(zhì)量的重要環(huán)節(jié)。《哈佛商業(yè)評論》的一項(xiàng)研究表明,人們將80%的時(shí)間用于數(shù)據(jù)清理和組織,而數(shù)據(jù)分析時(shí)間僅占20%。有了Tempo,數(shù)據(jù)預(yù)處理將變得簡單高效!下面我們來看看其中一些重要的功能。
 Tempo 支持多種數(shù)據(jù)預(yù)處理方法,包括對行、列、表的30余種數(shù)據(jù)預(yù)處理節(jié)點(diǎn),實(shí)現(xiàn)數(shù)據(jù)清理,集成,變換,歸約等數(shù)據(jù)預(yù)處理,為挖掘分析做好準(zhǔn)備。其中行處理包括:數(shù)據(jù)過濾、排序、隨機(jī)抽樣、數(shù)據(jù)平衡等;列處理包括:重命名、屬性過濾、屬性生成、隨機(jī)數(shù)生成、缺失值處理、字符型/數(shù)值型/日期型屬性變換、設(shè)置角色等;表處理包括:數(shù)據(jù)連接、數(shù)據(jù)追加、數(shù)據(jù)拆分、數(shù)據(jù)分解、分類匯總、表轉(zhuǎn)置等;高級處理包括:數(shù)據(jù)平滑、主成分分析、因子分析、孤立點(diǎn)分析、RFM、季節(jié)解構(gòu)、異常值檢測、奇異值分解、分箱、局部多項(xiàng)式回歸、過程查詢分析器等。
 以某企業(yè)的全國銷售訂單分析為例,在構(gòu)建挖掘分析模型前需要進(jìn)行數(shù)據(jù)預(yù)處理。
 
第一步,數(shù)據(jù)連接
 
將銷售訂單數(shù)據(jù)表與客戶信息數(shù)據(jù)表做數(shù)據(jù)表連接,連接方式為內(nèi)連接,如下圖所示,將兩表以城市、顧客姓名及訂單號相同為連接條件,組合成包含銷售訂單信息及客戶信息的數(shù)據(jù)寬表。

數(shù)據(jù)接入
可視化配置
 
第二步,數(shù)據(jù)過濾
 
通過數(shù)據(jù)過濾節(jié)點(diǎn),將寬表數(shù)據(jù)中符合分析條件的數(shù)據(jù)篩選出來,如下圖所示,篩選出銷售額大于50萬的客戶。
 
數(shù)據(jù)處理
數(shù)據(jù)處理
 
 第三步,屬性生成
通過屬性生成節(jié)點(diǎn),構(gòu)造新的屬性。如下圖所示,構(gòu)建新的屬性產(chǎn)品平均單價(jià)和凈利潤。
數(shù)據(jù)屬性生成
 數(shù)據(jù)屬性生成
第四步,缺失值處理
 
將所有字段進(jìn)行缺失值處理,支持對不同的字段類型采用不同的缺失值處理方式,如下圖所示,如數(shù)值型字段支持用平均值、最大值、最小值、中位數(shù)、眾數(shù)或自定義等方式進(jìn)行缺失值的處理,字符型和日期型數(shù)據(jù)支持最多次數(shù)項(xiàng)、最少次數(shù)項(xiàng)或自定義方式進(jìn)行缺失值處理。

數(shù)據(jù)缺失值處理
?數(shù)據(jù)缺失值處理
 
第五步,異常值檢測
 
異常值檢測利用原始數(shù)據(jù)的分布特征情況,對存在異常和噪聲的數(shù)據(jù)進(jìn)行檢測和識別。如下圖所示,可基于四分位距進(jìn)行異常值檢測也可根據(jù)業(yè)務(wù)情況自定義異常值條件來檢測異常值,支持直接刪除異常值、用均值替換異常值、僅輸出異常值及標(biāo)記異常值并輸出整表等操作。這里我們自定義折扣點(diǎn)大于1或銷售額小于0或者訂單數(shù)量基于四分位距的異常值點(diǎn),不作為分析數(shù)據(jù),將異常值直接刪除,從而進(jìn)行下一步分析。(我們也可以將異常值數(shù)據(jù)輸出單獨(dú)分析,也許能發(fā)現(xiàn)一些業(yè)務(wù)問題)

數(shù)據(jù)異常值檢測
?數(shù)據(jù)異常值檢測
 
第六步,數(shù)值型屬性變換
 
根據(jù)客戶的銷售額情況,請客戶分為小客戶、大客戶、重要客戶三個(gè)等級。如下圖所示,數(shù)值型屬性變換_區(qū)間轉(zhuǎn)字符,我們定義銷售額在50-100萬的客戶為小客戶,100萬-500萬的為大客戶,500萬以上的為重要客戶。
數(shù)值型屬性變換
?數(shù)值型屬性變換
 
第七步,主成分分析
 為了減少變量數(shù)目并避免多重共線性,用主成分分析方法,在保留原有數(shù)據(jù)90%信息的基礎(chǔ)上提取主成分,然后再用主成分參與構(gòu)建模型。

主成分分析方法
?
 主成分分析方法
第八步,設(shè)置角色
 
將主成分分析的計(jì)算結(jié)果作為自變量,構(gòu)建KMeans聚類模型,進(jìn)行模型評估,將模型結(jié)果輸出到指定的關(guān)系庫中,如下圖所示。

數(shù)據(jù)挖掘分析
?數(shù)據(jù)挖掘分析
運(yùn)用Tempo通過使用靈活多樣的數(shù)據(jù)預(yù)處理手段,大大提升了數(shù)據(jù)質(zhì)量,為后續(xù)構(gòu)建挖掘模型提供了更精準(zhǔn)的數(shù)據(jù),同時(shí)使構(gòu)建的挖掘模型更貼合業(yè)務(wù)實(shí)際,為后續(xù)業(yè)務(wù)應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ)!
 

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860-
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢
夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

  • <center id="vcica"><optgroup id="vcica"></optgroup></center>
  • 主站蜘蛛池模板: 亚洲一区二区三区在线播放| 国产精品自拍三区| 欧美日韩爆操| 欧美色视频日本高清在线观看| 欧美二区在线播放| 欧美电影打屁股sp| 欧美日韩高清在线观看| 欧美日韩综合视频| 国产精品日韩欧美一区| 国产日产亚洲精品| 国内伊人久久久久久网站视频| 一区视频在线看| 亚洲人成在线观看一区二区| 久久中文在线| 欧美韩日一区| 国产精品豆花视频| 国产一区日韩欧美| 亚洲在线成人| 欧美在线观看视频在线| 久久综合电影| 欧美日韩国产91| 国产精品日韩在线| 狠狠色综合日日| 欧美视频在线观看免费| 国产精品爽爽ⅴa在线观看| 国产综合色在线| 亚洲黄色在线| 伊人久久大香线蕉综合热线| 国产美女精品免费电影| 在线不卡视频| 好吊日精品视频| 国产手机视频一区二区| 亚洲第一在线综合在线| 狠狠色综合色区| 亚洲精品一区中文| 香蕉久久一区二区不卡无毒影院 | 精品1区2区3区4区| 亚洲六月丁香色婷婷综合久久| 亚洲欧美激情一区| 亚洲欧美日韩区| 久久夜色精品国产|