機器學習平臺建模過程中多變量數據分析應該怎么做?
2022-09-23 10:06:00
次
變量分析目的是為了發現變量之間的關系。按照預先設定的重要程度來發掘變量之間的關聯,在數據分析過程中,經常會遇到變量關系的定性及定量分析。
這時,需要數據分析師們通過圖表或數值計算等方式來探索數據變量之間是否存在某種關聯關系,可以在離散變量和連續變量的任意組合上面使用雙變量分析方法。
離散型變量和連續型變量有什么區別?
?離散變量是指其數值只能??然數或整數單位計算的則為離散變量.例如,企業個數,職??數,設備臺數等,只能按計量單位數計數,這種變量的數值?般?計數?法取得.
?反之,在?定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作?限分割,即可取?限個數值.例如,?產零件的規格尺?,?體測量的??,體重,胸圍等為連續變量,其數值只能?測量或計量的?法取得.如果變量可以在某個區間內取任?實數,即變量的取值可以是連續的,這隨機變量就稱為連續型隨機變量。
多變量數據分析方法
雙變量分析法組合可以是:離散型和離散型、離散型和連續型、連續型和連續型,針對不同的組合可以使用不同的分析方法。接下來為大家介紹如何用Tempo機器學習平臺完成多變量分析:
1、連續型和連續型:
當兩個變量都是連續型的時候,可以觀察他們的散點圖(scatter)分布情況,這是一種很實用的方法來發現變量間的關系,根據散點圖的形狀能夠顯示(indicates)出變量是線性(linear)關系還是非線性(non-linear)的關系。
首先我們選取全國銷售訂單數據,構建銷售額與利潤散點圖,由此得出銷售額與訂單數量為非線性。
由于散點圖只能直觀的展示出變量之間的關系,但并不說明化關系的強弱,這里還需相關系數(Correlation)進一步量化變量關系。相關系數是一個大于-1小于1的值,包括pearson、spearman等。
同樣,我們選取全國銷售訂單數據,構建銷售額、訂單數量、折扣點、利潤、單價與運輸成本的相關系數,由此得出銷售額與單價相關程度最高。
相關系數的絕對值越大,說明兩個變量的相關程度越高。如果相關系數為正值,表示兩個變量呈正相關特性,若為負值,則表示變量為負相關。
2、離散型與離散型
為了發現離散型變量之間的關系,我們可以使用以下方法:
?分類匯總:按照某種分類變量和需要分析的數據進行分類計算,對原始數據分類,做出表格形式,便于直觀地觀察數據的大致分布情況。
同樣的我們選取全國銷售訂單數據,對省份和訂單數量(平均值)進行分類匯總,便于直觀地觀察各省份訂單數量的大致分布情況。
?堆疊條線圖:將每個柱子進行分割以顯示相同類型下各個數據的大小情況。
它可以形象地展示一個大分類包含的每個小分類的數據,以及各個小分類的占比,顯示的是單個項目與整體之間的關系。
同樣,我們選取全國銷售訂單數據,使用條線圖來表示不同銷售市場下的利潤和訂單數量情況(勾選堆疊),能直觀反映出利潤與訂單數量占比情況。
3、離散型和連續型:當處理離散型和連續型變量的時候,可以為每一個類別變量繪制箱線圖,也可以通過單因素方差分析等方法來描述變量間的關系。
?箱線圖:展示原始數據分布的特征,還可以進行多組數據分布特征的比較。
同樣的我們選取全國銷售訂單數據,使用箱線圖來表示不同銷售市場下的銷售額,能直觀展示銷售額數據特征。
?單因素方差分析:解決一個因素對另外一個因素是否存在顯著性影響提出的,因子為影響因素,因變量為分析因素。
同樣的我們選取全國銷售訂單數據,使用方差分析(單因素)來計算不同產品類別對銷售額的影響,結果為P<0.05,說明產品類別的取值對銷售額影響顯著。
運用Tempo機器學習平臺實現多變量數據分析,通過圖表或數值計算等方式探索數據變量之間存在的某種關聯關系。
如果大家在實際業務中想要探究變量之間的關系,歡迎申請試用Tempo機器學習平臺!