夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

美林數(shù)據(jù)
ABOUT US
美林數(shù)據(jù)技術股份有限公司(簡稱:美林數(shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務提供商。

數(shù)據(jù)挖掘?qū)崙?zhàn)指南:回歸分析流程詳解與模型預測

2023-12-11 18:00:18
回歸分析作為一種數(shù)據(jù)挖掘方法,主要用于預測數(shù)值型數(shù)據(jù),通過研究自變量和因變量之間的數(shù)量變化關系,可以幫助預測房價、股票的成交額、未來的天氣情況等。屬于有監(jiān)督學習。
回歸分析流程詳解與模型預測
回歸分析流程步驟如下:
第一步接入數(shù)據(jù):
回歸算法要求接入結構化數(shù)據(jù),自變量數(shù)據(jù)類型必須為數(shù)值型或字符型,不支持日期型和文本型。因變量只能為數(shù)值型。若接入自變量和因變量數(shù)據(jù)不滿足回歸分析的數(shù)據(jù)要求,可以通過屬性變化節(jié)點進行數(shù)據(jù)類型轉換或重新接入數(shù)據(jù)。數(shù)據(jù)的接入方式通過平臺內(nèi)置的數(shù)據(jù)輸入節(jié)點,包括:關系數(shù)據(jù)庫輸入、文件輸入、InfluxDB輸入、HIVE輸入、API輸入等。
第二步設置角色:
根據(jù)預測目標,通過設置角色節(jié)點確定回歸分析研究的自變量與因變量,評估自變量對因變量的具體影響。回歸算法必須設置自變量,自變量可以是連續(xù)型(數(shù)值)也可以是離散型(字符),也必須設置因變量,且因變量只能是一個連續(xù)型(數(shù)值)。當然在設置角色節(jié)點之前也可以根據(jù)實際業(yè)務和數(shù)據(jù)情況進行原始數(shù)據(jù)的清洗、集成、轉換、離散、歸約、特征選擇和提取等一系列預處理工作,達到挖掘建模的數(shù)據(jù)標準。可以利用平臺內(nèi)置的數(shù)據(jù)處理、數(shù)據(jù)融合和特征工程等節(jié)點,例如數(shù)據(jù)過濾、屬性過濾、缺失值處理、數(shù)據(jù)標準化等進行數(shù)據(jù)預處理。
第三步數(shù)據(jù)拆分:
通常在解決實際問題時經(jīng)常通過數(shù)據(jù)拆分節(jié)點把數(shù)據(jù)拆分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。通過回歸算法對訓練數(shù)據(jù)集進行建模,尋找X和Y之間的數(shù)學模型,然后通過測試數(shù)據(jù)集來驗證該數(shù)學模型的準確率,如果誤差能夠達控制到一定精度,則認為該模型很好的反映了X和Y的關系,可以用來進行預測和分析。
第四步建立數(shù)據(jù)挖掘模型:
根據(jù)分析方案和處理后的業(yè)務數(shù)據(jù)構建回歸模型,平臺內(nèi)置9種回歸算法可以直接拖拽使用,并配置對應的模型參數(shù),包括:線性回歸、決策樹回歸、隨機森林回歸、梯度提升樹回歸、BP神經(jīng)網(wǎng)絡回歸、SVM回歸、L1/2稀疏迭代回歸、保序回歸和曲線回歸。當我們不清楚當前數(shù)據(jù)更適合哪種回歸算法,或不清楚多個模型中哪個模型效果更好時,我們有兩種處理方案:方案一,通過多分支節(jié)點將自變量和因變量相同的輸入數(shù)據(jù)同時傳遞給多個不同的回歸模型,由平臺推薦出多個模型中的最優(yōu)模型;第二種,通過自動回歸節(jié)點選擇多個回歸算法一次性構建模型,該節(jié)點內(nèi)嵌自動擇參和交叉驗證等功能,幫助我們在多種模型下選擇和推薦出最佳的模型。當然在進行回歸分析之前,我們可以先了解自變量和因變量之間的相關關系,以便判斷后續(xù)采取回歸模型的類型,比如通過圖表分析類節(jié)點繪制圖形或通過統(tǒng)計分析類節(jié)點進行相關性分析等都可以。
第五步數(shù)據(jù)挖掘模型評估:
利用回歸評估節(jié)點檢驗回歸模型的可靠性,在洞察中根據(jù)一些評價的指標(如相對誤差等指標)或者圖表展示,獲得質(zhì)量最佳的回歸模型。   完成上述建模之后執(zhí)行流程,流程執(zhí)行成功后自動跳轉至洞察頁面,在洞察頁面點擊可以查看模型的分析結果,我們通過示例流程來詳細介紹。點擊【決策樹回歸】查看變量重要性:
回歸分析流程詳解與模型預測
從變量重要性圖中可以看出OverallQual對于房價的影響最大。
訓練集評估結果:
回歸分析流程詳解與模型預測
 
測試集評估結果:

回歸分析流程詳解與模型預測
從R方上來看,訓練集為0.93,測試集為0.89;從相對誤差來看,訓練集的平均相對誤差為0.08,測試集的平均相對誤差為0.1,誤差相對較少;說明模型效果較好。
殘差圖:
回歸分析流程詳解與模型預測
從殘差圖中可以看出,誤差在等于0的直線上下隨機波動,因此殘差不存在相關性,說明模型效果較好。
再來看數(shù)據(jù)集的情況,可以看到新增的prediction預測結果列。
回歸分析流程詳解與模型預測
第六步利用模型預測:
訓練好模型之后,通過模型輸出節(jié)點將模型保存至模型庫中,然后就可以利用訓練好的模型進行預測,一般我們建議構建模型訓練和模型預測兩個流程。通過模型讀取和模型利用節(jié)點進行預測流程的構建,并且可以將預測結果保存至數(shù)據(jù)庫或本地excel中,便于我們構建BI可視化看板或其他第三方應用。如下圖:

回歸分析流程詳解與模型預測

服務熱線
400-608-2558
咨詢熱線
15502965860-
美林數(shù)據(jù)
微信掃描二維碼,立即在線咨詢
夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

  • <center id="vcica"><optgroup id="vcica"></optgroup></center>
  • 主站蜘蛛池模板: 亚洲一区二区三区高清| 国产视频一区在线观看一区免费| 欧美久久久久久久| 欧美交受高潮1| 免费在线观看成人av| 欧美xxx成人| 欧美日韩免费视频| 欧美性理论片在线观看片免费| 国产精品高潮呻吟| 国产日韩欧美二区| 一色屋精品视频在线观看网站| 一区二区在线观看视频| 亚洲国产成人av在线| 亚洲国产精品999| 亚洲美洲欧洲综合国产一区| a91a精品视频在线观看| 亚洲一区欧美激情| 久久精品成人一区二区三区| 久久亚洲欧洲| 欧美激情综合在线| 国产精品色在线| 午夜精品一区二区三区在线视| 欧美在线视频免费| 久久天天躁夜夜躁狠狠躁2022| 欧美劲爆第一页| 国产精品免费看久久久香蕉| 狠狠综合久久av一区二区老牛| 亚洲欧洲日本在线| 亚洲一区久久久| 久久久久成人精品免费播放动漫| 欧美国产亚洲视频| 国产麻豆日韩欧美久久| 亚洲成人在线视频播放| 亚洲图中文字幕| 久久久中精品2020中文| 欧美日韩亚洲一区二区| 国产乱码精品一区二区三区五月婷 | 亚洲免费视频成人| 久久久777| 欧美日韩免费看| 激情久久综艺|