工業大數據分析技術在實踐應用中的思路與方法(上篇)
2020-11-09 14:14:36
次
導讀:工業大數據即工業數據的總和,其來源主要包括企業信息化數據、工業物聯網數據、“跨界”數據等,它是工業互聯網的核心,是智能制造的關鍵。工業大數據分析作為工業大數據的核心技術之一,是工業智能化發展的重要基礎和關鍵支撐。
本文將結合作者在工業領域多年的實踐應用經驗,力圖對工業大數據分析技術的應用思路、方法和流程進行總結,旨在為企業開展大數據分析工作提供技術和業務上的借鑒。
在本文中我們將一起研討和思考:
- 工業大數據分析的特殊性;
- 工業大數據分析的困境及難點;
- 工業大數據分析的基本框架;
- 工業大數據分析該如何開展?

01 工業大數據分析與傳統數據分析的差異性及特殊性
工業大數據分析是利用統計學分析技術、機器學習技術、信號處理技術等技術手段,結合業務知識對工業過程產生的數據進行處理、計算、分析并提取其中有價值的信息和規律的過程。從過程與目標角度看,工業大數據分析和傳統統計分析、商業智能分析涉及的學科和技術大同小異。但從分析理念和特點上看,工業大數據分析又有其自身的特殊性。
首先,進入大數據時代,數據的變化往往引發工作方法和價值體現的改變。對于數據的變化,非工業領域往往強調數量上的變化;但在工業領域,則更注重數據完整性和質量的提升。工業現場往往對分析結果的精度、可靠度要求高,加之工業對象和過程本身也很復雜。因此,工業大數據分析方法的重點是通過數據條件的改善,結合相關分析技術的有效應用,得到質量高的分析結果。
此外,工業場景的邊界往往都有專業領域的機理來約束。對于復雜的工業過程數據分析,往往不能僅局限于相關關系分析,需要強調工業領域業務知識和數據分析過程的深度融合;強調復雜業務問題簡化和分析結果的可解釋性,而不是簡單地追求數據量大與分析算法的復雜和先進性。一言以蔽之,工業大數據分析需要在工業具體業務要求的邊界下,用數據思維和數理邏輯去嚴格地定義問題,采用“數據驅動+機理模型”的雙輪驅動方式去精確表征、有效解決實際問題。
02 工業大數據分析的困境及難點
工業大數據分析的困境及難點主要體現在對工業對象(過程)理解和認知要求的高標準和一致性、工業大數據建模的復雜性和反復性、分析結果的可靠性和確定性三個方面。
第一. 工業大數據分析對數據分析人員的業務背景認知能力要求較高
數據分析師不能按照以往思路,對業務相關對象、數據情況初步摸底認知后就匆匆開展具體分析建模工作。而針對工業對象和過程的復雜系統,不同的場景下業務問題之間的關系往往會發生改變,加之數據缺失嚴重、噪聲大、業務含義代表性強等因素,理論體系下的數據分析相關理念與技術很難直接適用于此類場景的變化和復雜度要求。如若數據分析團隊對研究工業對象認識不夠深入或“片面性”理解,往往會導致分析出來的結果是只是證明了領域內業務機理/常識的正確性或某一公認理念,就會經常出現項目研究投入高、產出低的問題。
因此,工業大數據分析需堅持的原則是分析和應用都要結合具體的流程,分析工作開展前要保證數據條件符合業務場景要求。
第二. 工業大數據建模算法的復雜性和過程的反復性使得整個實現過程較為“繁瑣和曲折”
在開展工業建模時,雖然基礎算法原理和應用方式的變化不大,但運用此類算法的過程卻極大程度地“曲折”,往往需要結合業務知識和數據情況將算法嵌入到實際的工業應用場景與邏輯中去,需要模型基于初次的分析結果不斷地修正、迭代和完善,以此來提升模型的魯棒性與準確性。此外,工業過程數據形式的復雜性、數據質量參差不齊等也使得工業大數據分析建模與有效應用的困難度加大。
第三. 工業產業模式及應用場景對工業大數據分析結果的可靠性和決策可指導性要求高,導致工業大數據分析應用的成熟化落地變得困難。
一般情況下,大多數企業的工業現場設備控制、工藝調整、質量管控等都已處在相對優良的階段,而通過工業數據分析得到的概率性結論和現場實際有一定的偏差。此偏差可能是生產環節本身引起的,也有可能是數據采集環節的數據本身失真引起的,單從數據分析結果角度往往很難發現和解釋具體差異引起的原因,導致大家對于分析結果的可靠性存疑。另一方面,企業業務人員對所從事的工業過程/經營管理等業務的認識原本就相對深刻,這就要求工業大數據分析能剖析、給出更深層次的業務實情信息或優化策略,只有分析得到的知識具有更高精度和可靠性時,從業務決策指導層面才具有實用價值,這也是工業大數據分析價值落地應用面臨的挑戰之一。
因此,工業領域的數據分析重點強調數據分析技術和領域知識融合來獲取有價值的知識。當模型涉及到的因素很多、形成真正的復雜多維度問題且機理不清晰時,且往往沒足夠的數據來建立和驗證模型,這時就需要充分利用專業領域知識進行“降維”,力求從有限的數據中分析出足夠可靠的結果。
我們在實踐中認識到工業大數據分析的瓶頸難點,往往不是計算機存儲和處理數據的能力,而是蘊含工業機理的數據關聯關系的復雜性。這種復雜性使得傳統的數據分析方法難以奏效,無法從數據中獲得質量更高、價值更大的知識,如果沒有合適的思想和技術手段,面對工業大數據價值的藍海時,就會無從下手。