數據分析應用中數據采集的時效性與性能如何兼顧?
2022-08-10 15:32:53
次
李總:小王,這個企業生產看板為什么只統計到昨天的數據,今天的產量如何呢?
小王:李總,我們目前的數據同步是凌晨做數據同步,才能去獲取生產系統的數據,今天產量數據,需要明天才能查看呢。
李總:為什么不能實時同步刷新呢?這樣我們才能及時了解不同車間的生產進度,及時進行計劃安排和調整啊。
小王:……
數據工程師可能都知道,在數據分析應用過程中,海量數據的分析計算及分析報告生成需要強大的算力支持,而數據ETL的時候也需要數小時才能完成,故而很多分析場景中,為了保證系統的穩定運行,會犧牲一定的時效性。
但是在實際業務中,越好的時效性保證,越能盡快地發現問題并及時應對。比如制造企業生產設備狀態監測、健康預警,零售行業的門店交易情況等,面對這種時效性要求比較高的業務場景,在智能決策應用中,如何保障數據的實時同步,且不影響當前業務系統的運行呢?
這時候就需要變更數據捕獲(Change Data Capture,縮寫CDC)技術來支持。關于什么是CDC我們在前面的文章中有介紹過,感興趣的小伙伴可以點擊查看【什么是變化數據捕獲(CDC)?】
CDC的使用場景有哪些呢?
數據采集的核心問題,CDC都可以解決:
?數據分發:將一個數據源的數據分發給多個下游業務系統,常用于業務解耦、微服務系統。增強數據在企業內部的流轉和應用。
?數據采集:實時采集數據源變更數據,面向數據倉庫、數據湖的ETL數據集成,消除數據孤島,便于后續的分析。
?數據同步:通過日志快速獲取變更數據,并將數據流推送至目標,常用于數據備份、容災等,有效降低企業在數據備份中的投入成本。
CDC能力,TempoDF兩步即可獲取
?數據抓取與存儲,兩步就能搞定
Tempo數據工廠(簡稱TempoDF)是集海量數據集成、實時數據加工、離線數據處理、自定義組件擴展、一體化監控運維五大核心功能的大數據開發平臺,為企業用戶降低了多源異構數據的融合成本,賦能全鏈路數據開發,讓數據更好發揮其潛在價值。
在Tempo數據工廠平臺中,用戶可以通過拖拉拽的方式快速配置完成一個實時自助流程進行業務數據的CDC,并且可以進行后續的計算處理,最終將數據寫入目標源中,如下圖所示:
△實時數據同步
△實時變更數據加工
?不只是ETL,還可以做數據清洗
結合TempoDF強大的處理引擎,不僅可以讓實時數據CDC業務流程操作變得更加快捷簡單,還可以根據業務需求,進行數據清洗、計算及指標構建,更好地滿足業務智能決策應用。
Tempo數據工廠通過CDC技術可以實現在企業數據應用時提高數據時效性、降低處理數據變更難度的目標。目前已支持多個類型數據庫CDC輸入,切實解決了企業數據傳輸速率低下、數據處理難度大、多數據源集成困難等問題。
數字化轉型過程中,數據資產化、數據價值化的意義重大,而如何基于業務應用價值,構建更好的數據中臺,賦能業務智能決策,需要更多類似CDC這樣的技術及應用的加持,美林數據一直致力于為企業提供更好的數據管理與數據分析產品與技術服務。
如果您在數字化轉型、數據中臺建設、數據治理或者數據分析應用的過程中,有任何的需求,都歡迎您與我們取得聯系,美林數據愿與您共同攜手,用技術賦能企業數字化轉型升級!