Tempo大數(shù)據(jù)分析平臺內(nèi)嵌200余種數(shù)據(jù)挖掘分析方法,涉及數(shù)據(jù)處理、統(tǒng)計圖表、回歸、聚類、分類、關(guān)聯(lián)規(guī)則、時間序列、綜合評價、文本分析等九大類別。基于大數(shù)據(jù)的分布式挖掘應(yīng)用算法引擎,Tempo平臺實現(xiàn)了100余種分布式方法,支持海量數(shù)據(jù)的快速處理分析。
Tempo大數(shù)據(jù)分析平臺中涵蓋視覺聚類、L1/2稀疏迭代、稀疏時間序列和信息抽取等10余種美林獨(dú)創(chuàng)領(lǐng)先世界的數(shù)據(jù)挖掘算法。其中:
視覺聚類算法。基于人類視覺原理模擬數(shù)據(jù)逐級聚類分析,過程包含了數(shù)據(jù)的一系列分群,最終將視覺存活周期最大時的分群作為最佳聚類結(jié)果。視覺聚類算法的優(yōu)點(diǎn)在于,它既不依賴任何初值,也不涉及整體優(yōu)化問題,可克服傳統(tǒng)算法對初值敏感、難以找到最優(yōu)聚類,難以確定聚類個數(shù)等缺陷。
應(yīng)用案例:數(shù)據(jù)時代,數(shù)據(jù)安全對于企業(yè)而言非常重要,一旦數(shù)據(jù)被外部人員竊取,后果將十分嚴(yán)重。傳統(tǒng)小數(shù)據(jù)量的環(huán)境下,管理員依靠設(shè)置一些基礎(chǔ)的安全策略,基本上能滿足數(shù)據(jù)安全保護(hù)。在大數(shù)據(jù)環(huán)境下,面對海量實時數(shù)據(jù)流和多元化用例場景,有限數(shù)量的規(guī)則策略已經(jīng)不能保證數(shù)據(jù)的絕對安全。將視覺聚類引入識別新的網(wǎng)絡(luò)入侵,通過分析每個用戶的特征信息和操作行為信息,如請求時間、IP地址、訪問的時間周期、訪問頻率、是否為增加操作、是否刪除操作、是否為查詢操作、提交任務(wù)的資源需求、提交任務(wù)執(zhí)行時長等,自動確定聚類個數(shù)(即用戶數(shù)據(jù)訪問行為分群),能夠快速分析并發(fā)現(xiàn)正常訪問、已有入侵行為和新入侵行為之間的特征差異,為實現(xiàn)用戶訪問行為監(jiān)控、非法入侵和違法安全規(guī)則監(jiān)控提供輔助決策支撐。
L1/2稀疏迭代算法。L1/2稀疏迭代算法是基于極小化損失函數(shù)與關(guān)于解的1/2范數(shù)正則項的高效稀疏算法。L1/2稀疏性高,在求解回歸問題和分類問題時,面對冗余、高維變量,在保留原始數(shù)據(jù)信息不損失情況下能更快速地找到關(guān)鍵影響因素,大大提升整個分析計算的效率和性能。
應(yīng)用案例:某鋼鐵企業(yè)在硅鋼生產(chǎn)線上,由于多種復(fù)雜因素的作用,成品表面有時會形成一種稱為縱條紋的瓦楞狀缺陷。縱條紋缺陷不僅影響產(chǎn)品的外觀效果,而且對產(chǎn)品的物理性能有著直接的影響。縱條紋缺陷鋼占生產(chǎn)量的30%左右,每年給企業(yè)帶來巨大的經(jīng)濟(jì)損失。對硅鋼縱條紋質(zhì)量故障進(jìn)行診斷,通過收集硅鋼在鍋爐冶煉、熱軋粗軋、熱軋精軋、酸洗、軋制、退火及涂層和剪切等過程的多個特征數(shù)據(jù),如連鑄中包溫度、連鑄拉速、各種元素的鑄坯成分、粗軋出口溫度、精軋出口溫度、卷取溫度等,利用L1/2算法尋找到鑄坯硅成分、鑄坯鋁成分、粗軋出口溫度、精軋出口溫度等關(guān)鍵少數(shù)的幾個影響因素,同時尋找到硅鋼質(zhì)量良好生產(chǎn)的控制策略,為硅鋼縱條紋的故障檢測和質(zhì)量診斷提供輔助依據(jù),直接為企業(yè)挽回每年近千萬的經(jīng)濟(jì)損失。
稀疏時間序列。稀疏時間序列將L1/2正則化理論引入到AR時間序列中,建立了基于L1/2約束的稀疏時間序列模型,較之自回歸移動平均模型(ARMA),該算法將定階和求解過程統(tǒng)一,解決了傳統(tǒng)時間序列算法定階難問題,提高了定階和預(yù)測速度。
應(yīng)用案例:準(zhǔn)確地預(yù)測出地區(qū)的月售電量,對于電力公司決策者合理地確定銷售電量總定額、分解售電量銷售指標(biāo)、做好電力企業(yè)的經(jīng)營有著重要實際意義。月度售電量受區(qū)域宏觀經(jīng)濟(jì)、區(qū)域電力需求及各種不同類型用戶的構(gòu)成比例等多重因素影響,因而預(yù)測難度較大。在某電力公司售電量預(yù)測應(yīng)用中,依據(jù)“讓歷史告訴未來”的思路,考慮歷史售電量的發(fā)展特點(diǎn)和變化規(guī)律,包括周期性、趨勢性、季節(jié)性、隨機(jī)擾動性等,進(jìn)行未來一段時間的售電量預(yù)測。利用稀疏時間序列的自動定階和快速預(yù)測優(yōu)勢,使得月度售電量預(yù)測相對誤差由原來的5%以上降低在1%以下,同時大大提高了預(yù)測效率,為電力公司開展電費(fèi)管理、電價管理、電力需求側(cè)管理等工作提供基礎(chǔ)輔助支撐。
信息抽取。該算法通過設(shè)計特定的語法規(guī)范,構(gòu)建規(guī)則模板引擎,提供給用戶靈活的信息抽取接口。相比其他數(shù)據(jù)挖掘算法,用戶在利用平臺的信息抽取算法時,只需要按照語法規(guī)范編寫規(guī)則,就可以完成指定信息的快速抽取與結(jié)構(gòu)化內(nèi)容的準(zhǔn)確輸出。
應(yīng)用案例:某金融服務(wù)機(jī)構(gòu)向客戶發(fā)送的短信息是文本形式的(如逾期、房貸、申請等具體業(yè)務(wù)內(nèi)容),需要從這些文本短信中分析出有價值的信息等,以有效支撐其客戶關(guān)系維系和運(yùn)營管理。對于歷史短信量達(dá)到TB級,且每個月以2億條的增加增速在增加,通過模糊查詢搜索匹配相關(guān)關(guān)鍵字篩選出有價值的信息(如逾期相關(guān)信息),一是需要人工梳理大量的關(guān)鍵字以窮舉所有可能的情況,耗費(fèi)大量的時間和人力成本,且可擴(kuò)展性差,二是匹配的內(nèi)容精準(zhǔn)度差,準(zhǔn)確性難以保障。在金融信貸類短信分析中,利用信息抽取算法通過編寫規(guī)則模板,可以從海量文本中抽取有價值信息,分析每個用戶的借款機(jī)構(gòu)、是否逾期、逾期時間、借款金額等信息的精準(zhǔn)抽取,有效地發(fā)現(xiàn)短信客戶的失信風(fēng)險,有利于金融機(jī)構(gòu)進(jìn)行風(fēng)險控制防范。
用戶可以靈活地使用Tempo平臺內(nèi)嵌的獨(dú)創(chuàng)數(shù)據(jù)挖掘算法,實現(xiàn)大數(shù)據(jù)高級分析,準(zhǔn)確性和響應(yīng)速度等性能明顯優(yōu)于同類經(jīng)典算法,能更快速、更直觀地洞悉數(shù)據(jù)特征,發(fā)現(xiàn)企業(yè)業(yè)務(wù)和流程中潛在、隱藏的規(guī)律和價值。
服務(wù)熱線
400-608-2558
咨詢熱線
15502965860-