夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

美林數據
ABOUT US
美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商。

美林新聞/NEWS

首頁 美林數據 美林新聞

美林數據技術專家團隊 | 金融行業圖計算平臺構建相關實踐

2021-09-02 10:57:30
引言
隨著信息技術的迅猛發展及企業數字化轉型,快速積累了大量的數據,其中關系類數據如社交數據、電商數據等呈指數級增長。圖結構數據在各個場景中也得到越來越多的應用,包括社交網絡、推薦搜索、知識圖譜、醫藥研發、量子物理等。在探索這些“關系數據”過程中,其相對基于傳統結構化數據的方法顯現出了巨大優勢,圖數據存儲及圖算法等也得到了迅猛的發展。
圖結構數據的火熱應用快速擴展到各個領域,其中金融領域為進一步增強智能風控管理能力,更好地支撐信貸等業務的發展,也陸續開展基于圖數據的模型建設研究。
目前,常規的基于結構化數據的分析方法首先對數據進行特征分析,構建特征工程,然后選取指標搭建相應的分類模型。這種方法沒有考慮數據之間的關聯性,如“同地址”、“同電話”的客戶相互影響很大,而把這種“相互影響”考慮進行建模過程,對模型性能提升會有較大影響。
同時,銀行現有的圖譜數據通常是非常直接的關聯。如兩個人之間是夫妻關系,這對于基礎的連通圖、社區發現等依賴于構圖的圖算法有較大影響。需要我們去豐富構圖的方法,建立節點與節點之間的隱性關聯。
為了充分利用現有結構化屬性數據及圖譜數據,在構建圖計算平臺時,既加入了傳統的出入度、簇系數、介數等中心性指標,也做圖的表征學習,考慮節點和邊關系的屬性信息,以進行更好的信息融合。
一、整體架構
圖計算平臺整體架構
圖計算平臺整體架構最底層為執行框架層,具體采用Spark框架來實現,支撐算法層中各操作,并將獲取到的特征(包含節點屬性和邊關系屬性)輸入到Euler/TensorFlowOnSpark中構建具體的分類模型。
算子層是圖計算常用的操作,包括鄰居采樣、隨機游走、消息傳播、最短路徑等。
算子之上是圖算法層。由于現有圖數據為很大的異構圖,需要通過同構圖抽取、louvain分割算法等進行子圖構建,且由于業務規則,抽取的圖為有向圖。這部分需要對現有的算法進行改造,以支撐該場景。同時會對抽取的子圖提取節點度、簇系數、介數等統計指標。嵌入表示方面,有基于拓撲結構的Node2Vec/Struct2vec及基于采樣的LINE/GraphSage等算法。
圖平臺應用主要是風控,常見的應用場景有欺詐檢測、信用貸款、潛客發現等。
二、算法改造
由于業務的特殊性,圖數據間關系均為有向連接,且帶有權重,就需要我們基于Spark實現對應的算法,包括有向最短路徑、二度/三度同構圖、有向連通圖、有向Louvain算法、有向LPA算法和有向Node2Vec算法。
以Louvain分割算法為例,簡述算法的改造過程。
Louvain算法是基于模塊度的圖分割算法,能夠發現層次性的社區結構,其優化目標為最大化整個子圖的模塊度,其改造難點在于模塊度的改造及并行化實現。
模塊度是評估一個圖劃分好壞的度量方法,它的物理含義是子圖內節點的連邊數與隨機情況下的邊數之差,其定義如下:
模塊度定義
其中,Aij表示節點i和節點j之間的權重,當網絡不帶權重時,可看做為1;Ki=∑jAij表示所有與節點i相連的邊的權重之和(度數);Ci表示節點i所屬的子圖;m=0.5*ijAij表示所有邊的權重之和(邊的數目)。∑in表示子圖c內的邊的權重之和,∑tot表示與子圖c內的節點相連的邊的權重之和。基于模塊度的社區發現算法,都是以最大化模塊度為Q目標。
對于有向模塊度,具體參考《Directed Louvain : maximizing modularity in directed network》。基本思想為:如果兩個頂點u和v,u具有小的進度、大的出度,v有小的出度、大的進度,則存在從u到v的連接概率應大于從v連向u的概率。可定義出有向圖的(Leich and Newman)模塊度為:
出有向圖的模塊度
其中Aij表示存在i到j的邊,diin,djout分別表示入度和出度。進而模塊度的變化量可寫為:
模塊度的變化量
其中,∑totin(resp.∑totout)表示連接子圖C的入度(出度)。
由于原始算法是逐個選擇節點,重新計算它的子圖,不斷進行迭代。這種串行化的計算方式,對分布式計算框架非常不友好。因為在選擇一個節點進行計算時,其它的節點是不能進行變化的。
這種方式不能進行并行化計算,也不能充分利用分布式框架的高并發、集群計算優勢。
為了使算法能夠運行在集群環境上,需要對算法進行并行化改造。如在每輪迭代中同步更新多個節點的信息,即根據t-1輪中鄰居節點的信息來更新t輪中節點的信息。但這樣會造成“消息滯后”,造成“子圖互換”問題。因此,需要進行后處理。基于算法結果,求解連通區域,將同一個連通區域的點都歸為一個子圖。
三、建模流程
基于圖計算平臺的數據建模流程大致可分為以下四個步驟:
建模流程
1、圖構建:結合圖計算平臺能力,實現同構子圖的獲取。首先結合分布式切片策略將數據加載到Spark中,然后借助Spark實現屬性數據的清洗。如缺失值填充、孤立點處理等。然后結合消息傳播實現一度、二度、三度同構圖的獲取,并采用Louvain分割算法、LPA算法、連通分析算法得到最終的同構子圖。
2、圖特征:結合圖計算平臺能力,獲取各節點特征表示。特征包含基于節點度、中心性等的統計特征,還包括基于Node2Vec、LINE、GraphSage的嵌入表示特征,并將兩者進行拼接,同時對于同一節點在不同子圖中的特征,也進行拼接,進而獲得節點的最終特征表示。
3、圖模型:結合具體的業務場景,構建圖模型。具體可借助Euler建模平臺,構建GCN等圖分類模型,也可借助TensorFlowOnSpark框架,實現基于TensorFlow和Spark的分布式深度學習模型構建。
構建圖模型

4、新圖關聯:對于新增客戶,所構成的異構子圖。根據其屬性相關性(相似或相同),和已有的異構圖數據進行關聯,然后進行后續處理,處理流程同1、2、3步。
四、場景示例
以“潛客發現”場景為例,通過對用戶的歷史數據進行分析,提取不同維度的信息,對客戶意愿進行預測,以達到發掘潛在客戶的目的。其關鍵在于通過模型算法挖掘出數據中所隱含的用戶行為規律。傳統的方法不能對用戶各行為及用戶間各關系進行建模,通常具有較低的召回率。
故結合上述建模流程,探索圖計算在“潛客發現”場景的效果。具體數據實體(節點)有手機號、地址、郵箱等,關系有親屬關系、交易關系等,屬性有姓名、性別、年齡等,按照上述流程對有154萬節點、917萬條邊及34個屬性的圖數據進行處理,構建相關特征,各算子運行效率如下:
算法運行測試
最終,對于具有1億節點、15億條表的圖數據,提取特征后構建分類模型。其效果如下圖所示:
模型效果

可以看出,基于圖數據的建模方式可以獲得更高的精度和召回率,對于金融機構在發掘潛在價值客戶的精準度有較明顯的提升,從而更好的支撐“潛客發現”的業務開展。
借助分布式計算和圖計算,可以對大規模的圖數據進行處理,在結構化數據的基礎上融合“關系數據”,建立出性能更好的模型。在金融系統的欺詐檢測、信用貸款、潛客發現等應用場景都能得到廣泛的應用,實現金融企業智能風控管理能力的有效提升。
近年來,隨著人工智能、大數據等新技術的深入應用,為金融機構的業務開展帶來了革命性的變革。美林數據依托領先的數據價值挖掘技術與能力,為銀行、保險、證券、基金等金融機構提供專業的數據治理、數據分析與挖掘等數字化技術服務,助力提升金融機構的風控管理、市場營銷等業務能力,利用金融科技助推我國金融市場的繁榮發展。

服務熱線
400-608-2558
咨詢熱線
15502965860-
美林數據
微信掃描二維碼,立即在線咨詢
夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

  • <center id="vcica"><optgroup id="vcica"></optgroup></center>
  • 主站蜘蛛池模板: 欧美激情麻豆| 午夜精品亚洲一区二区三区嫩草| 久久裸体视频| 99日韩精品| 国产精品一区二区三区久久久| 国产精品国产成人国产三级| 欧美va亚洲va国产综合| 欧美成年人视频| 先锋影音久久| 亚洲免费观看| 黄色欧美日韩| 亚洲第一天堂无码专区| 国产精品手机视频| 国产一区二区三区在线观看免费 | 亚洲国产另类久久久精品极度 | 国产精品尤物| 国产亚洲综合精品| 永久久久久久| 国产精品一区二区三区乱码| 国产日韩精品一区观看| 欧美性色视频在线| 国产欧美一区二区色老头 | 欧美激情欧美狂野欧美精品| 欧美视频手机在线| 国产色产综合色产在线视频| 国产精品久久激情| 欧美三区在线| 国产一区二区黄色| 亚洲经典视频在线观看| 一区二区福利| 99精品热6080yy久久| 亚洲欧美综合一区| 免费视频一区| 国产精品国产三级国产a| 黑人极品videos精品欧美裸| 国产精品亚洲人在线观看| 一区二区在线看| 一区二区三区视频在线观看| 久久精品视频免费| 久久久久久久久久久成人| 欧美精品激情blacked18|