Tempo數(shù)據(jù)挖掘平臺是對數(shù)據(jù)的深度探索,發(fā)掘數(shù)據(jù)價值:圖形化拖曳式的數(shù)據(jù)挖掘建模工具,開箱即用的內(nèi)置機器學(xué)習(xí)算法,讓業(yè)務(wù)人員快速進行數(shù)據(jù)模型構(gòu)建與優(yōu)化,完成數(shù)據(jù)深層次價值的探索與挖掘。更多詳細介紹盡在網(wǎng)站內(nèi)部,今天我們著重給大家介紹其中文本挖掘之信息抽取。

1、信息抽取
信息抽取的定義為:從自然語言文本中抽取指定類型的實體、關(guān)系、事件等事實信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。
信息抽取有許多不同的用途,一種典型的應(yīng)用是使用信息抽取面向特定任務(wù)的結(jié)構(gòu)化信息,互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了海量的信息,由于文本數(shù)據(jù)的多樣性和異構(gòu)性,對這些的信息進行檢索和處理受到很大的限制,而信息抽取則致力于將這些信息轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),滿足搜索引擎和數(shù)據(jù)挖掘等相關(guān)應(yīng)用。另一種典型的應(yīng)用是特定目標(biāo)信息的發(fā)現(xiàn)和識別(如發(fā)現(xiàn)與“人工智能”相關(guān)的新聞)。在現(xiàn)在的Web中,相關(guān)的信息往往被無關(guān)的信息的淹沒,而信息抽取技術(shù)可以發(fā)現(xiàn)并整理蘊含在海量信息中的特定目標(biāo)信息,為正確決策提供大量的相關(guān)情報,大大降低需要的人工成本。
2、算法原理
語言的表述通常具有規(guī)律性,對于相似意圖的描述一般會有固定的表達模式,對這些固定表達模式進行泛化即可抽象出語言表述對應(yīng)的模板。如我們常說“我 吃 蘋果”和“我 吃 梨”,那么通過泛化表述語句中的不同部分,就可以抽象出相應(yīng)的語言表述模板“我 吃 [FOOD]”,其中[FOOD]稱為泛化槽位,即在槽位中填上其他的詞(如“西瓜”),就可以生成新的語句“我 吃 西瓜”。很顯然,槽位的填充是要滿足一定約束的,如[FOOD]槽位應(yīng)該填充食物相關(guān)的詞才是符合語義的,這些約束就是所謂的規(guī)則。
規(guī)則模板引擎我們期望實現(xiàn)的是簡單匹配, 所以我們對于文法的設(shè)計盡可能的簡化,定義模板的元字符為四類:泛化槽位、固定詞、通配符、注冊函數(shù)。例如我們構(gòu)造了一個識別建筑物地址的模板:
[D:ner_street][F:num]號[W:1-6][D:building]
很顯然,構(gòu)造該模板如圖1是基于如下的先驗知識進行的:我們經(jīng)常有“長安路26號宏遠大廈”這樣的表述,所以“長安路”可以被泛化為槽位,以便其他街道的名稱也能適用,同理“大廈”被歸集到[D:building]的槽位詞典中;至于多少號的數(shù)字可以通過數(shù)字識別的注冊函數(shù)實現(xiàn);而大廈的名稱比較多樣化,索性就用通配符匹配“大廈”前面的1-6個字節(jié)實現(xiàn)。

圖1 模板Trie樹匹配示例
3、利用Tempo數(shù)據(jù)挖掘平臺實現(xiàn)信息抽取
Tempo文本挖掘算法模塊提供了豐富的文本挖掘功能節(jié)點,能夠覆蓋整個文本挖掘的生命周期,它在兼顧專業(yè)性的同時保持非常友好的易用性。Tempo友好的圖形化操作界面,使用鼠標(biāo)即可完成數(shù)據(jù)挖掘全過程;便捷的參數(shù)設(shè)置窗口,使模型的構(gòu)建更加靈活;自定義詞典、配置文件均為明文,可滿足不同業(yè)務(wù)場景的個性化需求。
金融機構(gòu)向客戶發(fā)送的短信是文本形式的,需要從這些文本短信中分析出用戶是否出現(xiàn)逾期記錄,逾期行為的具體信息,如逾期時間、逾期金額、借款機構(gòu)等。以金融信貸短信的信息抽取為例子,我們講如何利用Tempo信息抽取節(jié)點從金融信貸短信中抽取出逾期金額、時間、借款機構(gòu)等結(jié)構(gòu)化信息點。抽取過程可分為下面三部分:

圖2 信息抽取流程
第一步,數(shù)據(jù)準(zhǔn)備
在使用信息抽取算法時,需要將短信文本整理為Tempo可讀取的文件格式,關(guān)系數(shù)據(jù)庫表或者txt、 csv等文本文件。我們整理的數(shù)據(jù)格式如下表:
id | 短信文本 |
1 | 【華嚴法務(wù)】尊敬的客戶,您在閃電平臺借款截止2016年07月28日逾期共計1000元。若您還款困難,請立即聯(lián)系客服為您協(xié)調(diào)解決。回復(fù)TD退訂。 |
2 | 【信而富】尊敬的客戶,您的借款已逾期,需還款520.50元。請前往微信公眾號“信而富現(xiàn)金貸”還款,避免產(chǎn)生更多延遲還款服務(wù)費及不良的信用影響。點滴信用,成就未來! |
3 | 【靠譜鳥】尊敬的客戶,您在更美貸借款1000逾期未還,我司將上報全國誠信系統(tǒng)并起訴至法院,請轉(zhuǎn)告盡快還款電話4008986985,回復(fù)TD退訂 |
… | … |
第二步:構(gòu)建信息抽取模型
這一步是最重要的一步,打開信息抽取節(jié)點,配置模版文件、槽位文件、可略詞文件。我們的目的是抽取,日期、逾期金額、貸款機構(gòu)。

圖3信息抽取節(jié)點參數(shù)界面
分別點擊下載模版文件、槽位文件、可略詞文件。下載完成后本地會出現(xiàn)三個txt文件,以第一條短信為例,我們看一下如何配置這三個文件,第一條的文本短信內(nèi)容為:“【華嚴法務(wù)】尊敬的客戶,您在閃電平臺借款截止2016年07月28日逾期共計1000元。若您還款困難,請立即聯(lián)系客服為您協(xié)調(diào)解決。回復(fù)TD退訂。”,目的是抽取日期,逾期金額,貸款機構(gòu)。因為同一金融機構(gòu)發(fā)送的短信信息格式相對固定,通過模板基于元字符匹配并提取文本中的可變字符,以上短信中紅字部分均為可變字符,這些可變字符正好對應(yīng)我們想要抽取的貸款機構(gòu),逾期金額和日期。首先我們抽取貸款機構(gòu),短信中貸款機構(gòu)出現(xiàn)的上下文為“在XXXX借款”,因為我們無法判定用戶在什么平臺上借款,所以匹配“閃電平臺”用任意字符匹配,我們就可以使用匹配出閃電平臺,接著通過內(nèi)置的注冊函數(shù)匹配日期。最后我們匹配逾期金額,逾期金額出現(xiàn)的上下文為“逾期共計1000元”我們的目的是把“1000”抽取出來,逾期金額一般為數(shù)字,因此用[F:num]匹配數(shù)字,一般只有在“元”,或者“塊”,“美元”等詞前面出現(xiàn)的數(shù)字才為金額。所以在[F:num]后增加槽位。應(yīng)此最終的匹配模板為:“【】在借款截止逾期共計 機構(gòu)_6,還款日期_8:date,金額_10:double”。模板信息主要包含兩部分內(nèi)容,其中“【】在借款截止逾期共計”為規(guī)則模板,“機構(gòu)_6,還款日期_8:date,金額_10:double”為抽取的結(jié)構(gòu)化信息,兩個字符串以Tab鍵間隔。“機構(gòu)_6”表示抽取的信息字段名為“機構(gòu)”值在第6個槽位,槽位索引從1開始,一個元字符代表一個槽位。“還款日期_8”表示抽取的信息字段名為“還款日期”值在第8個槽位,“date”表示輸出類型為日期型;“金額_10”表示抽取的信息字段名“金額”值在第10個槽位,“double”表示輸出的金額格式為double類型。以上短信文件信息抽取最終的規(guī)則模板文件為:
規(guī)則模板文件 |
【 【 【 |
槽位詞典文件為:
槽位詞典文件 | |
還款 還錢 元 塊 美元 歐元 已 已在 已經(jīng) |
|
可忽略詞文件為:
可忽略詞文件 | |
的 了 |
|
將這三個文件分別上傳到對應(yīng)為目錄下。算法在校驗規(guī)則模版文件、槽位文件、可略詞文件合法完成后會根據(jù)以上文件構(gòu)建規(guī)則模版樹和槽位樹,把構(gòu)造的對象分發(fā)到分布式節(jié)點上供各節(jié)點對文本分布式信息抽取。

圖4文本信息抽取流程圖
第三步:開始信息抽取
信息抽取是基于Spark集群中的RDD數(shù)據(jù)實現(xiàn)文本信息抽取,基于RDD分布式遍歷每一條文本,通過分發(fā)到各節(jié)點的信息抽取模型實現(xiàn)對文本信息抽取的原子操作。抽取結(jié)果如下圖
信息抽取是基于Spark集群中的RDD數(shù)據(jù)實現(xiàn)文本信息抽取,基于RDD分布式遍歷每一條文本,通過分發(fā)到各節(jié)點的信息抽取模型實現(xiàn)對文本信息抽取的原子操作。抽取結(jié)果如下圖

圖5文本信息抽取結(jié)果表
以上是美林數(shù)據(jù)小編對基于Tempo數(shù)據(jù)挖掘工具的文本挖掘中信息抽取的詳細介紹,想要了解更多Tempo數(shù)據(jù)挖掘平臺功能的小伙伴,歡迎您來電咨詢或試用我們的產(chǎn)品,我們將竭誠為您服務(wù)!