Tempo 數(shù)據(jù)挖掘平臺是對數(shù)據(jù)的深度探索，發(fā)掘數(shù)據(jù)價值：圖形化拖曳式的數(shù)據(jù)挖掘建模工具，開箱即用的內(nèi)置機器學(xué)習(xí)算法，讓業(yè)務(wù)人員快速進行數(shù)據(jù)模型構(gòu)建與優(yōu)化，完成數(shù)據(jù)深層次價值的探索與挖掘。更多詳細介紹盡在網(wǎng)站內(nèi)部，今天我們著重給大家介紹其中文本挖掘之信息抽取。

1、信息抽取

信息抽取的定義為：從自然語言文本中抽取指定類型的實體、關(guān)系、事件等事實信息，并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。

信息抽取有許多不同的用途，一種典型的應(yīng)用是使用信息抽取面向特定任務(wù)的結(jié)構(gòu)化信息，互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了海量的信息,由于文本數(shù)據(jù)的多樣性和異構(gòu)性,對這些的信息進行檢索和處理受到很大的限制,而信息抽取則致力于將這些信息轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),滿足搜索引擎和數(shù)據(jù)挖掘等相關(guān)應(yīng)用。另一種典型的應(yīng)用是特定目標(biāo)信息的發(fā)現(xiàn)和識別（如發(fā)現(xiàn)與“人工智能”相關(guān)的新聞）。在現(xiàn)在的Web中，相關(guān)的信息往往被無關(guān)的信息的淹沒，而信息抽取技術(shù)可以發(fā)現(xiàn)并整理蘊含在海量信息中的特定目標(biāo)信息，為正確決策提供大量的相關(guān)情報，大大降低需要的人工成本。

2、算法原理

語言的表述通常具有規(guī)律性，對于相似意圖的描述一般會有固定的表達模式，對這些固定表達模式進行泛化即可抽象出語言表述對應(yīng)的模板。如我們常說“我吃蘋果”和“我吃梨”，那么通過泛化表述語句中的不同部分，就可以抽象出相應(yīng)的語言表述模板“我吃 [FOOD]”，其中[FOOD]稱為泛化槽位，即在槽位中填上其他的詞（如“西瓜”），就可以生成新的語句“我吃西瓜”。很顯然，槽位的填充是要滿足一定約束的，如[FOOD]槽位應(yīng)該填充食物相關(guān)的詞才是符合語義的，這些約束就是所謂的規(guī)則。

規(guī)則模板引擎我們期望實現(xiàn)的是簡單匹配, 所以我們對于文法的設(shè)計盡可能的簡化，定義模板的元字符為四類：泛化槽位、固定詞、通配符、注冊函數(shù)。例如我們構(gòu)造了一個識別建筑物地址的模板：

[D:ner_street][F:num]號[W:1-6][D:building]

很顯然，構(gòu)造該模板如圖1是基于如下的先驗知識進行的：我們經(jīng)常有“長安路26號宏遠大廈”這樣的表述，所以“長安路”可以被泛化為槽位，以便其他街道的名稱也能適用，同理“大廈”被歸集到[D:building]的槽位詞典中；至于多少號的數(shù)字可以通過數(shù)字識別的注冊函數(shù)實現(xiàn)；而大廈的名稱比較多樣化，索性就用通配符匹配“大廈”前面的1-6個字節(jié)實現(xiàn)。

圖1 模板Trie樹匹配示例

3、利用Tempo數(shù)據(jù)挖掘平臺實現(xiàn)信息抽取

Tempo文本挖掘算法模塊提供了豐富的文本挖掘功能節(jié)點，能夠覆蓋整個文本挖掘的生命周期，它在兼顧專業(yè)性的同時保持非常友好的易用性。Tempo友好的圖形化操作界面，使用鼠標(biāo)即可完成數(shù)據(jù)挖掘全過程；便捷的參數(shù)設(shè)置窗口，使模型的構(gòu)建更加靈活；自定義詞典、配置文件均為明文，可滿足不同業(yè)務(wù)場景的個性化需求。

金融機構(gòu)向客戶發(fā)送的短信是文本形式的，需要從這些文本短信中分析出用戶是否出現(xiàn)逾期記錄，逾期行為的具體信息，如逾期時間、逾期金額、借款機構(gòu)等。以金融信貸短信的信息抽取為例子，我們講如何利用Tempo信息抽取節(jié)點從金融信貸短信中抽取出逾期金額、時間、借款機構(gòu)等結(jié)構(gòu)化信息點。抽取過程可分為下面三部分：

圖2 信息抽取流程

第一步，數(shù)據(jù)準(zhǔn)備

在使用信息抽取算法時，需要將短信文本整理為Tempo可讀取的文件格式，關(guān)系數(shù)據(jù)庫表或者txt、 csv等文本文件。我們整理的數(shù)據(jù)格式如下表：

id	短信文本
1	【華嚴法務(wù)】尊敬的客戶，您在閃電平臺借款截止2016年07月28日逾期共計1000元。若您還款困難，請立即聯(lián)系客服為您協(xié)調(diào)解決。回復(fù)TD退訂。
2	【信而富】尊敬的客戶，您的借款已逾期，需還款520.50元。請前往微信公眾號“信而富現(xiàn)金貸”還款，避免產(chǎn)生更多延遲還款服務(wù)費及不良的信用影響。點滴信用，成就未來！
3	【靠譜鳥】尊敬的客戶，您在更美貸借款1000逾期未還，我司將上報全國誠信系統(tǒng)并起訴至法院，請轉(zhuǎn)告盡快還款電話4008986985，回復(fù)TD退訂
…	…

第二步：構(gòu)建信息抽取模型

這一步是最重要的一步，打開信息抽取節(jié)點，配置模版文件、槽位文件、可略詞文件。我們的目的是抽取，日期、逾期金額、貸款機構(gòu)。

圖3信息抽取節(jié)點參數(shù)界面

分別點擊下載模版文件、槽位文件、可略詞文件。下載完成后本地會出現(xiàn)三個txt文件，以第一條短信為例，我們看一下如何配置這三個文件，第一條的文本短信內(nèi)容為：“【華嚴法務(wù)】尊敬的客戶，您在閃電平臺借款截止2016年07月28日逾期共計1000元。若您還款困難，請立即聯(lián)系客服為您協(xié)調(diào)解決。回復(fù)TD退訂。”，目的是抽取日期，逾期金額，貸款機構(gòu)。因為同一金融機構(gòu)發(fā)送的短信信息格式相對固定，通過模板基于元字符匹配并提取文本中的可變字符，以上短信中紅字部分均為可變字符，這些可變字符正好對應(yīng)我們想要抽取的貸款機構(gòu)，逾期金額和日期。首先我們抽取貸款機構(gòu)，短信中貸款機構(gòu)出現(xiàn)的上下文為“在XXXX借款”，因為我們無法判定用戶在什么平臺上借款，所以匹配“閃電平臺”用任意字符匹配，我們就可以使用匹配出閃電平臺，接著通過內(nèi)置的注冊函數(shù)匹配日期。最后我們匹配逾期金額，逾期金額出現(xiàn)的上下文為“逾期共計1000元”我們的目的是把“1000”抽取出來，逾期金額一般為數(shù)字，因此用[F:num]匹配數(shù)字，一般只有在“元”，或者“塊”，“美元”等詞前面出現(xiàn)的數(shù)字才為金額。所以在[F:num]后增加槽位。應(yīng)此最終的匹配模板為：“【】在借款截止逾期共計機構(gòu)_6,還款日期_8:date,金額_10:double”。模板信息主要包含兩部分內(nèi)容，其中“【】在借款截止逾期共計”為規(guī)則模板，“機構(gòu)_6,還款日期_8:date,金額_10:double”為抽取的結(jié)構(gòu)化信息，兩個字符串以Tab鍵間隔。“機構(gòu)_6”表示抽取的信息字段名為“機構(gòu)”值在第6個槽位，槽位索引從1開始，一個元字符代表一個槽位。“還款日期_8”表示抽取的信息字段名為“還款日期”值在第8個槽位，“date”表示輸出類型為日期型；“金額_10”表示抽取的信息字段名“金額”值在第10個槽位，“double”表示輸出的金額格式為double類型。以上短信文件信息抽取最終的規(guī)則模板文件為：

規(guī)則模板文件

【】在借款截止逾期共計      機構(gòu)_6,還款日期_8:date,金額_10:double
【】還款      機構(gòu)_2,金額_6:double
【】在借款逾期      機構(gòu)_6,金額_8:double

槽位詞典文件為：

槽位詞典文件
還款還錢元塊美元歐元已已在已經(jīng)

可忽略詞文件為：

可忽略詞文件
的了

將這三個文件分別上傳到對應(yīng)為目錄下。算法在校驗規(guī)則模版文件、槽位文件、可略詞文件合法完成后會根據(jù)以上文件構(gòu)建規(guī)則模版樹和槽位樹，把構(gòu)造的對象分發(fā)到分布式節(jié)點上供各節(jié)點對文本分布式信息抽取。

圖4文本信息抽取流程圖

第三步：開始信息抽取
信息抽取是基于Spark集群中的RDD數(shù)據(jù)實現(xiàn)文本信息抽取，基于RDD分布式遍歷每一條文本，通過分發(fā)到各節(jié)點的信息抽取模型實現(xiàn)對文本信息抽取的原子操作。抽取結(jié)果如下圖

圖5文本信息抽取結(jié)果表

以上是美林數(shù)據(jù)小編對基于Tempo數(shù)據(jù)挖掘工具的文本挖掘中信息抽取的詳細介紹，想要了解更多Tempo數(shù)據(jù)挖掘平臺功能的小伙伴，歡迎您來電咨詢或試用我們的產(chǎn)品，我們將竭誠為您服務(wù)！

夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

Tempo大數(shù)據(jù)分析平臺

Tempo商業(yè)智能平臺

Tempo人工智能平臺

Tempo數(shù)據(jù)工廠平臺

Tempo數(shù)據(jù)治理平臺

Tempo主數(shù)據(jù)管理平臺

Tempo指標(biāo)平臺

自助式可視化分析

算法模型管理

指標(biāo)管理解決方案

數(shù)字指揮中心

湖倉一體解決方案

智能場景應(yīng)用構(gòu)建

主數(shù)據(jù)應(yīng)用監(jiān)管

數(shù)據(jù)中臺

數(shù)據(jù)資產(chǎn)入表

發(fā)電

電網(wǎng)

制造

油氣

煤炭

高校

政企

金融

科研院所

大數(shù)據(jù)分析師

DAMA認證

美林數(shù)據(jù)

合作生態(tài)

內(nèi)容中心

幫助中心

美林新聞

行業(yè)資訊

產(chǎn)品簡介

Tempo商業(yè)智能平臺

Tempo人工智能平臺

Tempo數(shù)據(jù)工廠平臺

Tempo指標(biāo)平臺

Tempo數(shù)據(jù)治理平臺

Tempo主數(shù)據(jù)管理平臺

相關(guān)推薦

美林新聞/NEWS

Tempo數(shù)據(jù)挖掘—文本挖掘之信息抽取

1、信息抽取

2、算法原理

3、利用Tempo數(shù)據(jù)挖掘平臺實現(xiàn)信息抽取

聯(lián)系我們

400-608-2558 029-8669-8003

掃碼關(guān)注我們

掃碼立即咨詢