国产在线观看一区二区三区精品 ,欧美日本亚洲一区二区,精品一区二区久久

產品簡介

美林新聞/NEWS

首頁美林數據美林新聞

美林數據技術專家團隊|智能問答技術及其應用、批注、修訂、圖源標注

2021-12-16 10:29:00 次

自Turing于1950年在其經典論文中提出“圖靈測試”以來，問答機器人的發展藍圖和目標便得以明確。而作為問答機器人的核心，智能問答技術的發展一直備受人們關注。
早期的智能問答技術主要基于問答庫中維護的模板，然后采用模糊匹配的方式給出問題的答案，對語義分析和用戶意圖理解的程度還不深。近年來，隨著深度學習技術的快速發展，智能問答技術也取得了長足的進步，并在諸如搜索、智能客服、智能家居等領域落地應用，且取得了不錯的效果。
本文首先簡要介紹當前智能問答的技術架構，然后重點對其中涉及到的關鍵技術、適用場景與優缺點進行分析。
一、智能問答技術架構
智能問答，其核心任務是構建一個模型，對輸入的問句進行理解并給出問題的答案。一般來說，可以將問答作為搜索的一個特例——其提供了一種更為精準（只有一個結果）的搜索服務，因此，本文中提到的搜索，都是指包含了問答的搜索。為了提升模型的準確性和智能性，有時也會根據輸入來推薦可能的問題。其技術架構可以簡單示意如下：

自動問答架構

♦ 問題理解
模型接收到用戶的輸入后，需要對其進行判斷與理解，例如，判斷該輸入是不是一個問題，該問題屬于哪一個領域，該問題中的實體有哪些，需要填充的槽位有哪些，問題的類型是什么，問題是否明確等。對于意圖不明確的問題，有時需要用到多輪對話技術對意圖進行澄清。
♦ 問題解答
在理解問題后，需要從模型所連接的知識庫和文檔庫獲取答案，所采取的技術方案根據答案來源的不同而不同，本文后續內容重點對這部分技術進行介紹。
♦ 搜索推薦
根據輸入，模型為用戶推薦相似的搜索內容，其主要體現在兩個方面，一是在用戶輸入的過程中根據已輸入的內容聯想其可能輸入的內容，二是在搜索結束后，根據搜索的內容推薦相似的搜索。
二、兩類典型的問答模型
1、Document QA：基于文檔的閱讀理解式自動問答
Document QA的核心任務為：給定一篇文檔和與之有關的問題，模型自動找到該問題的答案。Document QA中最具代表性的片段式提取（Span-extraction），即從給定的文章中提取一段連續的字符串作為問題的答案。這種方式一般借助于機器閱讀理解（Machine Reading Comprehension, MRC）技術，因此，有時也被稱為基于閱讀理解的自動問答。
目前，取得SOTA的MRC均采用預訓練模型，如BERT、ERNIE-Gram等，它們大都通過Transformer加注意力機制等方式來獲得文檔與問題的向量表示，再通過邊界預測的方式來確定答案片段的起止位置。
然而，在實際的問答系統中，往往無法要求用戶在輸入問題的時候同時輸入一篇包含該答案的文檔。較為合理的做法是，事先維護一個文檔數據庫，然后根據用戶的提問，從文檔庫中找到該問題的答案。
要實現上述想法，一般有兩種做法：一種是根據用戶輸入的問題，先找到最相關的一篇文檔，再對該文檔應用MRC模型，獲取答案。這種做法對篩選最相關文檔的算法要求比較高，如果選擇錯誤，那么基本上無法得到正確答案。
為了緩解上述弊端，另一種做法是找到一批（比如，10篇）文檔作為候選文檔，再逐文檔應用MRC模型，最后對獲取得到的候選答案進行評分，選擇分數最高的作為最終答案。
綜上，一個Document QA模型的整體架構可以分為三層：文檔提取（Retriever）、答案提取（Reader）、答案排序（Ranker）。

Document QA架構
（如果采用的是做法1，則在Retriever階段只保留一篇文檔，取消Ranker模塊。）

♦ Retriever
給定用戶輸入的query，采用算法（如tf-idf）從documents中篩選出topN最相關的文檔。此過程實際上就是傳統搜索引擎的計算過程，即計算query與各document相似度的過程，因此，也可以利用tf-idf算法來快速實現。
♦ Reader
此階段采用MRC模型對輸入的query和document進行計算，并從document中找到連續的字符串作為答案。例如基于BERT的MRC模型結構如下：

基于BERT的MRC模型

首先將query和document連接起來作為輸入，經過BERT模型計算后，得到document中每個詞作為答案起始位置的概率、作為答案結束位置的概率，根據概率大小得到候選答案在document中的起止位置Start和End，候選答案的得分一般由起止位置概率的乘積得到。
♦ Ranker
通過上一步，可以分別從topN相關文檔中得到對應的N個候選答案和得分，在這一階段將答案按照得分從高到底排序，返回得分最高的作為最終答案。
♦ Answer packaging
上述三步實際上已經完成了Document QA的主要功能，但在某些條件下該答案過于簡略，而且沒有對回答不出來的問題做處理。對于未抽取到答案的情況，可以根據具體要求輸出“未查詢到答案”、“超出知識庫范圍”、或其它約定好的內容；對于特定類型問題，可以用問題和答案的組合進行包裝，使其顯得更加智能，例如：問題“呼和浩特到北戴河多少公里”，模型抽取到的答案是“約763.0公里”，這里可以將答案包裝成“呼和浩特到北戴河763公里”。
Document QA相較于傳統的通過維護問答對實現自動問答的方案，一個顯著的優點就是不需要人工維護問答對和意圖模板，但在實際應用中，Document QA還存在一些短板待完善：
⇒ Document QA的計算過程是一個典型的“黑盒“，人們無法分析其得到答案的具體計算是如何進行的。
⇒ 由于答案只能從原文截取，因此無法回答一些復雜的推理類問題，例如，給定一篇介紹姚明的文章，盡管文中出現“姚明出生于上海“之類的信息，但模型可能仍無法回答諸如”姚明的國籍是什么“的問題。
⇒ Retriever算法的效果直接影響后續答案的提取，特別是在針對某些特殊領域開發問答模型時，需要投入非常多的精力來使模型學習到該領域的語言特點。
⇒ 需要標注一定規模的document-query-answer語料來訓練Reader模型。
2、KBQA基于知識庫的自動問答
KBQA，即Knowledge Base Question Answering，基于知識庫的自動問答（本文不區分知識庫與知識圖譜的概念，認為它們的含義相同），它的核心任務，是將以自然語言描述的問題轉化為可執行的結構化查詢語言（NQL），執行該查詢語句，得到問題的答案。根據存儲知識庫的數據庫種類不同，查詢語言一般有SPARQL、Cypher等。由于答案來源是質量較高的結構化知識，因此其最顯著的優勢，就是可以深入“理解“用戶的問題，并支持更多復雜的推理。
比較流行的KBQA方案有兩種，一是基于語義解析的方法，一種是基于搜索排序的方法。基于語義解析的方法的核心過程就是先將自然語言問題轉化為語義表示，然后再將語義表示轉化為可執行的查詢語言，這種方法的優勢之一，就是可解釋性強，能夠展示獲取答案的全過程。基于搜索排序的方法首先根據自然語言問題獲取知識庫中相關的實體，然后獲取與該實體有一步或多步關系的實體，并將其視為子圖提取出來作為候選答案集合，最后對候選實體進行匹配和排序，選擇最終答案。
? 語義解析的方法
語義解析的一個典型任務是給定一張表格，用戶用自然語言提出問題，模型自動生成相應SQL查詢邏輯，然后在表格中執行查詢得到答案。

用戶輸入問題：“新浪和人人網的周漲跌幅分別是多少？”
模型會根據數據表格的內容，將該問題轉化成sql語句：“select 周漲跌幅 from 表_1 where 名稱=‘新浪’ or 名稱=‘人人網’”
這樣就可以從表中得到查詢結果：“-4.52 和 -9.55”
語義解析的方法可以分為基于訓練數據的有監督方法和基于規則的無監督方法兩類。
基于訓練數據的有監督方法需要事先準備標注的數據用于訓練，在KBQA這個任務里，標注數據的格式為：，其中，query就是自然語言問句，nql是結構化的查詢語句。這實際上也是NLP技術中的一個研究方向，叫作text2sql。在深度學習的背景下，text2sql一些效果比較好的解決方案大都采用基于「編碼器-解碼器」結構的seq2seq的方法，目前，相關的研究方向主要聚焦于以下幾個方面：研究更強的語義表示（BERT）和結構來增強Encoder端對語義信息的利用程度；研究不同的解碼方式（樹形結構解碼、填槽類解碼）來減小解空間的搜索范圍；研究提高SQL（或者其他結構化查詢語句）語言的抽象性的技術；研究利用搜索、重排技術等對多條候選結果進行正確答案的篩選。對text2sql模型進行評價的方法主要有兩種：一種是精確匹配率，指的是生成的SQL與正確的SQL在select、where、from等模塊達到字符串級別的完全匹配的比例；另一種是執行正確率，指的是生成的SQL能夠在數據庫執行并返回正確的答案的比例。
基于規則的無監督方法的典型過程包括以下步驟：
（1）問句分析：
把自然語言問句轉化成查詢語義三元組的形式；
（2）資源映射：
將三元組中的每個短語，確定其在知識庫中的對應資源；
（3）查詢語句的生成：
對不同類型的問題依據不同的模板生成對應的查詢語句。
? 搜索排序的方法
知識圖譜是以實體為節點的網絡，一般處理與實體相關的事實內容，比如答案為人名、機構名、地名的問題，這種類型的問答任務稱為事實型問答，在問句中都包含至少一個實體詞，問題所涉及的知識也就是該詞對應實體的事實，那么答案就是這些事實中的實體。
例如用戶輸入問題：“姚明的妻子是誰？”該問題的核心實體是“姚明”，從知識圖譜中查詢到實體“姚明”，并將該實體相關聯的實體提取出來作為候選答案。

在本例中與實體“姚明”相關聯的實體及其關系為：
“姚明”--“國籍”-->“中國”
“姚明”--“配偶”-->“葉莉”
“姚明”--“出生地”-->“上海”
再通過計算每個相關聯實體與問題匹配程度，會得到與問題最匹配的答案是“姚明”--“配偶”-->“葉莉”，輸出答案“葉莉”。
基于搜索排序的知識問答就類似于人工回答的過程：首先，確定問句中的主題詞；然后，根據主題詞鏈接到知識庫中的實體，得到主題實體；其次，將主題實體以及知識庫中與主題實體相關的實體提取出來作為候選答案；最后，從候選答案中選擇出正確的答案。
找到主題詞并找到知識庫中與之對應的實體，是實體識別與實體鏈接的任務，這里主要介紹如何從問句和答案中提取特征，并對它們的匹配程度進行計算。
從問句中提取特征首先需要對問句進行句法分析，得到其依存句法樹。基于依存句法樹，可以進一步抽象得到許多有用的信息，主要包括：
（1）問題詞：
         例如，誰，哪，什么等；
（2）問句焦點詞：
        這個詞暗示了答案的類型；
        例如：名字，時間，地點等；
（3）主題詞：
       用于幫助找到知識庫中相關的知識點；
（4）中心動詞
作為候選答案的知識庫中的節點，都可以抽取出以下特征：節點的所有關系；節點的所有屬性及屬性值；節點與主題實體的路徑。
在提取了問句和候選答案的特征之后，接下來就是對其進行匹配。為此，可以將問句中的特征和候選答案的特征進行組合，并將關聯度較高的問題-候選答案賦予較高的權重。這種賦權過程可以通過機器學習模型來實現，具體地，將從候選答案中選出正確答案視為一個二分類問題，從而可以使用<問題-答案>的標注數據來訓練一個分類模型。
三、總結
本文主要介紹了兩類常用的自動問答技術的實現原理，縱觀整個自動問答的研究成果和技術現狀，仍需要對以下問題進行深入研究：
計算機能夠直接處理的只有數字，如何把自然語言包含的語義信息準確、無遺漏地映射成數字，是所有NLP任務面臨的挑戰。盡管基于預訓練模型的方法橫掃了各大NLP任務的榜單，但是在自動問答的任務上，此方法衍生出的模型所取得的效果仍然無法令人滿意。這類方法試圖通過龐大的參數和復雜的結構來對自然語言問句進行解析、推理、查詢和回答，隨著問句復雜程度的提升，該方法的推理能力會顯著地降低，從而導致回答錯誤或無法回答；此外，正如所有NLP任務所面臨的挑戰一樣，對跨領域的模型進行二次訓練所消耗的高額資源是阻礙其大規模應用的重要原因。
KBQA由于有高質量的知識庫作為底層支撐，往往具有較好表現效果。但是，拋開維護知識庫所需要投入的巨大資源之外，如何正確解析問句、從大規模的知識庫中快速定位到關鍵實體并根據關鍵實體找到對應的屬性（關系）作為答案，對于數據結構、硬件資源以及解析模型的要求仍是非常高的。

上一篇：蘭州理工大學一行赴美林數據座談交流下一篇：美林數據獲邀成為成渝地區大數據與人工智能產業職業教育集團首屆常務理事單位

夜夜爽一区二区三区精品,精品一区二区三区免费毛片爱,日本美女一区二区三区,色窝窝无码一区二区三区色欲

Tempo大數據分析平臺

Tempo商業智能平臺

Tempo人工智能平臺

Tempo數據工廠平臺

Tempo數據治理平臺

Tempo主數據管理平臺

Tempo指標平臺

自助式可視化分析

算法模型管理

指標管理解決方案

數字指揮中心

湖倉一體解決方案

智能場景應用構建

主數據應用監管

數據中臺

數據資產入表

發電

電網

制造

油氣

煤炭

高校

政企

金融

科研院所

大數據分析師

DAMA認證

美林數據

合作生態

內容中心

幫助中心

美林新聞

行業資訊

產品簡介

Tempo商業智能平臺

Tempo人工智能平臺

Tempo數據工廠平臺

Tempo指標平臺

Tempo數據治理平臺

Tempo主數據管理平臺

相關推薦

美林新聞/NEWS

美林數據技術專家團隊|智能問答技術及其應用、批注、修訂、圖源標注

聯系我們

400-608-2558 029-8669-8003

掃碼關注我們

掃碼立即咨詢