非結構化數據一站式搜索
2019-01-03 16:00:52
次
一、項目背景
國家電網公司通過多年信息化建設,已經建立九大業務體系,四大數據集中管理平臺,其中非結構化數據平臺數據總條數達到5.4億,存儲總量410T,數據存儲增長7.9T/月。非結構化數據平臺中的數據仍然按業務條線進行存儲、管理和利用,導致跨業務、跨系統的數據難以獲取。非結構化數據一站式搜索旨在以業務需求及用戶體驗為驅動,提供跨業務、跨系統、強關聯的各類非結構化數據一站式搜索公共服務。
二、問題與挑戰
1、搜索深度不同,項目管理系統無搜索功能;知識管理系統僅提供標題搜索;協同辦公系統支持全文搜索,但無法實現關聯檢索。
2、技術不同,現有系統搜索功能采用技術路線不統一,有Domino、Autonomy等商業軟件,也有自主研發的檢索功能,不能實現統一的集成與檢索。
3、無跨系統檢索,目前信息化系統產生的數據分散于多個系統中,如果查找資料需到每個系統分別檢索。
4、與業界差距較大,谷歌、百度等互聯網搜索引擎提供了自動推薦、智能檢索等智能化應用,而企業內部的搜索,沒有實現智能化,用戶體驗不佳。
三、解決方案
1、采用分布式搜索引擎技術對全業務系統的非結構化數據構建索引,實現對數據的全文檢索。
2、采用自然語言技術對文檔相似度、文檔特征、關聯詞進行分析,實現同義近義檢索、關聯檢索、檢索詞聯想等功能。
3、采用用戶畫像、文檔畫像、推薦技術等,對用戶瀏覽歷史等進行分析,實現基于文檔相似度的推薦、基于用戶興趣度的推薦、基于協同過濾的推薦,為用戶主動推送可能關注的文檔資料。
四、應用創新
1、構建專業詞庫,該詞庫從非結構化平臺中的文檔提取,對于特定業務文檔的分析建模起到關鍵作用。
2、采用詞向量構建電力關聯詞庫,為擴展搜索結果和個性化推薦提供依據。
3、采用興趣模型對用戶進行畫像,并根據興趣模型提供個性化推薦。
4、在搜索展示結果上引入業務關系圖譜和時間脈絡圖譜,提供更適用于業務需求的展示方式。