2019年9月18日 星期三

運用大數據建立水利知識圖譜






運用大數據建立水利知識圖譜
摘要:水利知識圖譜是實現智慧水利的基石,有望帶來更高效精準的水利服務。針對水利資料跨語種,專業性強,結構複雜等特點,對構建水利知識圖譜的關鍵技術進行了自底向上的全面解析,涵蓋了水利知識表示、抽取、融合和推理以及質量評估五部分內容。此外,還介紹了水利知識圖譜在資訊檢索、知識問答等水利服務中的應用現狀。結合當前水利知識圖譜構建技術面臨的重大挑戰和關鍵問題,對其發展前景進行了展望。
關鍵詞:知識圖譜;知識獲取;知識融合;知識推理;自然語言處理
一、知識圖譜概述
1.1什麼是知識圖譜
知識圖譜就是在這樣的大數據背景下產生的一種知識表示和管理的方式,強調語意檢索能力。近年來,在人工智能的蓬勃發展下,知識圖譜涉及到的知識抽取、表示、融合、推理、問答等關鍵問題得到一定程度的解決和突破,知識圖譜成為知識服務領域的一個新熱點,受到各界廣泛關注。
知識圖譜的前身是語意網,它吸收了語意網、本體在知識組織和表達方面的理念,使得知識更易於在計算機之間和計算機與人之間交換、流通和加工。一個知識圖譜由模式圖、數據圖及兩者之間的關係組成:模式圖對人類知識領域的概念層面進行描述,強調概念及概念關係的形式化表達,模式圖中節點是概念實體,邊是概念間的語義關係,如 part-of;數據圖對物理世界層面進行描述,強調一系列客觀事實。數據圖中的節點有兩類,一是模式圖中的概念實體,二是描述性字符串,數據圖中的邊是具體事實的語義描述;模式圖和數據圖之間的關係指數據圖的實例與模式圖的概念之間的對應,或者說模式圖是數據圖的模具。
著名的通用知識圖譜中有,Google「Knowledge Graph」、搜狗「知立方」、DBpedia等,它們具有規模大、領域寬,包含大量常識等特點。知識圖譜是智能大數據的前沿研究問題,它以獨有的技術優勢順應了化時代的發展,比如漸增式的數據模式設計;良好的數據集成;現有 RDF、OWL等標準支持;語意搜索和知識推理能力等。
Google知識圖譜(Google Knowledge Graph,也稱Google知識圖)是Google的一個知識庫,其使用語意檢索從多種源收集資訊,以提高Google搜尋的質量。知識圖譜2012年加入Google搜尋,2012年5月16日正式發布,首先在美國使用。
知識圖譜除了顯示其他網站的連結列表,還提供結構化及詳細的關於主題的資訊。其目標是,用戶將能夠使用此功能提供的資訊來解決他們查詢的問題,而不必導航到其他網站並自己匯總資訊。
水利有必要建立專業知識圖譜,如以上通用圖譜無法深度了解水利之專業,雖有廣度,但同一名詞專業使用上可能不同。因此本研究聚焦在水利知識圖譜之建立,但限於經費限制,本研究採取較簡易方式建構水利知識圖譜。

1 Google知識圖譜
    每個實體都可以透過屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內在特性,而關係(relation)用來連接兩個實體,刻畫它們之間的關聯。
1.2為什麼需要知識圖譜
    網友常有疑問你們的資料為什麼不是我們需要的,我們要一個資料常常需要透過很多網站才會有資料。網站管理者也在想我們也只能透過單一資料庫取得資料,沒辦法跨系統、跨資料庫來取得資料。如果有一個機制建立連結,透過簡單之方式就可以取得資訊。

2為什麼需要知識圖譜

1.3知識圖譜之領域
    從資料來源來看可能來自大數據、物聯網,如何從語意檢索轉化成資訊,建立鏈結資料,從而建立知識庫,進而人工智能以智慧方式解決問題,各種領域均很廣泛,若不以較高觀點來看只會瞎子摸象只會了解其中一點知識,知識圖譜是串聯以上科技之基石。

3知識圖譜領域
二、知識圖譜的建構
2.1知識圖譜的建構
語意網;語意網是由比現今成熟的網際搜尋工具更加行之有效的、更加廣泛意義的並且自動聚集和搜集資訊的文件組成的。
人工智慧亦稱機器智慧,是指由人製造出來的機器所表現出來的智慧。通常人工智慧是指通過普通電腦程式的手段實現的人類智慧技術。
從語意網到人工智慧是一個漫長的路,知識圖譜的建構按照此一模式來建立更是一個高難度之挑戰,本研究採取一個較為可行之方式嘗試建立水利知識圖譜。
2.2水利知識圖譜的藍圖
水利知識圖譜之願景係「智慧水利解決問題」,因此目標是推動資料連結、創新優質服務,鼓勵知識創造強化知識蒐集水利知識匯集、透過水利知識圖譜連結水利知識巨量資料分析水利知識精靈群眾交流互動蒐集民眾需求水利開放服務資訊資源共享創新資訊整合。
2.3整體架構
本研究以流程之觀點,從知識來源到知識分析最後到知識分析,這樣之架構設計與一般知識管理之設計流程一致,惟因考量可行性,因此採用較人工介入之方式設計流程。
4整體架構
三、知識來源
知識一般可以分成隱性知識(Tacit Knowledge)與外顯知識(Explicit Knowledge)。所謂內隱知識,即是指隱藏於腦內,對事情的方法、經驗、判斷、決策、創意等,因爲這些特質平時並無外放出來,因此屬於內隱式的知識。但若將這些知識行諸於文字、聲音、影像等媒介,呈現為文件、技術論文、報告、操作手冊等等,分享給大家,以供他人觀察、學習,就稱爲外顯式知識。 知識管理的重點之一,就是要將企業或個人的內隱知識轉換爲外顯知識,因爲只有將知識外顯化,才能透過資訊科技儲存於資料庫中,並經過適當地分類、儲存後,有助於知識的分享與再利用。
3.1隱性(tacit)知識:
比較複雜且無法用文字描述的經驗性知識;不容易被文件化與標準化的獨特性知識;必須經由人際互動才能產生共識的組織知識,為取得這一部分知識,嘗試發行水利署電子報,透過每週發行之電子報,提供水利署焦點、專欄、活動、人事、統計、公告、成效、防災、宣導、樂活等水利相關事項。作為收集資料之入口,各項資料成為知識物件,流向河川知識服務網分類、儲存,建立核心知識庫。

3.2顯性(explicit)知識:
是指可以被文件化、標準化、系統化的知識,以開放資料、圖書、網站、社群互動及外部資訊等方式取得。
目前已屬民間人士
除持續應用開放資料外
擬應用公民科學大眾之力量來蒐集資料
四、知識分析
水利資料蒐集、經剖析資料分析、串聯、加值匯流水利成知識,最後建立成水利知識圖譜,兹將分析如下說明:

4.1水利名詞庫

河川名詞庫整合規劃將E河川網、本署全球資訊網、台灣河川復育網、永續公共工程專屬網、河川法規及e河川知識團等相關名詞單元內容納入名詞庫,在水利之領域下地形、水利行政、環境敏感、水源、地下水、防災預警、水庫、河川、防洪設施、排水設施等10項主題,各主題項下對應若干實體,在實體項下對應若干名詞。為強化「名詞」成為水利署各資料串聯之主要媒介,利用「名詞庫」建立「鍵結資料」資料庫,利用知識服務網已建立之功能,彙整水利之各項資料,蒐集及探索知識元件,建立水利知識家資料庫、並利用名詞庫串聯建立文章之關聯,目前資料持續更新中,e河川知識網中若有包含河川名詞中之「名詞」,則會在該「名詞」顯示連結,並連結至名詞庫介紹,各個河川名詞間的關聯性在資料的查詢與檢索上顯得特別的方便。透過人工整理水利名詞已有2,900筆以上知識物件,並進行審訂編譯,確保其正確性,除運用名詞庫自動關連技術,自動與知識網之河川名詞庫進行關連。
河川知識服務網「名詞庫」
(註:「水利名詞庫」開放資料 https://data.gov.tw/dataset/36691,這一個資料集蒐集了水利相關名詞 ) 河川知識服務網「名詞庫」以關鍵字查詢利用政府資料開放平臺之「水利署政府出版品書目」資料,串連水利署相關電子書。
(註:「水利署政府出版品書目」開放資料 https://data.gov.tw/dataset/16927 ,這一個資料集蒐集了水利署歷年來出版品書目 )
5水利名詞庫架構

4.2水利知識圖譜關聯技術
    本研究採自動串聯之方式只要文章上稿以後有一套完整的機制從中抽取複雜之關聯訊息,自動連結資料,並利用文字探勘的方式進行文字資料之分析,取得文字間之關聯

6水利知識圖譜串聯
4.3建立水利知識圖譜
    自動擷取站內文章關鍵字後,再將站內文章關鍵字關聯性進行分析,找出關鍵字間的關聯性與關連強度,進而推算出文章之間的關聯強度並進行推薦
將完整的知識內容採用SVG可縮放向量圖型視覺畫方式呈現。

7 水利知識圖譜
改採知識本體之方式重擬架構
五、知識應用案例簡介
5.1文章串聯     
    文章透過「名詞」可以連結至各關鍵內容,連結至名詞資料庫。透過關鍵字延伸閱讀機制,另依據使用者瀏覽查詢歷程記錄、操作行為…等進行統合分析,建立自動推薦和知識拓樸等功能,主動推薦文章、名詞,提供延伸閱讀給使用者查閱。

9 文章連結

10 水利名詞庫
    以旱溪為例,當使用者點選「旱溪」,結合空間及時間將資訊呈現於知識圖譜,並智慧分析使用者瀏覽動線及關聯機制,導入Call to Actions概念,主動推薦知識資訊,並且整合GoogleWiki藉以強化搜尋豐富知識內容。

11知識圖譜呈現方式
5.2知識圖譜

12 知識圖譜入口頁
    針對該關鍵字除了提供知識圖譜及關連圖譜之外,整合相關網站提供電子報、圖片、影片、開放資料、地圖、粉絲團等分類查詢,協助使用者更加精準搜查所需資訊。根據使用者使用「旱溪」此關鍵字,整合水利電子報主題網之相關資訊至入口頁,無須連至水利電子報主題網查詢,主動篩選「旱溪」相關資訊。
    根據使用者使用「旱溪」此關鍵字,整合水利相關網站所有圖片、影音資訊至入口頁,無須連至各水利相關網站查詢。
    根據使用者使用「旱溪」此關鍵字,整合水資料應用平台、水利資料整合雲平臺、水資料分享站等開放資料至入口頁,無須連至各水利開放網站查詢。

13 網頁呈現方式

    除了提供知識圖譜之外,整合相關網站資源提供電子報、圖片、影片、開放資料、地圖、粉絲團等分類查詢結果,協助使用者更加精準搜查所需資訊。
根據使用者使用「旱溪」此關鍵字,整合水資料應用平台、水利資料整合雲平臺、水資料分享站等開放資料至入口頁,無須連至各水利開放網站查詢。
根據使用者使用「旱溪」此關鍵字,整合Google Map地圖,提供旱溪點位資訊嵌入至入口頁呈現,無須連至Google Map地圖頁面查詢。

14 與地圖整合
5.3一圖看懂
    配合「前瞻基礎建設計畫-水環境建設」之「水與發展」、「水與安全」及「水與環境」三大建設主軸,建置前瞻水知識類別,提供一圖看懂專區以視覺圖像化傳達水利知識並提供熱門圖卡區推薦民眾閱讀,也可供使用者收藏與分享內容。

15 一圖看懂
5.4問答精靈
    問答系統也是知識圖譜的典型應用場景。目前在基於知識圖譜的問答系統中採用的方法主要包括:基於資訊提取的方法,利用問句信息結合知識庫資源獲取候選答案;基於語義解析的方法,將自然語言問句解析成一種邏輯表達形式,通過這種結構化表達從知識庫中尋找答案。
    提供RWD自適應視窗設計,依照查詢結果來呈現精靈問答視窗介面,並自動調整配置。以阿滴仔小博士逗趣的形象設計ICON常駐於網站側邊,隨時提供服務與使用者對話。
    透過對使用者詢問內容進行分析,從語義層面理解用戶意圖,藉此改進搜索質量,在搜尋結果提供「結構化」、「連結性」的知識「整理」與「解答」。
「水利知識問答精靈」結合河川名詞庫做為剖析使用者輸入問題的關鍵詞彙資料集,透過關鍵詞剖析功能將使用者輸入的問題自動進行分析,依據分析結果取得河川名詞庫中所對應的河川名詞及屬性資訊,並給予使用者精準的查詢結果。
透過河川名詞庫管理功能動態擴充河川名詞屬性內容,將不屬於河川名詞的其他名詞加入以輔助系統針對使用者所輸入的查詢語意分析,藉此來持續優化知識查詢內容。


16問答精靈



17問答精靈管理模式
六、未來發展與挑戰
6.1自動化
本研究係採人工構建名詞庫之方式,從相關研究資料現狀分析得知,基於人工構建本體的方法還在專家編輯,在網際網路規模數據時代已經不能滿足大知識量的要求,本體編輯的工作量非常巨大而專家資源相對稀缺,所構建的本體在覆蓋面、更新速度等方面將到比較嚴重的限制。在自動構建本體方面,目前還極少有方法能夠自動構建在覆蓋面、準確性均能很好滿足的本體。
在中文本體構建方面,目前的方法對網際網路中的越來越多的結構化或半結構化的信息利用不夠充分,而且缺乏有綜合利用多種方法並且利用多種數據源的本體學習方法。
6.2標準化
為機器可讀國際間已擬定
  • RDF是Resource Description Framework(資源描述框架)的縮寫,資源可以是任何事物,包含文件、人物、實體物件和抽象概念……等,資源描述框架使用簡單的「主詞」、「述詞」、「受詞」三元關係來描述關於資源的一項事實或一個屬性,也可以理解為描述兩個資源之間的關係。
  • 可透過SPARQL查詢介接或RESTful介接進行知識的搜索。本研究後續可遵循此一標準推動,以利與其他系統接軌。
6.2資料專屬網址
物聯網之應用下,期待任何實物資料均有專屬之網址,甚至應用數位QR碼即可查詢,本研究之名詞應該朝此目標推動。
6.3跨域合作
可以聯合水、土、林、空等環境相關領域共同合作建立「環境知識圖譜」,共享環境資源之資訊。
七、效益與結論
透過大數據分析彙整水利資料,水利知識圖譜,可以掌握相關水利知識及數據內容,本研究以較簡易方式建立,人工介入名詞庫之建立,需較多之專業投入。知識圖譜的構建並非一織而就,需要不斷的進行更新。
期能吸引公民參與在網路上交流及互動,民間回饋水利知識給政府機關參考,政府提供資料給民眾共同應用,未來加強專家參與水知識分析。
水利知識圖譜將知識圖譜與水利知識進行結合,定會推進水利數據的自動化與智能化處理,為水利事業帶來新的發展契機。
雖然目前對於水利知識圖譜的研究工作有了很多很有意義的嘗試,由於經費與時間,限制本研究還不夠完善和深入,需要更進一步的研究。希望本文能夠為水利知識圖譜研究提供一些幫助與啟發。
參考文獻

沒有留言:

張貼留言