前言:本站為你精心整理了關聯(lián)出版物數(shù)據(jù)組織框架范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
關聯(lián)數(shù)據(jù)特性
關聯(lián)數(shù)據(jù),尤其是關聯(lián)公開數(shù)據(jù)是互聯(lián)網(wǎng)的巨大財富,為圖書館從書目管理向知識關聯(lián)的遷移提供了重要的發(fā)展機會[3]。相比其他的技術,關聯(lián)數(shù)據(jù)的門檻較低,難度較小。關聯(lián)數(shù)據(jù)是語義網(wǎng)較為成功的應用。通過將現(xiàn)有數(shù)據(jù)以RDF的形式重新并加以關聯(lián)、共享,將無結構、半結構的數(shù)據(jù)進行結構化表達。將已有數(shù)據(jù)為關聯(lián)數(shù)據(jù)需要遵循以下原則。首先,任何實體必須有唯一的URI[4]。即所有的事物應以HTTP形式表達。例如,關于圖書有ISBN、出版商、出版時間、地點等。關于某人的數(shù)據(jù)包括出生地、出生年月日、工作地、發(fā)表的論文、科研項目等必須有唯一的URI表示。此方法確保實體不會被混淆。這種方法較之圖書館、情報服務界過去沿用的DOI等方式,更具有機器可讀性。因此適于應用在更廣闊的領域[2]。其次,數(shù)據(jù)需要以RDF三段式表達。即文件事物、特性、值。例如,“某書的出版單位是武漢大學出版社”。其中,“某書”是主語,“出版單位是”為謂語,“武漢大學出版社”是賓語。其中,“武漢大學出版社”在“所在地”、“主管單位”、“成立時間”、“重要出版物”、“郵政編碼”、“電話區(qū)號”、“經(jīng)緯度”等RDF三段式表達中又可以作為主語。通過這種形式,所有的關系都可以關聯(lián)起來。其中,特定的“郵政編碼”、“電話區(qū)號”、“經(jīng)緯度”等一般為常量,不再進行新的RDF關聯(lián)。以RDF三段式表達的數(shù)據(jù)形式,每一段均可回答特定問題。例如,“哪本書是由武漢大學出版社出版的?其作者的工作單位、聯(lián)系方式是?”這些問題以傳統(tǒng)的數(shù)據(jù)庫查詢方式即可完成。但類似于“科研項目與武漢大學無關但在武漢大學出版社出版著作的有多少作者?”等涉及多表聯(lián)查的問題是數(shù)據(jù)庫處理的瓶頸。而這恰恰是關聯(lián)數(shù)據(jù)的優(yōu)勢。由于大量RDF數(shù)據(jù)已經(jīng)通過關聯(lián)數(shù)據(jù)的形式在語義數(shù)據(jù)云圖中提供共享訪問,因此,不需要重復輸入大量數(shù)據(jù)。而是通過對關聯(lián)數(shù)據(jù)集進行SPARQL查詢等形式獲取所需關系。由這些例子可以看到,關聯(lián)數(shù)據(jù)的三段式形式在問答中的重要作用。又如,“某人和武漢大學圖書館有何關系?”,類似的開放性問題的智能問答,需要在RDF中查找所有可能存在的關系,然后以合理的計算時間和空間代價完成收斂。毫無疑問,這些數(shù)據(jù)如果依靠人工提取會耗費大量時間和人力。如果約定使用標準的謂詞詞匯表,可以用自動提取的形式完成此類工作。
在出版物方面的應用中,瑞典國家圖書館對聯(lián)合書目進行關聯(lián)數(shù)據(jù)化處理。美國國會圖書館、法國、德國等國的國家圖書館用標題表等形式將書目等數(shù)據(jù)與語義數(shù)據(jù)云圖進行關聯(lián)。在關聯(lián)公開數(shù)據(jù)集中,數(shù)據(jù)來自不同專業(yè)機構,通過DataHub(數(shù)據(jù)集成交換)鏈接在一起。CKAN項目對其中的數(shù)據(jù)進行統(tǒng)一評價、管理。在目前集成的關聯(lián)數(shù)據(jù)集中,數(shù)據(jù)質量參差不齊。截至2011年質量較高的關聯(lián)數(shù)據(jù)集已有200多個,而這一數(shù)字在未來1~2年內可能會增長3倍。其中,統(tǒng)計數(shù)據(jù)集、詞匯表、藝術、氣象、圖書館書目數(shù)據(jù)關聯(lián)組提供的數(shù)據(jù)經(jīng)過測評被公認為具有較高質量。該數(shù)據(jù)集提供的詞表、本體、人名、地名規(guī)范、會議名稱等對于本領域及其他領域學者的研究和具體應用作用巨大[3]。在具體的應用中,通過RDF嵌入到HTML中,鏈接到Dbpedia等關聯(lián)數(shù)據(jù)集。也可以專門的應用程序(Apps)實現(xiàn)對關聯(lián)數(shù)據(jù)的調用。據(jù)預測,未來3年內,互聯(lián)網(wǎng)上的大部分人物、事件將具有關聯(lián)數(shù)據(jù)的形式并提供公開訪問。在LinkedOpenData(關聯(lián)公開數(shù)據(jù))中,最重要的是關聯(lián)(Linked)。盡管關聯(lián)程度可能存在差異,不一定是整個數(shù)據(jù)集完全關聯(lián),但即使部分數(shù)據(jù)實現(xiàn)了關聯(lián),也可以先將已有的關聯(lián)數(shù)據(jù)資源提供共享和訪問[4]。公開(Open)是LOD(LinkedOpenData)的重要性質。關聯(lián)數(shù)據(jù)的公開要求者和使用者署名完整。
未經(jīng)許可,禁止進行商業(yè)使用。關聯(lián)數(shù)據(jù)使用要求以相同形式分享。例如,在某PPT中使用了關聯(lián)數(shù)據(jù)中的圖表,則需要完整署名、同等分享。這一規(guī)定的作用在于,首先,數(shù)據(jù)提供者可以通過標準描述語言數(shù)據(jù)。其次,使得圖書館資源不再囿于原有束縛,面向更為寬廣的應用領域。將書目數(shù)據(jù)與關聯(lián)數(shù)據(jù)集鏈接,使得大量信息得到豐富。作者簡介、書號、出版時間、出版社等大量內容可供訪問。RDF三段式中的主謂賓的賓語又可變?yōu)橹髡Z,在關聯(lián)數(shù)據(jù)集中不斷擴展。從而將數(shù)據(jù)庫中的數(shù)據(jù)打開,使其變?yōu)榫W(wǎng)絡數(shù)據(jù)庫的部分功能[5-6]。例如,通過關聯(lián)數(shù)據(jù)查詢胡昌平教授主編的《信息服務與用戶》出版單位和出版時間,不僅可以獲得所需要信息,還可以進一步擴展至作者胡昌平教授的簡介、研究方向、科研項目、、論文合作者、其他相關著作及出版物的書目、體裁、語種。圖書館通過將現(xiàn)有數(shù)據(jù)通過關聯(lián)數(shù)據(jù)的形式進行再利用,充分發(fā)揮已有較大規(guī)模、高質量書目數(shù)據(jù)的優(yōu)勢,將已有數(shù)據(jù)與關聯(lián)數(shù)據(jù)集中的語義資源接軌。例如,上海圖書館將下屬各分館所在地址、館藏書目等信息聯(lián)系起來,通過規(guī)范數(shù)據(jù),圖書館關聯(lián)數(shù)據(jù)孵化小組對于數(shù)據(jù)的獲取、匹配、關聯(lián)等方法進行了一系列研究。過去圖書館中的數(shù)據(jù)是知識獲取的終點,而在關聯(lián)數(shù)據(jù)的支持下會變?yōu)橹R獲取的起點。圖書館不僅提供詳細、準確的書目信息和圖書資料,還能與外部非圖書館、非文獻等數(shù)據(jù)進行關聯(lián),從而重新成為知識殿堂。
本文提出一種基于映射的圖書館關聯(lián)出版物數(shù)據(jù)自動生成方法。映射的依據(jù)是語義相似度。首先需要明確兩個概念:語義相關度和語義距離。語義相關度表示詞語之間的關聯(lián)程度,反映的是概念之間的組合特點。例如圖書與出版社相似度很小,但是相關度卻非常的大,每個圖書都離不開出版社。語義距離表示詞語之間在語義樹上經(jīng)歷的路徑,是衡量兩個詞語之間的語義相似度的一種手段,語義距離越小,語義相似度越大。本文在關聯(lián)出版物數(shù)據(jù)的組織中,采用語義相似度來判斷出版物概念間語義關系。
關聯(lián)出版物數(shù)據(jù)組織框架
關聯(lián)出版物數(shù)據(jù)組織模塊關聯(lián)出版物數(shù)據(jù)組織與語義查詢的總體結構如圖1所示。通過人工或半自動方式建立基本知識本體;以其中的概念為基礎對獲取的出版物資源預處理并將結果轉化為RDF三元組構建關聯(lián)數(shù)據(jù)。用戶通過服務接口以自然語言或SPARQL方式查詢,經(jīng)過語義推理和語義擴展對關聯(lián)出版物數(shù)據(jù)進行語義查詢;擴展基本本體構建領域知識本體庫。出版物網(wǎng)站和圖書館網(wǎng)站中已經(jīng)積累了大量的文檔資源,基于語義Web和本體技術將這些異構無序、缺泛關聯(lián)的文檔轉換成具有語義索引結構的關聯(lián)出版物數(shù)據(jù)。進一步擴建和集成領域知識本體,構建可管理的知識體系,為知識服務建立數(shù)據(jù)基礎。通過領域詞典和專家知識構建出版物知識本體,建立基于學習特征的知識本體元數(shù)據(jù)模型,全面描述出版物知識基本信息、知識類型、認知結構、知識之間的語義關聯(lián)和認知順序。建立包含出版物結構中章、節(jié)、知識點的知識本體,包括各種粒度知識的標識、名稱、類型、描述、前導、后繼和關聯(lián)知識等。研究知識本體使用RDF框架描述和用關系數(shù)據(jù)庫方式存儲出版物知識本體庫。基于知識本體的語義標注組建關聯(lián)出版物數(shù)據(jù),對XML元數(shù)據(jù)描述的出版物學習對象及URL定位的學習資源,在出版物知識本體庫的支持下,以RDF三元組描述和用URI建立它們之間的鏈接,組建關聯(lián)出版物數(shù)據(jù)[9]。結合目前的出版物網(wǎng)站資源進行關聯(lián)出版物數(shù)據(jù)集成,并進行領域知識本體擴展[6]。通過基于本體推理和gate的半監(jiān)督機器學習自動語義關系標注算法,以gate工具對出版物資源訓練集進行實體識別,構建半監(jiān)督機器學習的樣本集合集訓練樣例,完成自動語義關系標注[11-12]。通過基于多出版物網(wǎng)站來源的多文檔自動摘要算法,以已有的出版物網(wǎng)站資源為輔助,通過復合多項式算法進行文本塊語義聚類,實現(xiàn)知識點自動摘要[13-15]。在以自然語言處理技術完成用戶查詢語句語義標注的基礎上,應用領域本體實現(xiàn)用戶查詢語義擴展,提高對用戶查詢需求理解的精準度。應用領域本體推理,約簡用戶查詢的語義表達,提高復雜語義查詢效率。應用語義/語法近似技術,實現(xiàn)OWL-DL描述的大規(guī)模關聯(lián)出版物數(shù)據(jù)的推理,在保持OWL-DL近似的語義查詢精準度的基礎上,提高其語義查詢效率。
關鍵技術海量出版物資源的組織與處理是關于知識管理和知識服務的關鍵科學問題,解決方案包括:(1)基于語義網(wǎng)層次體系結構描述和組織出版物資源,把異構無序的海量資源組織成符合人認知規(guī)律的知識點關聯(lián)的領域知識體系,實現(xiàn)無語義結構資源到有序可管理知識的轉變。(2)對海量學習資源隱含的概念、屬性及關系進行自動語義數(shù)據(jù)提取和標注,建立并擴展知識本體,為知識服務提供支持。(3)利用本體推理,實現(xiàn)針對大規(guī)模關聯(lián)出版物數(shù)據(jù)的精準語義查詢。
實驗系統(tǒng)設計及實現(xiàn)
本文設計基于Protégé的關聯(lián)出版物數(shù)據(jù)構建算法。
系統(tǒng)算法設計例如:概念“ELSA總線”繼承了多個匿名類,分別代表了它的多個性質,其中“hasPrevsomeBUS”是它的第一個性質,hasPrev是一個對象屬性,some關鍵字就是類表達能力里面描述的ObjectSomeValues-From存在限制,BUS是一種命名類,此種動賓結構式的表達用于匿名類中,然后讓其他類去繼承,以此來達到表現(xiàn)性質的效果。此處的匿名類“hasPrevsomeBUS”是內部類,也即“某總線”內部的父類,該父類無法被其他類共享或繼承。完成如上步驟后,該類就具有了相應的性質,這種性質是具有語義信息的,能夠為推理機所識別、理解、推理。同時這些性質就像對外的接口,能被其他類識別,以此作為橋梁和自身產(chǎn)生關聯(lián),比如推理出存在隱含的父子關系。關聯(lián)數(shù)據(jù)構建中的算法Input:源于出版物資源的經(jīng)預處理后文本Step1.提取出一個類的性質,將每個性質寫成動賓結構Step2.對每個動賓結構提取相應的動詞Step3.對應對象屬性,提取相應的賓語,對應對象屬性的客體Step4.將每組動賓結構寫成匿名類的方式,然后作為該類的父類Output:Protégé中的類、屬性表達本文將采用Bootstrapping方法進行未標注數(shù)據(jù)的分類(1)從圖書館館藏的電子出版物資源中下載關于“微機原理及接口”出版物的文檔數(shù)據(jù),文檔規(guī)模約為3G;(2)從所下載的電子出版物資源中找出含有實體對應關系的句子。從這些句子中抽取特征以形成對應的特征向量。為每個實體對選擇50個實例作為待標注語料;(3)選取不同的類種子集,訓練分類器,對特征值維度超過設定閾值的對象進行降維處理。對生成的實例測試集進行測試,分析所設定閾值的合理性,必要時進行調校。根據(jù)計算獲得的最大關系類別概率設定關系類別閾值;(4)將符合條件的新標注數(shù)據(jù)添加至原訓練集中,重新訓練,對剩余的未標注數(shù)據(jù)進行測試,過濾得到較高質量的標注數(shù)據(jù);(5)如果過濾后得到的標注數(shù)據(jù)數(shù)量大于等于設定的閾值,結束標注過程。否則回到(4)。此處閾值根據(jù)最大類別權值與極大類別權值的差值而設定的。我們以文本塊為單位,識別出了包含一個概念的所有文本塊及該概念所對應的具體類。下一步需要標注出這些類的屬性實例,以及和其它類之間的關系實例,并在此基礎之上生成RDF文檔。我們首先找出包含指定概念的所有文本塊;然后基于語義詞典進行概念的識別,識別出領域專業(yè)名詞;在此基礎上,生成triples集合;最后進行統(tǒng)一實例的融合,并生成RDF文檔。以輸入的出版物資源片段為例:“RAM(randomaccessmemory)隨機存儲器。存儲單元的內容可按需隨意取出或存入,且存取的速度與存儲單元的位置無關的存儲器。這種存儲器在斷電時將丟失其存儲內容,故主要用于存儲短時間使用的程序。按照存儲信息的不同,隨機存儲器又分為靜態(tài)隨機存儲器(StaticRAM,SRAM)和動態(tài)隨機存儲器(DynamicRAM,DRAM)。這一文本塊的核心概念是隨機存儲器,通過前面的方法,我們已經(jīng)識別出它是一個存儲器的實例。接下來,首先,找出包含“隨機存儲器”的句子,在本例中即是:“隨機存儲器又分為靜態(tài)隨機存儲器(StaticRAM,SRAM)和動態(tài)隨機存儲器(DynamicRAM,DRAM)”。然后,通過基于語義詞典的命名識別算法,可提取出概念的包含關系———本例中的謂詞“分為”,概念名———本例中的客體“靜態(tài)隨機存儲器”,概念名———本例中的客體“動態(tài)隨機存儲器”。根據(jù)本體規(guī)范生成三元組:(隨機存儲器,包含靜態(tài)隨機存儲器)、(隨機存儲器,包含,動態(tài)隨機存儲器)。
實驗系統(tǒng)環(huán)境實驗系統(tǒng)環(huán)境為CPU1.8GHz、內存2G、硬盤大小為500GB。操作系統(tǒng)MicrosoftWindowsXPProfession-al。安裝如下軟件apache-tomcat-6.0.29、jdk1.6.0_14、apache-solr-1.4.1、Gate6.0、WordNet2.1、Protege4.2。
實驗系統(tǒng)實現(xiàn)實驗數(shù)據(jù)集合采用武漢大學出版社、華中科技大學出版社等出版機構自2002至2012年間出版的計算機硬件課程出版物共72本,如《微機原理及接口》、《數(shù)字電路原理》、《計算機組成原理》、《大規(guī)模集成電路》等。
關聯(lián)出版物數(shù)據(jù)自動生成實驗本文對關聯(lián)圖書館數(shù)據(jù)自動生成進行實驗。首先參照MUC和MET的評估指標對本信息抽取系統(tǒng)進行一個整體的評測,系統(tǒng)中的知識庫涵蓋了概念的中英文名稱、概念解釋、概念關系、所屬知識單元、難度級別等內容,基本涵蓋了關聯(lián)出版物數(shù)據(jù)所涉及到的各個角度的內容,能夠提供很好的支持。對該系統(tǒng)進行測試的數(shù)據(jù)集含有2336個經(jīng)相關領域專家人工審核的概念,其中2139個概念已經(jīng)由專家通過人工標注關聯(lián)信息(用Link(total)表示)。在實驗中,系統(tǒng)自動標注出關聯(lián)信息2105個,用Link(autoannotation)表示。經(jīng)過人工核查,發(fā)現(xiàn)系統(tǒng)自動標注2105個關聯(lián)信息中有213個未達到摘要要求,用Link(error)表示。
關聯(lián)出版物數(shù)據(jù)管理與本體建模實驗圖2是以為出版物《微機原理及接口》為例,介紹圖書館關聯(lián)出版物數(shù)據(jù)管理與本體建模的界面。
實驗結果分析由于實驗中使用的出版物數(shù)據(jù)主要是教材,以說明文的形式出現(xiàn),具有較為規(guī)范的文法表達,通過一些常用的指示詞(如:…是指…等)就能夠對候選摘要內容進行較準確的定位。因此,還可以對現(xiàn)有自動摘要算法中的特征模型進行修改,使其更加符合面向關聯(lián)課程數(shù)據(jù)的多文檔摘要內容的形式和規(guī)律。良好的擴展性使得本文方法能夠在不斷擴展抽取內容范圍的同時,提高抽取信息的準確率。從應用角度來說,關聯(lián)課程數(shù)據(jù)處理平臺要求盡可能對每一個概念都能夠提取一定的信息生成相應摘要,而對生成的摘要而言,并不要求其所表達的內容與來源文檔表達的意思完全吻合。因此,在設計多文檔摘要抽取系統(tǒng)時采用了提升段落、句子位置權重的方式提高信息抽取的準確率,這從一定程度上降低了摘要抽取的召回率。從實驗可以看出,系統(tǒng)的準確率達到了一個較理想的狀態(tài)。除了上述主觀因素外,可能還受到了文檔來源比較單一、數(shù)量較少的影響。這些因素在一定程度上提高了準確率,從而可能使多文檔自動摘要的準確率高于真實水平。下一步改進的內容為:擴展多文檔數(shù)據(jù)來源,收集更廣泛的語義數(shù)據(jù)資源(如:出版物關聯(lián)數(shù)據(jù)集),進一步完善關聯(lián)出版物數(shù)據(jù)平臺內容。
結語
用戶眼中的信息空間已經(jīng)發(fā)生了很大改變,不再局限于圖書館等機構內部,而是進入開放的互聯(lián)網(wǎng)環(huán)境。用戶對于信息的關聯(lián)性及可用性更加重視。關聯(lián)數(shù)據(jù)的應用關系到圖書館的發(fā)展前景。在互聯(lián)網(wǎng)高速發(fā)展的形勢下,圖書館在功能和存在價值方面不斷受到挑戰(zhàn),整個局勢較為嚴峻,圖書館界對此應高度重視,積極尋找應對策略。實驗結果說明,本文所提出的方法可以滿足關聯(lián)數(shù)據(jù)構建的要求,但在關聯(lián)出版物數(shù)據(jù)的更高級應用中可能需要本體推理,因此,在基于Protégé構建關聯(lián)出版物數(shù)據(jù)時,需要在類的對象屬性中設置互斥屬性或函數(shù)屬性,但此兩種匿名屬性當類層次較多時容易出現(xiàn)本體不一致的情形,所以,當關聯(lián)出版物數(shù)據(jù)處理平臺在面對海量出版物資源應用時,應增加本體一致性檢測環(huán)節(jié)。
作者:瞿成雄單位:武漢大學信息管理學院