數據集成技術在檔案管理系統中的應用研究
來源:用戶上傳
作者:丁海斌 趙錦濤
摘 要:隨著文件與檔案數據與日俱增,檔案數據集成已經成為檔案信息資源新的增長引擎,并應用到企業、政務機構、醫療行業等多種場景。通過對數據集成原理、技術與方法的總結發現,數據集成的方法與技術在檔案管理系統中的應用可以建立起自己的實踐屬性突出的語義本體體系并產生自己的獨特作用。數據集成可應用到檔案管理的前端、中端和后端,實現全過程的檔案數據集成化管理,并可以使系統呈現出層次性、精細性、規范性、一致性等特征,提高系統的性能并為實現其他應用場景提供前期基礎。數據集成與檔案管理系統融合擬解決的關鍵問題主要涉及:技術問題、數據質量問題、數據安全問題等。其中,技術層主要針對不同場景的業務數據處理,解決各業務系統中大量的、多源的、異構的數據融合問題;數據層對多源異構數據進行規范化、一致性構建,保障數據質量;應用層保障數據存儲與交換安全,并保證檔案數據處理的響應速度與系統友好性使用。
關鍵詞:數據集成;檔案數據集成;檔案管理系統;語義本體
Abstract: With the increase of documents and archival data, archival data integration has become a new growth engine of archival information resources, and has been applied to enterprises, government agencies, medical industry and other scenarios. By summarizing the principles, techniques and methods of data integration, it is found that the application of the methods and techniques of the data integration in archive management system can establish its own semantic ontology system with outstanding practical attributes and produce its own unique function. Data integration can be applied to the front end, middle end and back end of archival management to realize the whole process of archival data integration, and can show the characteristics of hierarchy, fineness, standardization and consistency of the system, improve the performance of the system and provide a preliminary foundation for other application scenarios. The key problems to be solved by the integration of the data integration and the archival management system mainly involve: technical problems, data quality problems, data security problems, etc. Among them, the technical layer is mainly aimed at the large number of business data processing of different scenarios, and the multi-source, heterogeneous data fusion. The data layer builds the multi-source heterogeneous data in a standardized and consistent manner to ensure the data quality. The application layer guarantees the security of data storage and exchange, and ensures the response speed of archival data processing and the friendly use of the system.
Keywords: Data integration; Archival data integration; Records management system; Semantic ontology
n案數據是社會和經濟發展的基礎性戰略資源,檔案數據集成也是檔案信息化建設中的一個重要環節。檔案數據從靜態數據到動態信息流和智能化開發利用,其影響力和潛力是巨大的。檔案數據集成問題成為當前解決大規模電子文件歸檔和驅動實現數字化、數據化檔案管理單軌制的重要手段。隨著“云物移智區”等新信息技術與應用的迅速發展,檔案管理已經過渡到數據化階段,各種格式的檔案數據已經成為檔案信息傳遞和保存的基本形式。數據集成的發展從結構集成、語法集成和系統集成向語義集成發展,檔案數據集成的方法與技術已經涉及各個行業,并成為檔案數據深度利用與開發的重要前提。
盡管數據集成技術已經應用在檔案管理系統的眾多場景中,但研究者對其認識還很不充分,尤其是在檔案管理系統中的應用還有較大的研究與實踐發展空間。因此,本文從檔案管理系統建設的視角出發,梳理數據集成的方法與技術,探究檔案管理全過程中數據集成與系統融合存在的關鍵問題,從而為檔案管理系統集成工作提供較全面較系統的理論參考。
nlc202302061855
1 數據集成研究現狀
1.1 數據集成概念。信息資源建設存在階段性和分布性的特點,造成“信息孤島”的存在,影響數據的整體性與一致性,從而導致數據的協同性和利用率降低,影響數據作用的發揮,由此,數據集成的研究受到廣泛重視。
圖1 數據集成過程
數據集成是對數據源進行融合,把不同來源、格式、特點、性質的數據在邏輯上或物理上有機地集中,通過集成將自治異構數據源結合起來,為用戶提供統一的集成數據視圖,揭示數據之間的聯系,挖掘其潛在價值,從而為用戶提供集中管理與全面數據共享的條件。
1.2 數據集成的方法與技術
1.2.1 數據集成的方法
1.2.1.1 基于元數據方法。元數據是關于數據的數據,是描述本體的內容、結構、背景及其整個管理過程的數據?;谠獢祿椒ǖ臄祿桑沁\用元數據對數據資源進行描述,完成多個異構數據源之間的信息交換、集成、同步等操作,實現異構數據資源整合利用。元數據方法通過編寫受控詞表,確定元數據語義描述標準,設置元數據語義化映射模式,對不同系統的數據進行集成。[1]然后按照一定的映射規則將自己的元數據記錄轉換成中心元數據存儲在數據庫中。
元數據方法能夠很好地體現檔案數據元素之間的語義關系,按照元數據組織信息資源的功能分為:知識描述元數據、結構元數據、訪問控制元數據和評估元數據。根據不同的功能需求建立相應的詞表對特定領域的檔案數據共享具有參考價值和指導意義。但是也存在一些局限性:元數據所提供的數據描述信息不夠完備,數據處理過程、數據使用說明、數據來源及引用信息等需要借助完整的數據文檔提供。為了涵蓋盡可能多的知識,元數據的條目越來越多,而且不同行業領域的元數據標準各異,導致數據源之間的互訪困難。不同格式類型和專業領域的檔案數據采用不同的元數據標準,由于缺乏跨領域共享概念模型的支持,元數據方法無法實現不同領域之間異構檔案數據的語義集成。
1.2.1.2 基于語義本體的方法。在信息科學領域,本體是對某一領域中的概念及其之間關系,運用機器可讀的語義表達方式進行顯性描述,通過構建領域本體建立各數據源之間的映射關系網絡?;谡Z義本體的數據集成系統,用戶能夠通過對本體描述有效訪問多個數據源中的數據。目前基于本體技術的數據集成的方式主要分為:單本體、多本體、混合本體方法三種模式。值得注意的是,檔案語義本體具有顯著的實踐性和客觀性,能夠建立實踐屬性突出的語義本體體系。
1.2.1.3 基于關聯數據方法。關聯數據對代表同一過程來自不同局部節點的數據進行關聯,它采用RDF數據模型,使用統一資源標識符(URI)命名數據對象,描述數據對象及其關聯關系和語境信息,通過HTTP協議發布和共享數據、知識,構成人和機器都能夠獲取的數據關聯網絡。[2]
關聯數據集的構建是一個繁雜、系統工程,將多源異構的數據通過關聯數據的方式對數據和知識進行再組織,使之形成關聯化、結構化、有序化語義信息,運用字典或語義庫的屬性列(“屬性列是以關系數據庫中的特征/列為單位進行數據存儲,將具有相同特征值的實體存儲在一起,而某一實體中的不同屬性值則存儲于不同的存儲單元中?!盵3])語義匹配、利用儺粵心諶菹嗨菩耘卸蝦褪褂悶鈾乇匆端寡習算法計算屬性列相似概率等方法發現實體之間的關聯。[4]
1.2.2 數據集成的技術
1.2.2.1 開放網格服務架構下的數據訪問與集成技術。OGSA-DAI是一種廣泛使用在網格中集成數據資源的中間件。其中網格是集成基礎設施,能夠在動態、分布式虛擬組織中共享和協同各種數據資源,數據網格作為一種數據處理架構,實現了網格環境中的數據訪問、交換和共享。其通過將關系數據庫、XML數據庫以及文件系統等不同數據源中的異構科學數據封裝為網格服務并構建數據網格。分布式數據資源的格式、模式、質量、訪問機制、功能是多種多樣的,通過數據網格能夠在數據受控和安全的前提下,實現大量異構數據集的協調與共享。[5]
OGSA-DAI技術可以在尊重本地策略的情況下跨特定域使用計算資源,通過備份數據的方法提高可靠性、可用性。其次,提供了一站式訪問異構數據資源的方式,提高數據集成工作的效率。同時,允許數據提供者保留對原始數據的控制,保證了數據的安全性。
1.2.2.2 人工智能技術。人工智能是計算機系統正確地解譯外部數據,從這些數據中進行學習,并通過靈活運用所學知識實現特定目標或完成特定任務的能力。涉及的技術較多,如利用機器學習、數據挖掘、知識圖譜等呈現數據資源的全景視圖。利用統一的資源描述框架描述多模態的數據資源,然后利用基于知識庫與本體庫的雙向嵌入式學習、遷移學習方法挖掘和抽取數據資源中的知識,將多源異構數據和知識從概念層和實例層進行對齊,融合到一個全局視圖的全景化知識圖譜中。[6,7]
人工智能技術具備高維非結構化數據分析處理能力,基于人工智能技術的科學數據集成方法具有高效構建科學數據關系網絡和挖掘科學數據關聯資源的優勢,可以實現大規模多源異構科學數據的融合管理。人工智能雖然在技術成熟度和應用生態方面存在不足,但隨著技術的發展和應用的深入,人工智能將成為今后數據集成的主流技術。
1.2.2.3 開源軟件技術。開源軟件是允許用戶根據開源許可證及其協議要求,自由使用、修改和分發軟件的源代碼。開源軟件為數據集成提供了低成本、高效率的技術工具,但是很多開源軟件沒有可視化操作界面,而且需要二次開發適用的插件,技術要求和開發成本較高,并且經過二次開發的開源軟件其通用性和重用性較差。
1.3 檔案管理系統數據集成。檔案管理系統數據集成研究存在兩種研究視角。其一是將數據集成視為一種檔案數據的管理方式,重點研究運用數據集成方式設計出檔案數據集成方案。該類研究強調在管理方面突破檔案常規管理模式,用集成管理的方式提高檔案管理效率[8];其次,重視在單軌制管理模式下,從業務流程和歸檔流程等過程入手,運用集成的方式提出具體的實施策略[9];同時,運用數據集成方式實現檔案數據的共享利用,通過對數字化檔案數據的管理推動相關工作的全面發展[10]。整體而言,該類研究提出的檔案管理系統集成的方案與措施,難以有效地指導一般檔案管理系統集成實踐的開展。
nlc202302061855
其二是將數據集成技術融入檔案管理系統的構建中,著重分析檔案管理系統集成的實現方案?,F有的研究主要是面向前端業務系統的集成研究,面向的是OA系統、ERP系統、網上行政審批平臺等;其次,重點運用集成技術構建檔案管理一體化平臺設計方案,面對的主體是:高校平臺[11]、醫療平臺[12]、企業平臺[13]、政務平臺[14]。整體而言,該類研究能夠對于檔案數據集成平臺構建提供較為可行的理論指導。
綜上所述,當前數據集成技術在檔案管理和檔案管理系統研究中已經取得一定的成果,一方面能夠為檔案數據集成管理和共享利用提供宏觀的管理性指導方案。另一方面,對于在實踐中具體構建集成化檔案管理系統提供可行性方案。但是,相關研究在全過程、多方位的檔案管理系統數據集成中存在不足,缺少系統的、全面的對數據集成在檔案管理系統應用中的理論指導。
2 數據集成技術在檔案管理系統中應用的特點與必要性
2.1 數據集成技術在檔案管理系統中應用的特點。數據集成技術應用到檔案管理系統中,涉及檔案從采集到歸檔利用的全部流程,涉及人員組織集成、業務集成、數據集成、制度集成、安全集成等多維度內容。整個系統從宏觀到微觀層面來看,具有系統結構層次性、管理方式精細性、數據結構規范性和元數據一致性四個特征。
2.1.1 系統結構與集成過程層次性。數據集成在檔案管理系統中應用的目的,在于為各種目標的集成提供標準規則和實踐指導,其應用必須同時滿足電子文件歸檔的基本要求和信息系統集成的必要條件。
為了達到電子文件歸檔的基本要求,檔案管理系統以實踐本體論、系統工程理論和全程管理理論為指導。首先,要以檔案實踐本體論和檔案工作根本原則(保持與人類實踐活動的一致性)[15]為指導,保持與對應的業務活動的一致性;其次,系統工程理論和全程管理理論對檔案數據集成過程提出了系統化、整體化、全程化的要求,涉及檔案數據從低層次向高層次流轉的全過程,包括數據的采集、整理、歸檔、利用全過程,必須保證電子文件在不同系統內管理與保存的內在協同性。最后,全程管理要求數據集成在檔案管理系統中,既要考慮框架構建思路、要素內容和設計理念彼此之間的協調一致,又要體現出系統的事前規劃、事中管控、事后監督的管理能力。
針對信息系統集成的必要條件,檔案管理系統設計需參照信息系統集成理論,運用層次劃分技術對框架涉及的必備要素進行科學的劃分。信息系統集成理論能夠為不同的信息系統間的集成提供方法論指導,涉及集成原則、集成技術、集成方法與集成框架等內容。檔案數據集成過程是涉及眾多要素的系統性工作,檔案數據體量大并且具有多源異構的特征,但是它們各要素之間具有一定的關聯屬性。因此,檔案管理系統的建設要對涉及的各主體、各要素進行科學的劃分,在信息系統集成理論的基礎上構建結構完整、層次分明、體系完備的集成框架。
2.1.2 系統要求與管理方式精細性。數據集成在檔案管理系統中應用,需要保障系統在信息傳輸、交換、存儲和處理過程中保持電子檔案數據的完整性、可靠性以及機密性,可實現電子檔案單軌制管理、智能化開發、大范圍共享等檔案信息化發展的需要。其次,系統處理的對象,不僅有數據,還有知識;系統能夠對用戶使用情況進行自動跟蹤,實現使用過程自動留痕。并且對收集的檔案文件進行自主識別、自動分類歸檔,實現檔案智能化整理。
數據管理與集成是全流程的活動,數據集成是全流程管理的關鍵因素。它研究的重點包括數據采集、異構數據整合、數據共享、數據標準的一致性等內容。其中,數據采集和數據標準一致性是數據集成的主要推動因素。從單純的多種類型數據集成到檔案數據管理全過程的集成,涉及和考慮的內容增加,對檔案數據的管理也從事中管理擴展到前端控制和后端控制。因此,它對于系統要求和管理方式要更加精細化,并且要有一定的擴展性和適應性。
2.1.3 數據結構與存儲方式規范性。檔案管理系統建設要符合國家、行業標準規定的多種門類、多種格式的電子檔案:支持對多個全宗、多個檔案門類的集成管理;并且對各個全宗及每個全宗內不同門類檔案實施不同的分類方案;同時要求在多個檔案分類方案間建立映射或關聯關系,保障對所有類型電子檔案的集成管理以及對不規范的電子檔案進行自動的過濾、提醒和處理。
數據集成的應用要求檔案數據的歸檔和元數據的標準要具有一致性和標準性,首先需詳細了解檔案數據的特性,提出具有針對性的數據結構的描述方式、元數據的內容、XML(可擴展標記語言)的表述方式等,確定元數據中必要或可選的元數據信息,最終確定元數據項目的數據類型。在此基礎上構建的數據結構,不僅可以對檔案數據的本體進行描述與定義,也能夠體現復雜數據之間的層次性,使其形成的數據、結構呈現連續性和完整性,從而保障存儲方式的規范性。檔案數據具有數據量大、多源異構的特征,用戶對于操作處理速度、數據安全也有較高的要求。因此,數據集成技術應用能夠提升數據處理效率,其關鍵性因素需要保障數據的存儲效率和數據一致性。
2.1.4 元數據標準與數據交換一致性。數據集成技術要求檔案管理系統結構具備開放性,可實現與其他系統的功能集成、數據交換與共享。第一,提供開放的應用接口功能,支持與電子檔案檢測工具、電子檔案格式轉換工具、報表生成工具、工作流程定義工具、稻荼阜縈牖指垂ぞ叩鵲諶方工具的功能集成;第二,提供開放的數據接口功能,支持與其他電子文件管理系統、辦公自動化系統等系統的數據集成;第三,支持與異構系統進行規范格式的電子檔案信息交換,保障其他檔案管理系統或電子文件管理系統實現業務過程的銜接和數據的交互;第四,尤其是對新技術、新平臺的應用兼容和數據遷移,保證系統功能后續的修改和升級。
元數據標準的構建是元數據一致性的保障,一致性要求宏觀上要與國家標準、行業標準保持一致,微觀上保持數據結構、描述方式、構建方式一致,為檔案數據存儲、共享與交換、利用提供便利。數據集成技術與功能協同需要元數據標準與數據交換一致性,模塊化、專業化、一體化的元數據建設是數據集成的基礎工作。
nlc202302061855
2.2 數據集成技術應用的必要性
2.2.1 技術層面。首先,數據集成技術更加完善,通過集成能夠提供更有價值的數據。從數據集成到集成式的檔案管理系統,不僅能夠使最終的數據更加準確,而且能夠提高數據的質量。其次,能夠改善人員、系統、數據的協作與統一,提升了響應速度。數據集成能夠通過網絡直接訪問數據庫中數據,實現數據共享,數據集成的協作與統一,改善組織結構協作問題與效率問題。檔案數據體量大,有效數據集成能夠促進數據的智能化分析,統一的存儲環境能夠實現數據的同時訪問,運用人工智能技術實現數據間邏輯的關聯。
2.2.2 經濟層面。首先,數據集成能夠縮短數據準備和數據分析時間,統一視圖的自動化流程破除用戶手動收集資料方式。傳統的數據存儲在不同的位置和過程中,數據集成的應用使其統一存儲在數據庫中,能夠保障數據完整性、及時性和準確性,數據的實時更新與實時收集、集成能夠保障數據集成質量、數據的新鮮度,減少因為數據集成質量較低而增加的經濟成本。其次,通過AI,數據集成能夠實現即時的正反饋循環,通過數據集成整合生成的數據集支持決策的完善。傳統檔案管理系統需要安裝在中心大型服務器上,初期的建設成本和維護成本較高,但是通過數據集成把其存儲和運行都放置在云環境中,可以根據數據存儲量的大小按需支付費用,相比于傳統的系統運作的方式更加的經濟實惠,能有效地降低維護成本和運營時間。
2.2.3 社會層面?!皺n案是社會運行與治理的重要經驗基礎。人類的任何一種實踐活動,都以人類思維作為出發點,都要從思維到行動,而人類思維需要相應的經驗基礎。檔案在人類實踐活動中具有特別重要的經驗基礎作用。”[16]檔案數據量在不斷地增加,用戶更迫切地需要應用技術手段去解決繁雜無序的數據,數據集成技術應用也必不可少。信息化時代,用戶主體辦公主要通過在線完成,不同應用生成的數據量在不斷地增加,降低服務器運行的效率。通過運用數據集成技術把數據存儲、數據交換、數據運算處理在云端進行,能夠解決用戶數據管理和利用的難點。對各主體的業務流程和管理過程存在信息不對稱、視覺盲點等問題,通過對數據的全過程進行集成,系統能夠及時地發現問題并提醒,數據集成能夠改善人主觀能動性所關注不到的內容。把數據、信息、流程集成起來,通過計算機的處理邏輯能夠使管理過程更加高效,特別是為智能化開發提供必要的數據完整性條件。
3 數據集成應用檔案管理系統擬解決的關鍵問題
3.1 檔案收集與技術協同。大數據時代,檔案管理數字化轉型以及檔案數據處理技術不斷應用推廣,使各主體形成的檔案數據體量巨大。由于檔案數據政策法規制度缺失和檔案數據結構復雜,可能導致檔案數據惡意篡改;數據資源難以整合利用,形成“數據孤島”、冗余數據的存儲消耗大量存儲資源等。這些問題均對檔案管理系統中檔案收集節點提出了更高的技術要求。
檔案收集工作涉及歸檔部門發布歸檔通知、業務部門整理各自需歸檔的材料、移交/接入歸檔部門、歸檔部門驗收并保存入庫。它的歸檔流程涉及人員和部門較多,由于檔案收集工作較瑣碎,勢必會造成部分檔案的錯漏,影響檔案數據整體價值的發揮。同時,由于使用業務系統的多樣性,造成不同系統之間的數據種類、格式、結構各異。還有,目前許多業務系統不具備歸檔功能,導致電子文件無法通過系統自動歸檔和系統協同。因此,數據集成技術應用需要保障檔案管理系統的開放性與協同性,保障對檔案收集中各流程的節點合理集成的基礎上,也要考慮不同系統之間的數據接入的一致性。
3.2 檔案管理與數據安全。檔案管理已經進入信息化管理與智能化管理階段,大數據技術在檔案采集、檢驗、存儲等各個方面被廣泛應用,檔案管理融合了互聯網、物聯網、智聯網,并向智能化管理方向發展。盡管,數據集成的方式能夠使大數據在云計算平臺上進行處理和查詢、云計算可以按需付費提供各種彈性和可擴展的IT服務,但也帶來了隱私和安全問題。檔案數據集成能夠打破數據孤島、實現數據資源共享,但是集成化數據資源暴露在網絡環境中,信息竊取者利用先驗知識背景和海量數據的相關性來竊取敏感信息。另外,不同系統的數據源分布在不同的設備和存儲系統中,依靠網絡進行數據的傳輸,這對于數據的安全性保障提出了更高的要求。
3.3 檔案利用與數據質量。構建智能化、便捷化的檔案信息化管理系統的目的是保證檔案的存在形式、存在方式、管理模式、運行模式實現數據化、集合化、單軌化、實時化。[17]保障檔案智能化利用的前提是擁有高質量的集成化檔案數據。檔案數據的集成化、完整度、一致度越高,智能化利用和開發的效果就會越好。盡管數據集成技術能夠對多源異構數據進行整合,但是由于被集成的數據源來自不同的渠道,其數據模型呈現異構性,主要體現在語法異構、數據語義異構、數據源使用的環境異構等。由于不同數據源的實體關系建模時采用不同的命名規則、不同顆粒度劃分,造成數據源間的語義異構。復雜的關系模型也是數據集成的重、難點。另外,不同系統中的數據源具有較強的自治性,統一數據集成會改變數據自身結構,造成數據失真,影響數據質量和數據集成效率與真實性。因此,數據集成在檔案管理系統中,提高數據質量、保障檔案智能化利用方面是需要重點P注。
4 解決方案
隨著大數據技術的迅猛發展,各行業愈發重視檔案數據潛在的巨大價值,把人工智能技術應用到多維度、多源異構的數據挖掘中。檔案管理系統在數據集成的基礎上形成的數據是有序化、結構化、體系化的數據,能夠實現數據的深度分析和挖掘,保證數據的多維度高效檢索,為用戶提供數據分析依據。
4.1 智能化歸檔保障技術協同。傳統電子檔案收集出現的問題包括:重要數據缺失、數據異常、數據不一致、數據重復或者錯誤。因此,在智能化歸檔中應用數據集成技術,能夠提高歸檔效率。檔案數據集成包括多方面集成,不僅涉及人員組織集成、制度集成、基礎數據集成,而且包括安全集成、業務過程集成等內容。
nlc202302061855
在人員組織集成和業務過程集成中,要更加重視檔案人員素質的培養,制定合適的數據質量管理角色,劃分單獨的組織架構,在業務過程中落實追責制度,保障數據在采集和形成中提高數據質量,保障從數據形成的源頭提高檔案數據質量。
在制度集成和基礎數據集成過程中,嚴格制定數據質量的規范,提升數據一致性,依據已有的國家或者行業數據標準、監管要求、行業規范等內容,以及現階段影響數據質量的因素,結合業務集成過程中檔案本體提出標準的元數據項,元數據項之間的繼承、聯動等關聯關系,形成標準電子檔案元數據和目錄數據池。尤其要注意的是檔案語義本體體系的構建,從檔案本體的概念、概念關系、屬性、屬性關系、層次結構等多個方面的內容進行解析,各元數據的分類體系的定義需與機構預先明確的電子檔案的密級、保管期限、分類規則和其他特殊要求等進行關聯,以便實現電子檔案的自動、批量的捕獲與接收,集成數據系統中構建的分類體系按照層級進行組織。
在基礎數據集成中,整合數據資源,支持接入多個來源、不同結構的數據,統一數據口徑。解決基礎數據在整合過程中不同數據源的劃分標準和元數據不一致問題,保障基礎數據集成后數據集的質量。
4.2 一體化管理保障數據安全。數據集成在檔案管理系統中應用,能夠更好地實現檔案管理人員、檔案系統、業務流程三者之間的協同。但是在檔案數據集成過程中仍然存在影響檔案數據安全的因素:原始數據被惡意篡改的題、數據存儲中被盜取和丟失的問題等。因此,在檔案管理的一體化過程中更加注重保障數據安全。
檔案管理系統在人員組織集成中會對不同的相關人員進行分級、分層地設置相應的操作權限,能夠防止非授權訪問,保存電子檔案管理關鍵業務過程記錄,保障電子檔案安全:第一,支持系統管理員、網絡管理員、安全管理員、檔案館(室)檔案管理員、歸檔單位檔案員、檔案利用者、檔案館(室)領導、各歸檔單位領導等多種用戶角色的定義;第二,支持分級授權、一人多崗、一崗多人、易崗易權的管理要求;第三,記錄電子檔案管理的關鍵業務過程信息,形成完備的系統運行日志,并且在安全集成中記錄每份數據的操作痕跡,加入二維碼技術,通過掃描即可顯示按照時間順序生成的操作記錄。
此外,在安全系統設計中集成了“可信訪問認證+生物識別(指紋或人臉等)”技術和水印技術??尚旁L問認證技術是安全可信的檔案管理系統建設的技術基礎和重要保障,通過密碼技術、區塊鏈技術等對系統訪問人員進行限制認證,在一定程度上保證訪問人員身份的安全合法。生物識別技術包括人臉識別和指紋識別、乃至視網膜掃描與肢體動作識別認證技術,主要基于生物體特征,對實體身份進行驗證。目前,這兩項技術已經在考勤、門禁、刑偵等多個行業場景中使用,能夠保證檔案管理系統登錄的可信認證。在人員集成中對于每個工作人員以及用戶均設置“用戶名”的水印技術,具有強制性,每份脫離檔案數據庫的文件都會生成專門的文件水印,從而可以進行文件追蹤溯源,減少檔案數據被盜取和丟失的情況以及可以實現較精準的問責。
4.3 精細化管理保障數據質量。檔案管理系統要求檔案數據有較高程度的顆粒度精細性、數據關聯精準性以及數據結構標準化,這對檔案數據質量提出更高的要求。因此,從數據集成的四個層次來對數據進行分類,抽取、轉換、加載,從而形成標準化、精細化的數據集,在集成的過程中嚴格遵從檔案語義本體的特殊屬性。
數據集成可分為基本數據集成、多級視圖集成、模式集成、多粒度數據集成?;緮祿芍凶钪匾氖荱RI(通用資源標識符)問題,對于不同系統源中的描述存在一定的差異;多級視圖集成按照低層次向高層次的方式對數據源之間的關系進行集成,其中不同層次間的格式不同,底層數據表示方法為局部模型格式、中間數據表示方法為公共模塊格式、高級數據表示方法為綜合模型格式;模式集成是按照設計好的數據庫進行數據的集成;多粒度數據集成作為異構數據集成中的難點問題,可分為數據綜合和數據細化兩個方面:數據綜合即實體特征提取和歸并的過程,將高精度數據經過抽象轉化為低精度數據。數據細化則是獲取更高精度的數據。
檔案數據集成的數據一般源自多個系統和數據庫,形成的數據格式和元數據存在不一致情況,檔案數據具有多源異構的特征。在基礎數據集成中,根據行業法規涉及通用標識符,通過形成的元數據庫對數據進行描述,形成實體與數據之間的映射關系,通過數據關聯構建數據間的網絡體系,使之形成關聯化、結構化、有序化語義本體信息,為集成檔案數據集的智能化開發提供數據基礎。還有,在基礎數據集成的過程中會形成不同類型的數據庫,各數據庫之間會有層級之分,把低層次的局部視圖,運用視圖集成的方式與高層次視圖有機地融合起來,綜合成一個系統的總視圖。在視圖集成中,對不規范的電子檔案進行自動的過濾、提醒和處理,生成初步E-R圖(“實體―聯系圖,Entity Relationship Diagram,提供了表示實體類型、屬性和聯系的方法,用來描述現實世界的概念模型” [18]),然后進行修改和重構,消除不必要的冗余數據,最終生成基本E-R圖。
檔案數據質量的提高除了基礎數據的集成外,對于檔案歸檔的前端和后端也提出相應的要求。因此,在檔案管理過程中人員組織集成、制度集成、業務過程集成需要相互協同,將其落實在常態化管理過程中,充分發揮檔案數據價值。同時,協調系統內部各要素的相互作用,實現檔案數據的全過程管理,從而保障在檔案管理系統中實現檔案數據的智能化利用水平。
5 總結
數據集成技術與理論在檔案管理系統中應用,能夠為業務系統集成和檔案數據管理全過程集成提供理論與技術支持,明確檔案管理系統應用數據集成技術應該要解決的數據質量、數據安全、異構數據集成等關鍵問題。在對應的解決方案中使人員組織集成、制度集成、業務過程集成、基礎數據集成、安全集成等全過程融入系統管理集成中,從技術層、數據層、應用層共同構建規范化、一致性、全過程的集成式檔案管理系統。但是,由于不同業務系統的應用場景中,具有特征鮮明的數據結構,并且檔案與檔案管理的實踐性、復雜性決定了要具體問題具體分析。未來研究與實踐工作要以數據集成方法與技術為指導,以檔案工作實踐為導向,不斷完善集成化檔案管理系統的內容,使之更具友好性、集約性和全面性。
nlc202302061855
*國家檔案局科技課題“面向全程溯源的公路建設項目檔案數據集成技術及其應用研究”(2021-X-04)階段性成果。
參考文獻:
[1]Guerrero J I,García A,Personal E,et al.Heterogeneous data source integration for smart grid ecosystems based on metadata mining[J].Expert Systems with Applications,2017,79:254-268.
[2]馬費成,趙紅斌,萬燕玲,楊東晨,賴潔.基于關聯數據的網絡信息資源集成[J].情報雜志,2011,30(02):167-170+175.
[3]Mountantonakis M,Tzitzikas Y.Large-scale semantic integration of linked data:A survey[J].ACM Computing Surveys(CSUR),2019,52(05):1-40.
[4]陶冶,郭童,丁香乾,侯瑞春,初佃輝.基于動態探針的企業數據空間實體關聯構建方法[J/OL].計算機集成制造系統:1-13[2022-09-13].
[5]Muppavarapu V,Chung S M.Semantic-Based Access Control for Data Resources in Open Grid Services Architecture-Data Access and Integration(OGSA-DAI)[M]//Information Retrieval and Management:Concepts,Methodologies,Tools,and Applications.IGI Global,2018:1701-1725.
[6]Ma Z,Kim S,Martínez-Gómez P,et al.IEEE Access Special Section Editorial:AI-Driven Big Data Processing:Theory,Methodology,and Applications[J].IEEE Access,2020,8:199882-199898.
[7]Carlos R C,Kahn C E,Halabi S.Data science:big data,machine learning,and artificial intelligence[J].Journal of the American College of Radiology,2018,15(03):497-498.
[8]高玲俐.OA背景下高校檔案集成管理研究[J].檔案與建設,2020(11):65-66.
[9]王強,吳志杰.業務系統與檔案管理系統歸檔集成框架:構建與內涵解析[J].中國檔案,2021(03):77.
[10]王宇蓉.試論以檔案管理為核心的數字化醫院構建[J].檔案管理,2018(04):88-89.
[11]林慕嬋,梁鳴.“互聯網+”環境下高校數字檔案資源共享平臺建設――以華南農業大學為例[J].中國檔案,2020(02):60-63.
[12]楊淑紅,楊春茂.醫院檔案管理信息系統集成研究[J].電子技術與軟件工程,2021(19):178-179.
[13]王強,吳志杰.業務系統與檔案管理系統歸檔集成框架:構建與內涵解析[J].檔案學通訊,2020(06):45-53.
[14]王佑祥.政府電子文件單軌制管理模式研究[D].吉林大學,2021:1.
[15]丁海斌.檔案學本體論――兼談檔案學的根本原則[J].檔案學通訊,2015(06):14-19.
[16]丁海斌.關于檔案工作與社會治理的三個問題[J].檔案學通訊,2022(04):102-104.
[17]丁海斌.談檔案信息化革命質變的原因與內涵[J].檔案管理,2022(03):5-13.
[18]薩師煊,王珊編著.數據庫系統概論[M].北京:高等教育出版社,1983:19.
?。ㄗ髡邌挝唬憾『1螅瑥V西民族大學管理學院、廣西數字檔案管理研究所;趙錦濤,廣西民族大學管理學院 來稿日期:2022-08-20)
nlc202302061855
轉載注明來源:http://www.hailuomaifang.com/4/view-15444754.htm