數據管理
數據管理,是利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在於充分有效地發揮數據的作用。
數據管理 | |
---|---|
實現數據有效管理的關鍵是數據組織。隨着計算機技術的發展,數據管理經歷了人工管理、文件系統、數據庫系統三個發展階段。
目錄
定義
數據管理[1]數是利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在於充分有效地發揮數據的作用。實現數據有效管理的關鍵是數據組織。隨着計算機技術的發展,數據管理經歷了人工管理、文件系統、數據庫系統三個發展階段。在數據庫系統中所建立的數據結構,更充分地描述了數據間的內在聯繫,便於數據修改、更新與擴充,同時保證了數據的獨立性、可靠、安全性與完整性,減少了數據冗餘,故提高了數據共享程度及數據管理效率。
管理階段
人工管理階段
20世紀50年代中期以前,計算機主要用於科學計算,這一階段數據管理的主要特徵是:
(1)不能長期保存數據。在20世紀50年代中期之前,計算機一般在關於信息的研究機構里才能擁有,當時由於存儲設備(紙帶、磁帶)的容量空間有限,都是在做實驗的時候暫存實驗數據,做完實驗就把數據結果打在紙帶上或者磁帶上帶走,所以一般不需要將數據長期保存。
(2)數據並不是由專門的應用軟件來管理,而是由使用數據的應用程序自己來管理。作為程序員,在編寫軟件時既要設計程序邏輯結構,又要設計物理結構以及數據的存取方式。
(3)數據不能共享。在人工管理階段,可以說數據是面向應用程序的,由於每一個應用程序都是獨立的,一組數據只能對應一個程序,即使要使用的數據已經在其他程序中存在,但是程序間的數據是不能共享的,因此程序與程序之間有大量的數據冗餘。[1]
(4)數據不具有獨立性。應用程序中只要發生改變,數據的邏輯結構或物理結構就相應的發生變化,因而程序員要修改程序就必須都要做出相應的修改,給程序員的工作帶來了很多負擔。
文件系統階段
20世紀50年代後期到60年代中期,計算機開始應用於數據管理方面。此時,計算機的存儲設備也不再是磁帶和卡片了,硬件方面已經有了磁盤、磁鼓等可以直接存取的存儲設備了。軟件方面,操作系統中已經有了專門的數據管理軟件,一般稱為文件系統,文件系統一般由三部分組成:與文件管理有關的軟件、被管理的文件以及實施文件管理所需的數據結構。文件系統階段存儲數據就是以文件的形式來存儲,由操作系統統一管理。文件系統階段也是數據庫發展的初級階段,使用文件系統存儲、管理數據具有以下4個特點:
(1)數據可以長期保存。有了大容量的磁盤作為存儲設備,計算機開始被用來處理大量的數據並存儲數據。
(2)有簡單的數據管理功能。文件的邏輯結構和物理結構脫鈎,程序和數據分離,是數據和程序有了一定的獨立性,減少了程序員的工作量。
(3)數據共享能力差。由於每一個文件都是獨立的,當需要用到相同的數據時,必須建立各自的文件,數據還是無法共享,也會造成大量的數據冗餘。
(4)數據不具有獨立性。在此階段數據仍然不具有獨立性,當數據的結構發生變化時,也必須修改應用程序,修改文件的結構定義;而應用程序的改變也將改變數據的結構。
數據庫系統階段
20世紀60年代後期以來,計算機管理的對象規模越來越大,應用範圍又越來越廣泛,數據量急劇增長,同時多種應用、多種語言互相覆蓋地共享數據集合的要求越來越強烈,數據庫技術便應運而生,出現了統一管理數據的專門軟件系統--數據庫管理系統。
用數據庫系統來管理數據比文件系統具有明顯的優點,從文件系統到數據庫系統,標誌着數據庫管理技術的飛躍。
面向應用
前面講到數據管理經歷了人工管理、文件管理、數據庫管理等三個階段,主要是利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程。隨着信息技術的進步,管理信息系統將面向大規模的組織提供業務支持,不僅要覆蓋整個組織的各類業務,而且要覆蓋整個組織(全球或者全國)。為此,作為管理信息系統的核心功能,數據管理將要進入一個新的階段,即面向數據應用的數據管理。
面向數據應用的數據管理概念
數據管理,即對數據資源的管理。按照en:DAMA的定義:"數據資源管理,致力於發展處理企業數據生命周期的適當的建構、策略、實踐和程序"。這是一個高層而包含廣泛的定義,而並不一定直接涉及數據管理的具體操作(摘自維基百科)。與百度百科的定義比較,百度百科的定義針對的是數據應用過程中數據的管理,即傳統的數據管理,而維基百科的定義更高一層,針對的是企業數據全生命周期所涉及應用過程數據的管理,即對數據變化的管理,或者說是針對描述數據的數據(元數據)的管理,在此我們稱之為面向應用的數據管理。
根據管理學理論,幾個人的團隊可以靠自覺、自律,幾十個人就要有人管理,幾百個人就要有一個團隊管理,幾千或幾萬人就必須要依靠計算機輔助團隊管理。通常覆蓋全國的企業和機構,其整個組織的管理分為總部機構、省級機構、市級機構、以及基層機構等等各層級機構;在每個層級機構中還設置了直接從事相應業務的管理和職能部門和非直接從事業務的管理和職能部門(如人事、辦公、後勤、審計等);每個部門又是由若干員工為管理對象構成的。同時,還制定了一系列的制度去規範和約束機構、部門、人員等管理對象的活動、行為等。
同樣,數據管理隨着管理對象--數據的增加,管理的方式(階段)也會隨之提升。通常的大型管理信息系統,其整個項目分為總集成、分項目、子項目、每個子項目又有若干內部項目組等等管理層級;在每個管理層級中都涉及直接服務於業務的業務功能(如業務交易、賬務處理、行政管理、結果展現等等)和非直接服務於業務的非業務功能(如定義、配置、監控、分析、記錄、調度等等);每個業務和非業務性質的功能又分別由若干數據集合為對象(如流程、表單、數據項、算法、元數據、日誌等等)所構成的。同時,也需要制定一系列制度、規則和標準去約束項目、功能、數據等管理對象的活動和變化。
由此可見,傳統的數據管理側重的數據對象是流程、表單、數據項、算法等直接面向具體業務需求的數據;面向應用的數據管理所涉及的數據對象,還增加了通過標準化的手段,描述流程、表單、數據項、算法等應用對象的數據(即它們對應的元數據),以及記錄各類數據變化結果的檔案、記錄運行狀態的日誌等等非直接面向業務的數據,以實現對各類應用業務需求的加載、變化、記錄、復用等過程的管理。
面向數據應用的數據管理對象
面向數據應用的數據管理對象。面向數據應用的數據管理所管理的數據對象,主要是那些描述構成應用系統構件屬性的元數據,這些應用系統構件包括流程、文件、檔案、數據元(項)、代碼、算法(規則、腳本)、模型、指標、物理表、ETL過程、運行狀態記錄等等。
通常意義的元數據(Metadata),是描述數據的數據(data about data),主要是描述數據屬性(property)的信息。這些信息包括數據的標識類屬性,如命名、標識符、同義名、語境等等;技術類屬性,如數據類型、數據格式、閾值、計量單位等等;管理類屬性,如版本、註冊機構、提交機構、狀態等等;關係類屬性,如分類、關係、約束、規則、標準、規範、流程等等。而面向數據應用的數據管理所涉及的元數據,主要是描述那些應用系統構件屬性的信息。除了傳統元數據屬性以外,每個不同的構件還有其特有的屬性,比如流程要有參與者和環節的屬性、物理表要有部署的屬性、ETL要有源和目標的屬性、指標要有算法和因子的屬性等等。
每一個構件必然對應一個或多個(一個構件的不同分類)元模型,元模型是元數據的標準,每一個元數據都應該遵循其對應元模型的定義。比如每個數據項(元)都有自己的名字、標識符、數據類型、數據格式、發布狀態、註冊機構等等屬性,這些屬性的集合就是這個數據項的元數據。而每個數據項的元數據都是由哪些屬性描述、每個屬性應該如何描述、以及描述的規則等等約束稱之為元模型。電子政務數據元標準(GB/T 19488.1-2004)就是電子政務數據項(元)的元模型。
傳統的元數據管理通常均在相關業務實現後,通過專門元數據管理系統的抽取功能加載元數據,這種方式由於需要在事後人工地啟動加載或維護(事後補錄業務屬性)元數據的過程,往往很難及時獲取元數據的變化,確保元數據與實際情況的一致性。在實現面向應用的數據管理時,應該採用主動的元數據管理模式,即遵循元模型的標準,通過人機交互過程加載元數據(本地元數據),在可能的情況下同時產生數據對象(應用系統構件)的配置或可執行腳本(如果條件不具備,也要利用人機交互所產生的元數據,作為其它相關工具產生可執行腳本的依據)。每當需要變更配置或修改腳本時,也是通過這個人機交互過程實現,同步產生新的元數據,保證了元數據與實際的一致性。
面向數據應用的數據管理意義和方法
傳統應用系統(Application Systems)往往是針對特定應用的,需要固化需求的,難以支持變化的管理信息系統。而金稅三期項目是建立針對全國性的組織,覆蓋整個組織所有管理業務和所有用戶的管理信息系統。這樣的應用系統,業務需求的"變化"是常態的,"不變"是暫態的;面對整個組織,各部門和層級的業務"不同"是客觀存在的,"統一"是逐步實現的,繼而持續拓展(開始新的不同)的。為此,必須要有一個不僅能提供業務需求的實現,更要能夠提供可支持業務需求的變化,可對它們變化進行跟蹤和管理,可以支持持續優化的用戶體驗的,企業化生產的新型應用系統(AS2.0)產品集合作為支撐。AS2.0中必須對整個組織業務需求的變化過程和結果加以控制、記錄和管理,面向數據應用的數據管理就是AS2.0關鍵基礎構件的一個產品,並且是它可行性的基礎。
傳統應用系統的數據管理所關注的是數據的增值過程,其功能的實現重在關注和強調業務需求內容的加載、內容的ETL、內容的組織、內容的加工以及內容的反映。這些功能的都是通過編碼實現的,固化的軟件代碼。AS2.0的數據管理所關注的增加了元數據的集合、歷史數據的集合和狀態數據的集合,並且利用主動的元數據管理工具進行配置和加載實現的軟件代碼。同時,將其對應的本地元數據匯集形成元數據集合,實現對各種業務需求的變化實施加載,加以捕獲,進行記錄,實現跟蹤達到對變化的管理;將與內容和變化相關的歷史記錄加以標準化的封裝形成檔案,實現歷史資料的組織、復用和卸載等功能達到對歷史的管理;將AS2.0各種構件運行狀態信息實時捕獲,加以記錄,綜合分析,及時反映,實現整個系統運行時狀態的綜合管理。
綜上所述,隨着數據對象拓展了變化的記錄、歷史的記錄、狀態的記錄,標誌着數據管理進入了新的階段--面向數據應用的數據管理,也標誌着應用系統開始進入AS2.0時代。