數據集成解決方案
—、解決方案簡述
1、 方案簡介與功能目標
在生產企業中,由於開發時間或開發部門的不同,往往存在多個異構的、運行在不 同的軟硬件平台上的信息系統同時運行,這些系統的數據源彼此獨立、相互封閉,使得 數據難以在系統之間交流、共享和融合,從而形成了」信息孤島」。隨着信息化應用的不斷深入,企業內部、企業與外部信息交互的需求日益強烈,急切需要對已有的信息進行 整合,聯通「信息孤島」,共享信息。
企業實現數據共享,可以使更多的人更充分地使用己有數據資源,減少資料收集、 數據採集等重複勞動和相應費用。但是,在實施數據共享的過程當中,由於不同用戶提 供的數據可能來自不同的途徑,其數據內容、數據[1]格式和數據質量千差萬別,有時甚至會遇到數據格式不能轉換或數據轉換格式後丟失信息等棘手問題,嚴重阻礙了數據在各 部門和各軟件系統中的流動與共享。因此,如何對數據進行有效的集成管理已成為增強 企業商業競爭力的必然選擇。
東軟SaCa Datalntegration數據集成解決方案是一系列數據整合產品集合,支持使用 系統的方法來解決各類企業如今所面臨的信息整合難題。一體化的解決方案能夠透明地 管理當今企業各類系統中的龐雜數據,支持各種類型的業務系統數據的整合、交換和共 享,形成一套準確、乾淨、完整的數據集合,從而協助各類生產企業降低生產成本,提 升企業的運營、管理效率,提升技術能力和科技價值。
2、 技術體系與技術特點
東軟SaCa Datalntegration解決方案在充分理解和融合企業業務管理戰略的基礎上, 運用了先進的技術體系,協助企業數據信息管理的改革與發展,滿足企業未來發展戰略 的需要:
(1) 選擇標準、成熟、主流、先進的信息技術
選擇標準、成熟、主流、先進的信息技術,一方面保證企業數據集成體系的技術 領先性,應對當前以及未來業務需求的變化帶來的挑戰。另一方面可以有效減低技術選 型帶來的潛在風險。選擇以Java2EE為核心技術路線,嚴格遵循相關的技術標準規範, 同時綜合運用雲計算[2]和大數據有關的技術,如分布式計算技術、分布式緩存技術等先進 的技術。
(2) 選擇自主可控的產品和技術
基於「安全可靠、自主可控」的重要業務需求,綜合分析企業項目的建設目標、業 務場景、運行環境、數據類型等要求,合理採用具有自主知識產權、擁有自主專利的基 礎硬件、基礎軟件產品。
在存儲層的搭建方面,考慮到關係型數據庫、非關係型NoSQL數據庫和分布式文 件系統三種存儲方式共存的潛在需求,根據實際的情況選擇不同的存儲模式。為了數據 的存儲能力和讀取方便性,選擇適合的數據庫產品,並且對存儲層進一步的封裝,形成 一個統一的大數據存儲服務層,簡化應用實現的複雜度。
(3) 綜合運用分層、分割、分布式等成熟的架構模式
構建企業數據集成方案的技術架構,需要綜合運用分層、分割、分布式、集群等成 熟的架構模式是極為必要的。分層、分割是模塊化設計的重要手段,縱向上劃分為基礎 設施層、數據存儲層、技術支撐層、業務運行層和綜合管理層,各層之間相互獨立,每 個層次可獨立進行擴展和演化,下層為上層提供服務,不允許隔層調用,層間通過消息 及依賴調用的方式合成一個完整的系統。
(4) 基於並行計算技術提升系統處理能力
並行計算(Parallel Computing)是指同時使用多種計算資源解決計算問題的過程, 是提高計算機系統計算速度和處理能力的一種有效手段。並行計算的基本思想是將被求 解的問題分解成若干個部分,各部分均由一個獨立的計算單元並行處理。並行計算可以 劃分成時間並行和空間並行。時間並行即流水線技術,空間並行使用多個處理器執行並 發計算。並行計算又可分為數據並行和任務並行。
分布式計算是並行計算的一種特例。分布式計算和並行計算的相同之處都是大任務 化為小任務,並行處理。不同之處體現在:分布式計算的任務包之間相互獨立,不會相互影響,上一個任務的執行結果未返回或者是結果錯誤,對下一個任務的處理幾乎沒有 什麼影響。
參考文獻
- ↑ 數據的來源以及數據是什麼?,搜狐,2021-07-26
- ↑ 一文讀懂雲計算(cloudcomputing)的概念,搜狐,2022-07-19