数据集成解决方案
—、解决方案简述
1、 方案简介与功能目标
在生产企业中,由于开发时间或开发部门的不同,往往存在多个异构的、运行在不 同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得 数据难以在系统之间交流、共享和融合,从而形成了”信息孤岛”。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行 整合,联通“信息孤岛”,共享信息。
企业实现数据共享,可以使更多的人更充分地使用己有数据资源,减少资料收集、 数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提 供的数据可能来自不同的途径,其数据内容、数据[1]格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各 部门和各软件系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强 企业商业竞争力的必然选择。
东软SaCa Datalntegration数据集成解决方案是一系列数据整合产品集合,支持使用 系统的方法来解决各类企业如今所面临的信息整合难题。一体化的解决方案能够透明地 管理当今企业各类系统中的庞杂数据,支持各种类型的业务系统数据的整合、交换和共 享,形成一套准确、干净、完整的数据集合,从而协助各类生产企业降低生产成本,提 升企业的运营、管理效率,提升技术能力和科技价值。
2、 技术体系与技术特点
东软SaCa Datalntegration解决方案在充分理解和融合企业业务管理战略的基础上, 运用了先进的技术体系,协助企业数据信息管理的改革与发展,满足企业未来发展战略 的需要:
(1) 选择标准、成熟、主流、先进的信息技术
选择标准、成熟、主流、先进的信息技术,一方面保证企业数据集成体系的技术 领先性,应对当前以及未来业务需求的变化带来的挑战。另一方面可以有效减低技术选 型带来的潜在风险。选择以Java2EE为核心技术路线,严格遵循相关的技术标准规范, 同时综合运用云计算[2]和大数据有关的技术,如分布式计算技术、分布式缓存技术等先进 的技术。
(2) 选择自主可控的产品和技术
基于“安全可靠、自主可控”的重要业务需求,综合分析企业项目的建设目标、业 务场景、运行环境、数据类型等要求,合理采用具有自主知识产权、拥有自主专利的基 础硬件、基础软件产品。
在存储层的搭建方面,考虑到关系型数据库、非关系型NoSQL数据库和分布式文 件系统三种存储方式共存的潜在需求,根据实际的情况选择不同的存储模式。为了数据 的存储能力和读取方便性,选择适合的数据库产品,并且对存储层进一步的封装,形成 一个统一的大数据存储服务层,简化应用实现的复杂度。
(3) 综合运用分层、分割、分布式等成熟的架构模式
构建企业数据集成方案的技术架构,需要综合运用分层、分割、分布式、集群等成 熟的架构模式是极为必要的。分层、分割是模块化设计的重要手段,纵向上划分为基础 设施层、数据存储层、技术支撑层、业务运行层和综合管理层,各层之间相互独立,每 个层次可独立进行扩展和演化,下层为上层提供服务,不允许隔层调用,层间通过消息 及依赖调用的方式合成一个完整的系统。
(4) 基于并行计算技术提升系统处理能力
并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程, 是提高计算机系统计算速度和处理能力的一种有效手段。并行计算的基本思想是将被求 解的问题分解成若干个部分,各部分均由一个独立的计算单元并行处理。并行计算可以 划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并 发计算。并行计算又可分为数据并行和任务并行。
分布式计算是并行计算的一种特例。分布式计算和并行计算的相同之处都是大任务 化为小任务,并行处理。不同之处体现在:分布式计算的任务包之间相互独立,不会相互影响,上一个任务的执行结果未返回或者是结果错误,对下一个任务的处理几乎没有 什么影响。
参考文献
- ↑ 数据的来源以及数据是什么?,搜狐,2021-07-26
- ↑ 一文读懂云计算(cloudcomputing)的概念,搜狐,2022-07-19