26,395
次編輯
變更
数据处理
,無編輯摘要
{| class="wikitable" align="right"
|-
| style="background: #FF2400" align= center| '''<big>数据处理</big>'''
|-
|<center><img src=https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fbkimg.cdn.bcebos.com%2Fpic%2F8326cffc1e178a825a135c47ff03738da977e82e&refer=http%3A%2F%2Fbkimg.cdn.bcebos.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=auto?sec=1661984660&t=98393d06d82d5cf6dbe8fd878bdbba24 width="300"></center>
<small>[https://image.baidu.com/search/index?ct=201326592&tn=baiduimage&word=%E6%95%B0%E6%8D%AE%E5%A4%84%E7%90%86&pn=3&spn=0&ie=utf-8&oe=utf-8&cl=2&lm=-1&fr=&se=&sme=&cs=4212448770%2C1693003854&os=2957593333%2C2496597701&objurl=https%3A%2F%2Fgimg2.baidu.com%2Fimage_search%2Fsrc%3Dhttp%3A%2F%2Fbkimg.cdn.bcebos.com%2Fpic%2F8326cffc1e178a825a135c47ff03738da977e82e%26refer%3Dhttp%3A%2F%2Fbkimg.cdn.bcebos.com%26app%3D2002%26size%3Df9999%2C10000%26q%3Da80%26n%3D0%26g%3D0n%26fmt%3Dauto%3Fsec%3D1661984660%26t%3D98393d06d82d5cf6dbe8fd878bdbba24&di=7108135681917976577&tt=1&is=0%2C0&adpicid=0&gsm=78&dyTabStr=MCwzLDUsMSw2LDQsMiw3LDgsOQ%3D%3D 来自 呢图网 的图片]</small>
|-
| style="background: #FF2400" align= center| '''<big></big>'''
|-
| style="background: #66CCFF" align= centerlight| '''<big>数据处理</big> '''
处理软件;管理数据的文件、数据库系统等
|}
'''数据处理''',数据处理是系统工程和自动控制的 [[ 基本 ]] 环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、 [[ 存储 ]] 、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是 [[ 杂乱无章 ]] 的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。<ref>[ https://wenku.so.com/d/0ca286d6017a16d41ad1d09035e5b36e 数据处理的基本方法], 360文库 , --2020年10月5日</ref>数据处理离不开软件的支持,数据处理软件包括:用以书写处理程序的各种程序设计语言及其编译 [[ 程序 ]] ,管理数据的文件系统和数据库系统,以及各种数据处理方法的应用软件包。为了保证数据安全可靠,还有一整套数据安全保密的技术。
==方式==
根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同, [[ 数据 ]] 处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式
①根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。
②根据数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式。
③根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。
④根据计算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。
数据处理对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如测绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会 [[ 经济 ]] 数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。
==处理过程与工具==
数据处理
③数据分组:指定编码,按有关信息进行有效的分组。
④数据组织:整理数据或用某些方法安排数据,以便进行处理。
⑤数据计算:进行各种算术和逻辑运算,以便得到进一步的 [[ 信息 ]] 。
⑥数据存储:将原始数据或计算的结果保存起来,供以后使用。
⑦数据检索:按用户的要求找出有用的信息。
数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段,将数据脱机输入到穿孔卡片、穿孔纸带、磁带或磁盘。这个阶段也可以称为数据的录入阶段。数据录入以后,就要由计算机对数据进行处理,为此预先要由用户编制程序并把程序输入到计算机中,计算机是按程序的指示和要求对数据进行处理的。所谓处理,就是指上述8个方面工作中的一个或若干个的组合。最后输出的是各种文字和数字的表格和报表。
数据处理系统已广泛地用于各种企业和事业,内容涉及薪金支付,票据收发、信贷和库存管理、生产调度、计划管理、销售分析等。它能产生操作报告、金融分析报告和统计报告等。数据处理技术涉及到文卷系统、数据库管理系统、分布式数据处理系统等方面的技术。
此外,由于数据或信息大量地应用于各种各样的企业和事业机构, [[ 工业 ]] 化社会中已形成一个独立的信息处理业。数据和信息,本身已经成为人类社会中极其宝贵的资源。信息处理业对这些资源进行整理和开发,借以推动信息化社会的发展。
==数据处理工具==
根据数据处理的不同阶段,有不同的专业工具来对数据进行不同阶段的处理。
在数据可视化部分,需要对数据的计算结果进行分析和展现,有BIEE,Microstrategy,Yonghong的Z-Suite等工具。
数据处理的软件有EXCEL MATLAB Origin等等,当前流行的图形可视化和数据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。
大数据时代,需要可以解决大量数据、异构数据等多种 [[ 问题 ]] 带来的数据处理难题,Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统 Hadoop Distributed File System,HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。
==商务网站==
有关商务网站的数据处理:由于网站的访问量非常大,在进行一些专业的数据分析时,往往要有针对性的数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联 [[ 规则 ]] 、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。
==数据处理与数据管理==
数据处理是从大量的原始数据抽取出有价值的信息,即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理,其过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导全过程。
数据管理是指数据的收集整理、组织、存储、维护、检索、传送等操作,是数据处理业务的基本环节,而且是所有数据处理过程中必有得共同部分。
数据处理中,通常计算比较简单,且数据处理业务中的加工计算因业务的不同而不同,需要根据业务的需要来编写应用程序加以解决。而数据管理则比较复杂,由于可利用的数据呈爆炸性增长,且数据的种类繁杂,从数据管理角度而言,不仅要使用数据,而且要有效地管理数据。因此需要一个通用的、使用方便且高效的管理软件,把数据有效地管理起来。
数据处理与数据管理是相联系的,数据管理技术的优劣将对 [[ 数据 ]] 处理的效率产生直接影响。而数据库技术就是针对该需求目标进行研究并发展和完善起来的计算机应用的一个分支。
大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,天互数据总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和 [[ 操作 ]] ,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
==统计/分析==
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的大量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
==导入/预处理==
虽然采集端本身会有很多数据库,但是如果要对这些大量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式 [[ 数据库 ]] ,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
==挖掘==
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。
随着全球经济和科学技术的飞速发展,信息技术、互联网技术的发展也极为快速,其推动了数据走向大 [[ 数据 ]] 的时代。当前,我国已经正式迈入了大数据时代,以信息技术为代表的先进技术对人们的生活、工作、学习等方面产生了深刻的影响。
大数据时代信息处理技术发展的趋势:数据和网络的安全性更受重视、云计算 [[ 技术 ]] 得到发展与应用以及物联网开始应用于多个行业。大数据时代信息处理技术发展的机遇和挑战:信息处理 [[ 技术 ]] 受到重视的程度有所提高、对数据与 [[ 信息 ]] 安全性的要求更高以及行业对专业人才的需求更加迫切。
== 参考来源 ==
<center>{{reflist#iDisplay:d0681cuj7qx|480|270|qq}}<center>学会数据处理</center></center>== 参考资料 ==
[[Category: 990 遊藝及休閒活動總論]]