冷轧数据清洗与特征选择查看源代码讨论查看历史

来自搜狐网的图片

冷轧数据清洗与特征选择钢铁企业中冷轧带钢数据的清洗、对齐和特征选择。

主要技术内容

技术背景和意义

冷轧是钢铁冶金工业的最终生产环节，是实现最终钢铁产品高效率、高质量生产的一个关键环节。随着我国经济发展方式的转变和产业结构的调整，市场对附加值更高的冷轧带钢的需求量越来越大，对钢铁产业尤其是冷轧带钢^[1]生产质量提出了更高的要求。目前，一些钢铁制造企业冷轧生产过程中会积累很多过程参数和历史质量数据，这些数据中存在着大量的噪声数据，而通过数据清洗和特征选择技术可以将冷轧带钢数据整理为规范化的表格数据为后续通过数据挖掘技术来发现数据中的规律并进行冷轧生产质量预测等奠定基础。

技术要点和优势

技术要点：冷轧工艺流程分为轧机、连退和电镀三个步骤，不同步骤会产出相应工序的数据。冷轧原始数据较为复杂，它包含了静态和动态两种类型数据，首先需要根据带钢卷号按工艺将所有独立的静态和动态数据拼接起来，便于后续的数据清洗和对齐，在保证数据真实性的原则下，可以采用上采样拼接和下采样拼接两种数据拼接方式。然后根据数据的完整性和真实性需要，对冷轧数据进行清洗与对齐，对于处理后的数据采用机器学习算法建立参数权重计算模型配合专家知识进行特征选择。

实施关键点

（1）数据清洗：首先需要清洗无效数据、重复数据、乱序数据等，数据清洗包括两个重要方面，一方面需要进行偏差检测，即检查导致偏差的因素，并识别离散值与噪声值；另一方面需要进行数据清洗，即处理缺失值与噪声。

（2）数据对齐：其次通过各工序勾连与长度匹配、头尾一致性进行数据对齐，最终实现数据组织的结构化。数据对齐具体包括显示格式一致性检验、数据去重、按照工艺流程数据对齐、根据冷轧领域知识修正矛盾内容等。

（3）数据库构建对于经过数据清洗与数据对齐处理后的数据，还需要对其进行数据组织的结构化，形成固定的字段、固定的格式、固定的字段属性、便于二维表储存与管理的结构化数据。根据此结构化数据的字段和数据类型构建数据库^[2]保存冷轧清洗数据。

（4）特征选择：冷轧生产过程中包含很多工艺参数，所以冷轧带钢数据是典型的高维数据，为了避免高维数据稀疏性导致模型过拟合，必须对数据进行降维操作，而特征选择可以实现此目的。通过机器学习算法并结合专家知识可以提取数据中少量且具有较好表达能力的特征，为后续的冷轧生产质量预测等工作提供数据支持。

技术优势

（1）数据拼接方式：数据拼接采用上采样拼接和下采样拼接两种方式，上采样拼接是增加原来冷轧带钢数据样本采样点数量较少的样本采样点，上采样拼接方法简单易行，准确率较高，添加的数据仍为该数据集中原始样本数据；下采样拼接是减少原来样本采样点数量相对多的样本采样点，直接丢弃多余的采样点，保留较少的采样点，下采样拼接方法适合缺失值数量较少，并且是随机出现的，删除它们对整体数据影响不大的情况。通过上采样拼接和下采样拼接分别处理数据表中缺失值较多和缺失值较少的情况，在保证数据真实性的同时使最终拼接的数据更加充分。

（2）特征选择算法：通过机器学习算法得到输出对冷轧带钢结果影响较为显著的参数，由于使用算法选择出来的特征不一定完全是符合实际生产情况的，所以结合专家将无法调控的和影响不显著的参数去掉，保证提取到的特征的有效性。

技术应用情况

应用案例介绍

在保证数据真实性情况下，某钢铁企业分别采用上采样拼接和下采样拼接两种方式对冷轧各工序进行数据拼接处理，得到10个分工序不同方法拼接的数据集，然后采用机器学习算法在处理后的数据集上分别建立参数权重计算模型配合专家知识进行特征选择，选取出对冷轧带钢质量结果影响较为显著的参数。分别采用多种分类和回归机器学习算法建立冷轧带钢质量预测模型对冷轧带钢进行质量预测，基于分类算法的冷轧带钢质量预测精确率最高达到93.57%，基于回归算法的精确率最高达到89.15%。

参考文献

↑ 【技术】冷轧带钢基础知识，搜狐，2017-04-02
↑ 数据库发展史，搜狐，2019-07-12

[1] 【技术】冷轧带钢基础知识，搜狐，2017-04-02

[2] 数据库发展史，搜狐，2019-07-12

[1]

[2]