写在前面:好久没更新博客了,不知道因为什么原因,考试周快过去了,插空更一个队长分享的一个课程的总结。

边听课边写线代卷子,听了个大概,主要讲的是针对大数据题做的数据预处理专题,深有体会,经过数理大赛和亚太杯的胡乱搞,感觉前期的数据预处理过程和结果对后期的建模确实有比较重要的影响,故想写一些东西加深印象。

数据预处理一般包括:数据集成、数据规约、数据清洗、数据变换,下面挨个来说

数据集成

数据集成一般指把来自不同数据源、用不同表示规则表示的数据整合为同一类型、统一表示规则的数据方便处理。

实体识别问题

就比如说最近一次的亚太赛的 题,要求对图片中苹果的个数、位置、重量、成熟程度进行识别,当时我们使用的方法是基于数连通块个数的方法再进行优化,采用的数据集成方法就是分别读取图片中每个像素点的 值,然后整合到一个表格中,再进行下一步。

实体识别问题再提一嘴,可以使用 labelimg 来对图片进行标注框画,建模一般使用深度学习模型

数据字段问题

刚好对应数理大赛的赛题,房价预测模型,房子的属性参数不止有数值型数据,还有非数值型数据比如字符串数据,如果该标签为分类变量,我们当时处理成了 变量数据,大大增加了标签数量,非分类变量一般与房价关联程度不高,直接删去该标签

冗余和相关性分析

如果一个标签能够通过其他标签推出或表示,即相关程度大,那么这个标签就是冗余数据。判断冗余数据可以使用相关性分析。

皮尔逊相关性分析

斯皮尔曼相关性分析

元组重复

本文采用CC-BY-SA-3.0协议,转载请注明出处
作者: wsy_jim