数据预处理
为什么进行
- 缺失
- 噪声
- 不一致
- 维度太高 (这个算不算)
有这些方法
- 数据集成(Data Integration), 多个数据源里的数据综合到一个一致的数据存储
- 处理冗余数据
- 数据冲突
- 数据清理(Data Cleaning)
- 补充
缺失值
- 均值
- 忽略
- 可能的值
- …
- 修正
不一致的数据
- 识别异常并平滑
噪音数据
- 聚类
- 回归
- 分箱(Binning method)
- 补充
- 数据变换(Data Transformation)
- 数据规约/简化(Data Reduction)
- 获得原始数据集(超级大)的一个简约表示
- 容量上大大减少,但仍然接近原始数据的完整性并产生(基本)相同的分析结果
- 比如 维数规约 数值压缩
- 数据融合(Data Fusion)