数据预处理

Author Avatar
Aryb1n 6月 23, 2017

为什么进行

  • 缺失
  • 噪声
  • 不一致
  • 维度太高 (这个算不算)

有这些方法

  • 数据集成(Data Integration), 多个数据源里的数据综合到一个一致的数据存储
    • 处理冗余数据
    • 数据冲突
  • 数据清理(Data Cleaning)
    • 补充缺失值
      • 均值
      • 忽略
      • 可能的值
    • 修正不一致的数据
    • 识别异常并平滑噪音数据
      • 聚类
      • 回归
      • 分箱(Binning method)
  • 数据变换(Data Transformation)
  • 数据规约/简化(Data Reduction)
    • 获得原始数据集(超级大)的一个简约表示
    • 容量上大大减少,但仍然接近原始数据的完整性并产生(基本)相同的分析结果
    • 比如 维数规约 数值压缩
  • 数据融合(Data Fusion)

参考

https://wenku.baidu.com/view/438f85a2aa00b52acfc7caa0.html