Svtter/1 - 数据挖掘的步骤.md

## 1 - 数据挖掘的步骤.md

      
    Raw
  

              1 - 数据挖掘的步骤.md
            
          
次序
简要步骤
具体步骤
作用


1
收集
信息收集
根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法, 将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。


2
收集
数据集成
把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。


3
预处理
数据规约
数据规约技术可以用来得到数据集的规约表 示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。


4
预处理
数据清理
在数据库中的数据有一些是不完整的 (有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。


5
预处理
数据变换
通过平滑聚集、数据概化、规范化等 方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步


6
挖掘
挖掘过程
根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。


7
挖掘
模式评估
从商业角度,由行业专家来验证数据挖掘结果的正确性。


8
挖掘
知识表示
将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。


## 2 - 十大数据挖掘算法.md

      
    Raw
  

              2 - 十大数据挖掘算法.md
            
          
序号
算法
归类
作用


1
C4.5
分类
机器学习算法中的一种分类决策树算法


2
kNN
分类
K最近邻(k-Nearest Neighbor)分类算法


3
Naive Bayes
分类
朴素贝叶斯模型


4
CART
分类
分类与回归树


5
K-Means
聚类
聚类算法


6
Apriori
关联分析
一种最有影响的挖掘布尔关联规则频繁项集的算法


7
AdaBoost
袋装与推进
一种迭代算法


8
PageRank
链接挖掘
Google算法的重要内容


9
SVM
统计学习
支持向量机


0
EM
统计学习
最大期望算法


## 3 - 基本探测指标.md

      
    Raw
  

              3 - 基本探测指标.md
            
          
序号
探测指标
指标作用
指标类型


1
均值(mean)
能够利用所有已知信息，但对异常值（极大、极小）敏感
集中趋势指标


2
中位数(median)
排序后居于中间位置的数值，有序尺度常用
集中趋势指标


3
众数(mode)
出现最频繁的数，代表分布中的高峰
集中趋势指标


4
极差(range)
最大最小值之差，直接受到异常值影响
变异性指标


5
方差(variance)
数据越分散，原理均值，方差越大
变异性指标


6
标准差(standard deviation)
与数据本身有相同的量纲
变异性指标


7
偏度(skewness)
刻画数据在均值两侧偏差趋势的差异性
变异性指标


8
峰读(kurtosis)
测量分布曲线相对平滑或突起的程度
变异性指标
次序	简要步骤	具体步骤	作用
1	收集	信息收集	根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法, 将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
2	收集	数据集成	把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
3	预处理	数据规约	数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
4	预处理	数据清理	在数据库中的数据有一些是不完整的 (有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。
5	预处理	数据变换	通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步
6	挖掘	挖掘过程	根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
7	挖掘	模式评估	从商业角度,由行业专家来验证数据挖掘结果的正确性。
8	挖掘	知识表示	将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
序号	算法	归类	作用
1	C4.5	分类	机器学习算法中的一种分类决策树算法
2	kNN	分类	K最近邻(k-Nearest Neighbor)分类算法
3	Naive Bayes	分类	朴素贝叶斯模型
4	CART	分类	分类与回归树
5	K-Means	聚类	聚类算法
6	Apriori	关联分析	一种最有影响的挖掘布尔关联规则频繁项集的算法
7	AdaBoost	袋装与推进	一种迭代算法
8	PageRank	链接挖掘	Google算法的重要内容
9	SVM	统计学习	支持向量机
0	EM	统计学习	最大期望算法
序号	探测指标	指标作用	指标类型
1	均值(mean)	能够利用所有已知信息，但对异常值（极大、极小）敏感	集中趋势指标
2	中位数(median)	排序后居于中间位置的数值，有序尺度常用	集中趋势指标
3	众数(mode)	出现最频繁的数，代表分布中的高峰	集中趋势指标
4	极差(range)	最大最小值之差，直接受到异常值影响	变异性指标
5	方差(variance)	数据越分散，原理均值，方差越大	变异性指标
6	标准差(standard deviation)	与数据本身有相同的量纲	变异性指标
7	偏度(skewness)	刻画数据在均值两侧偏差趋势的差异性	变异性指标
8	峰读(kurtosis)	测量分布曲线相对平滑或突起的程度	变异性指标