Skip to content

Instantly share code, notes, and snippets.

@chenzx
Created December 11, 2013 09:38
Show Gist options
  • Save chenzx/7907594 to your computer and use it in GitHub Desktop.
Save chenzx/7907594 to your computer and use it in GitHub Desktop.
数据挖掘导论(完整版)
数据挖掘导论(完整版)
跳转至: 导航、 搜索
目录
1 绪论
2 数据
3 探索数据(EDA)
4 分类:基本概念、决策树与模型评估
5 分类:其他技术
6 关联分析:基本概念和算法
7 关联分析:高级概念
8 聚类分析:基本概念和算法
9 聚类分析:其他问题和算法
10 异常检测
11 附录A 线性代数
12 附录B 维度归约
13 附录C 概率统计
14 附录D 回归
15 附录E 优化
绪论
数据
p31 维归约:PCA SVD
p33 特征加权:SVM
简单匹配系数SMC:(f_11 + f_00) / (f_01 + f_10 + f_11 + f_00)
Jaccard系数:f_11 / (f_01 + f_10 + f_11)
广义Jaccard系数/Tanimoto系数
EJ = x•y / (||x||^2 + ||y||^2 -x•y)
相关性corr
Bregman散度*
探索数据(EDA)
频率和众数(mode)
百分位数(percentile)
均值和中位数
range和方差(variance)
多元汇总统计
协方差(covariance)
可视化*
平行坐标系?
星形坐标系和Chernoff脸?
OLAP和多维数据分析*
data cube
pivoting
slicing, dicing
roll up, drill down
分类:基本概念、决策树与模型评估
Hunt算法是许多决策树算法的基础,包括ID3、C4.5、CART?
若所有记录属于同一类,则标记为叶子节点;
反之,选择一个属性测试条件,划分为较小的子集
最佳划分的度量:‘信息增益’
CART 只能是二元划分
C4.5 增益率
过分拟合与树剪枝*
评估分类器的性能
Holdout
随机二次采样
交叉验证
bootstrap(有放回抽样)
.632
分类:其他技术
基于规则的
RIPPER算法*
最近邻
贝叶斯
朴素贝叶斯
贝叶斯误差率*
贝叶斯信念网络(BBN)
ANN
神经元(neuron)、轴突(axon)、树突(dendrite)、神经键(synapse)
感知器
多层ANN
隐藏层
SVM
最大margin、结构风险最小化
线性SVM:凸优化问题、标准拉格朗日乘子解
KKT条件*
线性SVM不可分:软边缘
非线性SVM
属性变换
核trick
Mercer定理:确保核函数总可以用高维空间中的2个输入向量的点积表示
变换后=> 再生核Hilbert空间(RKHS)
组合方法
bias-variance分解*
bagging
AdaBoost
随机森林:针对决策树分类器设计
泛化误差<=p(1-s^2)/s^2
Forst-RI Forest-RC *
不平衡类方法
++ +- -+ --
召回率(recall)和精度(precision)
ROC曲线*
代价敏感学习*
关联分析:基本概念和算法
频繁项集
格(lattice)结构
先验原理*
支持度度量的反单调性
Apriori(略)
频繁项集的紧凑表示
极大-
闭-
FP增长(略)
事务数据集的内存压缩表示?
评估
兴趣度的客观度量
支持度/置信度的局限
兴趣因子
相关性
IS度量
其他:PS 集体强度S Jaccard 全置信度h
规则A->B的非对称度量:Goodman-Kruskal 互信息 J Gini Laplace V F AV
Simpson悖论(组合数据下正相关,分层数据下存在负相关?)
关联分析:高级概念
处理分类属性
处理连续属性
处理概念分层
序列模式
支持度计数:COBJ CWIN CMINWIN WDIST_O WDIST
子图模式
频繁子图挖掘*
非频繁模式
负模式?
聚类分析:基本概念和算法
K均值
凝聚层次聚类
DBSCAN
簇评估
聚类分析:其他问题和算法
基于原型的
EM
SOM
基于密度的
CLIQUE* ?
DENCLUE* ?
基于图的
MST
OPOSSUM*
Chameleon
SNN
Jarvis-Patrick
可伸缩的
BIRCH
CURE
异常检测
附录A 线性代数
附录B 维度归约
PCA
SVD
因子分析
LLE
MDS、FastMap、ISOMAP
附录C 概率统计
附录D 回归
附录E 优化
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment