Skip to content

Instantly share code, notes, and snippets.

View Shitaibin's full-sized avatar
💬
Web3, Blockchain, k8s

大彬 Shitaibin

💬
Web3, Blockchain, k8s
View GitHub Profile
@jyfeather
jyfeather / 1 - 数据挖掘的步骤.md
Last active May 22, 2020 05:45
数据挖掘基础知识
次序 简要步骤 具体步骤 作用
1 收集 信息收集 根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法, 将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
2 收集 数据集成 把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
3 预处理 数据规约 数据规约技术可以用来得到数据集的规约表 示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
4 预处理 数据清理 在数据库中的数据有一些是不完整的 (有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。
5 预处理 数据变换 通过平滑聚集、数据概化、规范化等 方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步
6 挖掘 挖掘过程 根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
7 挖掘 模式评估 从商业角度,由行业专家来验证数据挖掘结果的正确性。
8 挖掘 知识表示 将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。