资源名称:数据挖掘-概念模型方法和算法 第2版
内容简介:
随着数据集规模和复杂度的持续上升,分析员必须利用更高级的软件工具来执行间接的、自动的智能化数据分析。《数据挖掘:概念、模型、方法和算法(第2版)》介绍了通过分析高维数据空间中的海量原始数据来提取用于决策的新信息的尖端技术和方法。
本书开篇阐述数据挖掘原理,此后在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模糊逻辑和演化计算等学科的具有代表性的、最前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法和数据分析软件并合理地调整参数。每章末尾附有复习题。
本书主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解本书的所有主题。
◆ 介绍支持向量机(SVM)和Kohonen映射
◆ 讲解DBSCAN、BIRCH和分布式DBSCAN聚类算法
◆ 介绍贝叶斯网络,讨论图形中的Betweeness和Centrality参数测量算法
◆ 分析在建立决策树时使用的CART算法和基尼指数
◆ 介绍Bagging & Boosting集成学习方法,并详述AdaBoost算法
◆ 讨论Relief以及PageRank算法
◆ 讨论文本挖掘的潜在语义分析(LSA),并分析如何测定文本文档之间的语义相似性
◆ 讲解时态、空间、Web、文本、并行和分布式数据挖掘等新主题
◆ 更详细地讲解数据挖掘技术商业、隐私、安全和法律方面的内容
作者简介:
Mehmed Kantardzic博士是美国路易维尔大学工学院计算机工程与科学系的教授,任该系的研究生院院长和数据挖掘实验室主任。Mehmed是IEEE、ISCA和SPIE的成员,曾受邀参加多个重要的学术会议;他已出版多本书籍,在许多期刊上发表过论文,其中有多篇论文获奖。
资源目录:
第1章 数据挖掘的概念1
1.1 概述1
1.2 数据挖掘的起源3
1.3 数据挖掘过程4
1.4 大型数据集7
1.5 数据仓库10
1.6 数据挖掘的商业方面:为什么
数据挖掘项目会失败13
1.7 本书结构安排15
1.8 复习题16
1.9 参考书目17
第2章 数据准备19
2.1 原始数据的表述19
2.2 原始数据的特性23
2.3 原始数据的转换24
2.3.1 标准化24
2.3.2 数据平整25
2.3.3 差值和比率25
2.4 丢失数据26
2.5 时间相关数据27
2.6 异常点分析30
2.7 复习题35
2.8 参考书目38
第3章 数据归约41
3.1 大型数据集的维度41
3.2 特征归约43
3.2.1 特征选择44
3.2.2 特征提取48
3.3 Relief算法50
3.4 特征排列的熵度量51
3.5 主成分分析53
3.6 值归约55
3.7 特征离散化:
ChiMerge技术58
3.8 案例归约61
3.9 复习题63
3.10 参考书目64
第4章 从数据中学习67
4.1 学习机器68
4.2 统计学习原理72
4.3 学习方法的类型75
4.4 常见的学习任务77
4.5 支持向量机80
4.6 kNN:最近邻分类器90
4.7 模型选择与泛化92
4.8 模型的评估95
4.9 90%准确的情形100
4.9.1 保险欺诈检测101
4.9.2 改进心脏护理102
4.10 复习题103
4.11 参考书目104
第5章 统计方法107
5.1 统计推断107
5.2 评测数据集的差异109
5.3 贝叶斯定理112
5.4 预测回归114
5.5 方差分析118
5.6 对数回归120
5.7 对数-线性模型121
5.8 线性判别分析124
5.9 复习题126
5.10 参考书目128
第6章 决策树和决策规则131
6.1 决策树132
6.2 C4.5算法:生成决策树134
6.3 未知属性值139
6.4 修剪决策树142
6.5 C4.5算法:生成决策规则143
6.6 CART算法和Gini指标146
6.7 决策树和决策规则的
局限性148
6.8 复习题150
6.9 参考书目153
第7章 人工神经网络155
7.1 人工神经元的模型156
7.2 人工神经网络的结构159
7.3 学习过程161
7.4 使用ANN完成的
学习任务164
7.4.1 模式联想164
7.4.2 模式识别164
7.5 多层感知机166
7.6 竞争网络和竞争学习172
7.7 SOM174
7.8 复习题178
7.9 参考书目180
第8章 集成学习183
8.1 集成学习方法论184
8.2 多学习器组合方案187
8.3 bagging和boosting188
8.4 AdaBoost算法189
8.5 复习题190
8.6 参考书目193
第9章 聚类分析195
9.1 聚类的概念195
9.2 相似度的度量198
9.3 凝聚层次聚类203
9.4 分区聚类206
9.5 增量聚类208
9.6 DBSCAN算法211
9.7 BIRCH 算法213
9.8 聚类验证215
9.9 复习题215
9.10 参考书目218
第10章 关联规则221
10.1 购物篮分析222
10.2 Apriori 算法223
10.3 从频繁项集中得到
关联规则225
10.4 提高Apriori算法的效率226
10.5 FP增长方法227
10.6 关联分类方法229
10.7 多维关联规则挖掘231
10.8 复习题232
10.9 参考书目236
第11章 Web挖掘和文本挖掘237
11.1 Web挖掘237
11.2 Web内容、结构与
使用挖掘238
11.3 HITS和LOGSOM算法240
11.4 挖掘路径遍历模式245
11.5 PageRank算法247
11.6 文本挖掘249
11.7 潜在语义分析252
11.8 复习题255
11.9 参考书目257
第12章 数据挖掘高级技术259
12.1 图挖掘259
12.2 时态数据挖掘270
12.2.1 时态数据表示271
12.2.2 序列之间的相似性
度量274
12.2.3 时态数据模型276
12.2.4 数据挖掘277
12.3 空间数据挖掘(SDM)281
12.4 分布式数据挖掘(DDM)284
12.5 关联并不意味着存在
因果关系290
12.6 数据挖掘的隐私、安全及
法律问题295
12.7 复习题299
12.8 参考书目300
第13章 遗传算法303
13.1 遗传算法的基本原理304
13.2 用遗传算法进行优化305
13.2.1 编码方案和初始化306
13.2.2 适合度估计306
13.2.3 选择307
13.2.4 交叉308
13.2.5 突变308
13.3 遗传算法的简单例证310
13.3.1 表述310
13.3.2 初始群体311
13.3.3 评价311
13.3.4 交替312
13.3.5 遗传算子312
13.3.6 评价(第二次迭代)313
13.4 图式314
13.5 旅行推销员问题316
13.6 使用遗传算法的
机器学习318
13.6.1 规则交换320
13.6.2 规则概化320
13.6.3 规则特化321
13.6.4 规则分割321
13.7 遗传算法用于聚类321
13.8 复习题323
13.9 参考书目324
第14章 模糊集和模糊逻辑327
14.1 模糊集327
14.2 模糊集的运算332
14.3 扩展原理和模糊关系335
14.4 模糊逻辑和模糊
推理系统339
14.5 多因子评价342
14.6 从数据中提取模糊模型344
14.7 数据挖掘和模糊集349
14.8 复习题350
14.9 参考书目352
第15章 可视化方法353
15.1 感知和可视化353
15.2 科学可视化和信息
可视化354
15.3 平行坐标359
15.4 放射性可视化361
15.5 使用自组织映射进行
可视化363
15.6 数据挖掘的可视化系统365
15.7 复习题368
15.8 参考书目369
附录A 数据挖掘工具371
附录B 数据挖掘应用393
资源截图: