图书介绍

大数据技术原理与应用第2版【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

林子雨编著著
出版社：北京：人民邮电出版社
ISBN：9787115443304
出版时间：2017
标注页数：286页
文件大小：79MB
文件页数：301页
主题词：数据处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：765628ab777bda5c76ca3faa5ea6e5c3

下载说明

大数据技术原理与应用第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一篇大数据基础2

第1章大数据概述2

1.1 大数据时代2

1.1.1 第三次信息化浪潮2

1.1.2 信息科技为大数据时代提供技术支撑3

1.1.3 数据产生方式的变革促成大数据时代的来临5

1.1.4 大数据的发展历程6

1.2 大数据的概念7

1.2.1 数据量大7

1.2.2 数据类型繁多8

1.2.3 处理速度快9

1.2.4 价值密度低9

1.3 大数据的影响9

1.3.1 大数据对科学研究的影响10

1.3.2 大数据对思维方式的影响11

1.3.3 大数据对社会发展的影响11

1.3.4 大数据对就业市场的影响12

1.3.5 大数据对人才培养的影响13

1.4 大数据的应用14

1.5 大数据关键技术14

1.6 大数据计算模式15

1.6.1 批处理计算16

1.6.2 流计算16

1.6.3 图计算16

1.6.4 查询分析计算17

1.7 大数据产业17

1.8 大数据与云计算、物联网18

1.8.1 云计算18

1.8.2 物联网21

1.8.3 大数据与云计算、物联网的关系25

1.9 本章小结26

1.10 习题26

第2章大数据处理架构Hadoop28

2.1 概述28

2.1.1 Hadoop简介28

2.1.2 Hadoop的发展简史28

2.1.3 Hadoop的特性29

2.1.4 Hadoop的应用现状29

2.1.5 Hadoop的版本30

2.2 Hadoop生态系统30

2.2.1 HDFS31

2.2.2 HBase31

2.2.3 MapReduce31

2.2.4 Hive32

2.2.5 Pig32

2.2.6 Mahout32

2.2.7 Zookeeper32

2.2.8 Flume32

2.2.9 Sqoop32

2.2.10 Ambari33

2.3 Hadoop的安装与使用33

2.3.1 创建Hadoop用户33

2.3.2 Java的安装34

2.3.3 SSH登录权限设置34

2.3.4 安装单机Hadoop34

2.3.5 Hadoop伪分布式安装35

2.4 本章小结37

2.5 习题38

实验1 安装Hadoop38

第二篇大数据存储与管理42

第3章分布式文件系统HDFS42

3.1 分布式文件系统42

3.1.1 计算机集群结构42

3.1.2 分布式文件系统的结构43

3.1.3 分布式文件系统的设计需求44

3.2 HDFS简介44

3.3 HDFS的相关概念45

3.3.1 块45

3.3.2 名称节点和数据节点46

3.3.3 第二名称节点47

3.4 HDFS体系结构48

3.4.1 概述48

3.4.2 HDFS命名空间管理49

3.4.3 通信协议49

3.4.4 客户端50

3.4.5 HDFS体系结构的局限性50

3.5 HDFS的存储原理50

3.5.1 数据的冗余存储50

3.5.2 数据存取策略51

3.5.3 数据错误与恢复52

3.6 HDFS的数据读写过程53

3.6.1 读数据的过程53

3.6.2 写数据的过程54

3.7 HDFS编程实践55

3.7.1 HDFS常用命令55

3.7.2 HDFS的Web界面56

3.7.3 HDFS常用Java API及应用实例57

3.8 本章小结60

3.9 习题61

实验2 熟悉常用的HDFS操作61

第4章分布式数据库HBase63

4.1 概述63

4.1.1 从BigTable说起63

4.1.2 HBase简介63

4.1.3 HBase与传统关系数据库的对比分析64

4.2 HBase访问接口65

4.3 HBase数据模型66

4.3.1 数据模型概述66

4.3.2 数据模型的相关概念66

4.3.3 数据坐标67

4.3.4 概念视图68

4.3.5 物理视图69

4.3.6 面向列的存储69

4.4 HBase的实现原理71

4.4.1 HBase的功能组件71

4.4.2 表和Region71

4.4.3 Region的定位72

4.5 HBase运行机制74

4.5.1 HBase系统架构74

4.5.2 Region服务器的工作原理76

4.5.3 Store的工作原理77

4.5.4 HLog的工作原理77

4.6 HBase编程实践78

4.6.1 HBase常用的Shell命令78

4.6.2 HBase常用的Java API及应用实例80

4.7 本章小结90

4.8 习题90

实验3 熟悉常用的HBase操作91

第5章 NoSQL数据库94

5.1 NoSQL简介94

5.2 NoSQL兴起的原因95

5.2.1 关系数据库无法满足Web 2.0的需求95

5.2.2 关系数据库的关键特性在Web 2.0时代成为“鸡肋”96

5.3 NoSQL与关系数据库的比较97

5.4 NoSQL的四大类型98

5.4.1 键值数据库99

5.4.2 列族数据库100

5.4.3 文档数据库100

5.4.4 图数据库101

5.5 NoSQL的三大基石101

5.5.1 CAP101

5.5.2 BASE103

5.5.3 最终一致性104

5.6 从NoSQL到NewSQL数据库105

5.7 本章小结107

5.8 习题107

第6章云数据库108

6.1 云数据库概述108

6.1.1 云计算是云数据库兴起的基础108

6.1.2 云数据库的概念109

6.1.3 云数据库的特性110

6.1.4 云数据库是个性化数据存储需求的理想选择111

6.1.5 云数据库与其他数据库的关系112

6.2 云数据库产品113

6.2.1 云数据库厂商概述113

6.2.2 Amazon的云数据库产品113

6.2.3 Google的云数据库产品114

6.2.4 微软的云数据库产品114

6.2.5 其他云数据库产品115

6.3 云数据库系统架构115

6.3.1 UMP系统概述115

6.3.2 UMP系统架构116

6.3.3 UMP系统功能118

6.4 云数据库实践121

6.4.1 阿里云RDS简介121

6.4.2 RDS中的概念121

6.4.3 购买和使用RDS数据库122

6.4.4 将本地数据库迁移到云端RDS数据库126

6.5 本章小结127

6.6 习题127

实验4 熟练使用RDS for MySQL数据库128

第三篇大数据处理与分析132

第7章 MapReduce132

7.1 概述132

7.1.1 分布式并行编程132

7.1.2 MapReduce模型简介133

7.1.3 Map和Reduce函数133

7.2 MapReduce的工作流程134

7.2.1 工作流程概述134

7.2.2 MapReduce的各个执行阶段135

7.2.3 Shuffle过程详解136

7.3 实例分析：WordCount139

7.3.1 WordCount的程序任务139

7.3.2 WordCount的设计思路139

7.3.3 WordCount的具体执行过程140

7.3.4 一个WordCount执行过程的实例141

7.4 MapReduce的具体应用142

7.4.1 MapReduce在关系代数运算中的应用142

7.4.2 分组与聚合运算144

7.4.3 矩阵-向量乘法144

7.4.4 矩阵乘法144

7.5 MapReduce编程实践145

7.5.1 任务要求145

7.5.2 编写Map处理逻辑146

7.5.3 编写Reduce处理逻辑147

7.5.4 编写main方法147

7.5.5 编译打包代码以及运行程序148

7.6 本章小结150

7.7 习题151

实验5 MapReduce编程初级实践152

第8章 Hadoop再探讨155

8.1 Hadoop的优化与发展155

8.1.1 Hadoop的局限与不足155

8.1.2 针对Hadoop的改进与提升156

8.2 HDFS2.0的新特性156

8.2.1 HDFS HA157

8.2.2 HDFS联邦158

8.3 新一代资源管理调度框架YARN159

8.3.1 MapReduce1.0的缺陷159

8.3.2 YARN设计思路160

8.3.3 YARN体系结构161

8.3.4 YARN工作流程163

8.3.5 YARN框架与MapReduce1.0框架的对比分析164

8.3.6 YARN的发展目标165

8.4 Hadoop生态系统中具有代表性的功能组件166

8.4.1 Pig166

8.4.2 Tez167

8.4.3 Kafka169

8.5 本章小结170

8.6 习题170

第9章 Spark172

9.1 概述172

9.1.1 Spark简介172

9.1.2 Scala简介173

9.1.3 Spark与Hadoop的对比174

9.2 Spark生态系统175

9.3 Spark运行架构177

9.3.1 基本概念177

9.3.2 架构设计177

9.3.3 Spark运行基本流程178

9.3.4 RDD的设计与运行原理179

9.4 Spark的部署和应用方式184

9.4.1 Spark三种部署方式184

9.4.2 从“Hadoop+Storm”架构转向Spark架构185

9.4.3 Hadoop和Spark的统一部署186

9.5 Spark编程实践186

9.5.1 启动Spark Shell187

9.5.2 Spark RDD基本操作187

9.5.3 Spark应用程序189

9.6 本章小结192

9.7 习题193

第10章流计算194

10.1 流计算概述194

10.1.1 静态数据和流数据194

10.1.2 批量计算和实时计算195

10.1.3 流计算的概念196

10.1.4 流计算与Hadoop196

10.1.5 流计算框架197

10.2 流计算的处理流程197

10.2.1 概述197

10.2.2 数据实时采集198

10.2.3 数据实时计算198

10.2.4 实时查询服务199

10.3 流计算的应用199

10.3.1 应用场景1：实时分析199

10.3.2 应用场景2：实时交通200

10.4 开源流计算框架Storm200

10.4.1 Storm简介201

10.4.2 Storm的特点201

10.4.3 Storm的设计思想202

10.4.4 Storm的框架设计203

10.4.5 Storm实例204

10.5 Spark Streaming206

10.5.1 Spark Streaming设计206

10.5.2 Spark Streaming与Storm的对比207

10.6 本章小结208

10.7 习题208

第11章图计算210

11.1 图计算简介210

11.1.1 传统图计算解决方案的不足之处210

11.1.2 图计算通用软件211

11.2 Pregel简介211

11.3 Pregel图计算模型212

11.3.1 有向图和顶点212

11.3.2 顶点之间的消息传递212

11.3.3 Pregel的计算过程213

11.3.4 实例214

11.4 Pregel的C++API216

11.4.1 消息传递机制217

11.4.2 Combiner217

11.4.3 Aggregator218

11.4.4 拓扑改变218

11.4.5 输入和输出218

11.5 Pregel的体系结构219

11.5.1 Pregel的执行过程219

11.5.2 容错性220

11.5.3 Worker221

11.5.4 Master221

11.5.5 Aggregator222

11.6 Pregel的应用实例222

11.6.1 单源最短路径222

11.6.2 二分匹配223

11.7 Pregel和MapReduce实现PageRank算法的对比224

11.7.1 PageRank算法224

11.7.2 PageRank算法在Pregel中的实现225

11.7.3 PageRank算法在MapReduce中的实现225

11.7.4 PageRank算法在Pregel和MapReduce中实现的比较228

11.8 本章小结228

11.9 习题228

第12章数据可视化230

12.1 可视化概述230

12.1.1 什么是数据可视化230

12.1.2 可视化的发展历程230

12.1.3 可视化的重要作用231

12.2 可视化工具233

12.2.1 入门级工具233

12.2.2 信息图表工具234

12.2.3 地图工具235

12.2.4 时间线工具236

12.2.5 高级分析工具236

12.3 可视化典型案例237

12.3.1 全球黑客活动237

12.3.2 互联网地图237

12.3.3 编程语言之间的影响力关系图238

12.3.4 百度迁徙239

12.3.5 世界国家健康与财富之间的关系239

12.3.6 3D可视化互联网地图APP239

12.4 本章小结240

12.5 习题240

第四篇大数据应用242

第13章大数据在互联网领域的应用242

13.1 推荐系统概述242

13.1.1 什么是推荐系统242

13.1.2 长尾理论243

13.1.3 推荐方法243

13.1.4 推荐系统模型244

13.1.5 推荐系统的应用244

13.2 协同过滤245

13.2.1 基于用户的协同过滤245

13.2.2 基于物品的协同过滤246

13.2.3 UserCF算法和ItemCF算法的对比248

13.3 协同过滤实践248

13.3.1 实践背景248

13.3.2 数据处理249

13.3.3 计算相似度矩阵249

13.3.4 计算推荐结果250

13.3.5 展示推荐结果250

13.4 本章小结251

13.5 习题251

第14章大数据在生物医学领域的应用252

14.1 流行病预测252

14.1.1 传统流行病预测机制的不足252

14.1.2 基于大数据的流行病预测253

14.1.3 基于大数据的流行病预测的重要作用253

14.1.4 案例：百度疾病预测254

14.2 智慧医疗255

14.3 生物信息学256

14.4 案例：基于大数据的综合健康服务平台257

14.4.1 平台概述257

14.4.2 平台业务架构258

14.4.3 平台技术架构258

14.4.4 平台关键技术259

14.5 本章小结260

14.6 习题261

第15章大数据的其他应用262

15.1 大数据在物流领域中的应用262

15.1.1 智能物流的概念262

15.1.2 智能物流的作用263

15.1.3 智能物流的应用263

15.1.4 大数据是智能物流的关键263

15.1.5 中国智能物流骨干网——菜鸟264

15.2 大数据在城市管理中的应用266

15.2.1 智能交通266

15.2.2 环保监测267

15.2.3 城市规划268

15.2.4 安防领域269

15.3 大数据在金融行业中的应用269

15.3.1 高频交易269

15.3.2 市场情绪分析269

15.3.3 信贷风险分析270

15.4 大数据在汽车行业中的应用271

15.5 大数据在零售行业中的应用272

15.5.1 发现关联购买行为272

15.5.2 客户群体细分273

15.5.3 供应链管理273

15.6 大数据在餐饮行业中的应用274

15.6.1 餐饮行业拥抱大数据274

15.6.2 餐饮O2O274

15.7 大数据在电信行业中的应用276

15.8 大数据在能源行业中的应用276

15.9 大数据在体育和娱乐领域中的应用277

15.9.1 训练球队277

15.9.2 投拍影视作品278

15.9.3 预测比赛结果279

15.10 大数据在安全领域中的应用280

15.10.1 大数据与国家安全280

15.10.2 应用大数据技术防御网络攻击280

15.10.3 警察应用大数据工具预防犯罪281

15.11 大数据在政府领域中的应用282

15.12 大数据在日常生活中的应用283

15.13 本章小结284

15.14 习题284

参考文献285

图书介绍

大数据技术原理与应用 第2版【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

PDF下载

下载说明

大数据技术原理与应用 第2版PDF格式电子书版下载

图书目录

热门推荐

大数据技术原理与应用第2版【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

大数据技术原理与应用第2版PDF格式电子书版下载