万本电子书0元读

万本电子书0元读

顶部广告

Spark SQL大数据分析快速上手电子书

《Spark SQL大数据分析快速上手》帮助读者快速提高Spark 大数据分析技能,内容包括: Spark SQL发展背景、Spark的典型数据容器及关系、Spark发环境搭建、Spark典型数据结构RDD。 Spark SQL门实战(包括Scala编程基础)、SQL基础语法、操作多数据源、Spark SQL性能调优。 影评数据分析、商品统计数据分析、咖啡销售数据分析3个实战项目。

售       价:¥

纸质售价:¥42.30购买纸书

2人正在读 | 0人评论 6.6

作       者:迟殿委 王泽慧 黄茵茵

出  版  社:清华大学出版社有限公司

出版时间:2024-11-01

字       数:12.1万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书内容基于Spark新版本展,符合企业目前发需要。本书全面讲解Spark SQL相关知识和实战应用, 各章均提供较为丰富的案例及其详细的操作步骤,并配套示例源码、数据集、PPT课件和教学大纲。 本书共10章。第1~3章为Spark SQL的基础准备部分,内容包括Spark SQL的发展和简介、Spark的典型数 据容器及关系、Spark概述与环境搭建、Spark典型数据结构RDD;第4~7章为Spark SQL的基础应用部分,内 容包括Spark SQL门实战(包括Scala编程基础)、SQL基础语法、操作多数据源、SparkSQL性能调优等; 第8~10章分别通过影评数据分析、商品统计数据分析、咖啡销售数据分析等3个实战项目行巩固提升。 本书内容翔实、示例丰富,既可作为Spark初学者、大数据分析人员、大数据应用发人员的自学手册, 也可作为高等院校或高职高专院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能 等专业大数据课程的教材。 本书封面贴有清华大学出版社防伪标签,无标签者不得销售。 版权所有,侵权必究。举报:010-62782989,beiqinquan@tup.tsinghua.edu.cn。<br/>【推荐语】<br/>《Spark SQL大数据分析快速上手》帮助读者快速提高Spark 大数据分析技能,内容包括: Spark SQL发展背景、Spark的典型数据容器及关系、Spark发环境搭建、Spark典型数据结构RDD。 Spark SQL门实战(包括Scala编程基础)、SQL基础语法、操作多数据源、Spark SQL性能调优。 影评数据分析、商品统计数据分析、咖啡销售数据分析3个实战项目。<br/>【作者】<br/>迟殿委,计算机软件与理论专业硕士,系统架构设计师。有多年企业软件研发经验和丰富的JavaEE、大数据技术培训经验,熟练掌握JavaEE与大数据全栈技术框架,擅长JavaEE系统架构设计、大数据分析与挖掘。着有图书《Hive门与大数据分析实战》《Hadoop大数据分析技术》《Hadoop Spark大数据分析实战》《Spring Boot企业级发实战(视频教学版)》《深浅出Java编程》《Spring Boot Spring Cloud微服务发》。<br/>
目录展开

主要作者简介

内容简介

前言

关于本书

本书特点

配套资源下载与答疑服务

本书读者

第1章 Spark SQL概述

1.1 Spark SQL简介

1.1.1 什么是Spark SQL

1.1.2 Spark SQL的特点

1.2 Spark数据容器

1.2.1 什么是DataFrame

1.2.2 什么是DataSet

1.2.3 Spark SQL与DataFrame

1.2.4 DataFrame与RDD的差异

第2章 Spark概述及环境搭建

2.1 Spark概述

2.1.1 关于Spark

2.1.2 Spark的基本概念

2.1.3 Spark集群相关知识

2.2 Linux环境搭建

2.2.1 VirtualBox虚拟机的安装

2.2.2 安装Linux操作系统

2.2.3 SSH工具与使用

2.2.4 Linux的统一设置

2.3 Hadoop完全分布式环境搭建

2.4 Spark的安装与配置

2.4.1 本地模式安装

2.4.2 伪分布模式安装

2.4.3 完全分布模式安装

2.4.4 Spark on YARN

2.5 Spark的任务提交

2.5.1 使用spark-submit提交

2.5.2 spark-submit参数说明

第3章 Spark的典型数据结构RDD

3.1 什么是RDD

3.2 RDD的主要属性

3.3 RDD的特点

3.4 RDD的创建与处理过程

3.4.1 RDD的创建

3.4.2 RDD的处理过程

3.4.3 RDD的算子

第4章 Spark SQL入门实战

4.1 DataFrame和DataSet实战体验

4.1.1 SparkSession

4.1.2 DataFrame应用

4.1.3 DataSet应用

4.1.4 DataFrame和DataSet之间的交互

4.2 Scala开发环境搭建及其基础编程

4.2.1 开发环境搭建

4.2.2 Scala基础编程

4.3 Spark SQL实战入门体验

第5章 Spark SQL语法基础及应用

5.1 Hive安装与元数据存储配置

5.1.1 安装Hive

5.1.2 配置MySQL存储元数据

5.2 Spark SQL DML语句

5.2.1 插入数据

5.2.2 加载数据

5.3 Spark SQL查询语句

5.4 Spark SQL函数操作

5.4.1 内置函数及使用

5.4.2 自定义函数

第6章 Spark SQL数据源

6.1 Spark SQL数据加载、存储概述

6.1.1 通用load/save函数

6.1.2 手动指定选项

6.1.3 在文件上直接进行SQL查询

6.1.4 存储模式

6.1.5 持久化到表

6.1.6 桶、排序、分区操作

6.2 Spark SQL常见结构化数据源

6.2.1 Parquet文件

6.2.2 JSON数据集

6.2.3 Hive表

6.2.4 其他关系数据库中的数据表

第7章 Spark SQL性能调优

7.1 Spark执行流程

7.2 Spark内存管理

7.3 Spark的一些概念

7.4 Spark开发原则

7.5 Spark调优方法

7.6 数据倾斜调优

7.7 Spark执行引擎Tungsten简介

7.8 Spark SQL解析引擎Catalyst简介

第8章 Spark SQL影评大数据分析项目实战

8.1 项目介绍

8.2 项目实现

8.2.1 引入依赖

8.2.2 公共类开发

8.2.3 需求1的实现

8.2.4 需求2的实现

8.2.5 需求3的实现

第9章 Spark SQL商品统计分析项目实战

9.1 项目介绍

9.2 项目实现

9.2.1 引入依赖

9.2.2 环境测试

9.2.3 Spark SQL初始化数据

9.2.4 Spark SQL商品数据分析

第10章 Spark SQL咖啡销售数据分析项目实战

10.1 项目介绍

10.2 数据预处理与数据分析

10.2.1 查看咖啡销售量排名

10.2.2 观察咖啡销售量的分布情况

10.3 数据可视化

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部