为你推荐

前折页
书名页
版权
对本书的赞誉(按姓氏拼音字母排序)
译者序
前言
第1章 导论
1.1 什么是机器学习
1.2 监督学习
1.2.1 分类
1.2.2 回归
1.2.3 过拟合和泛化
1.2.4 “没有免费的午餐”定理
1.3 无监督学习
1.3.1 聚类
1.3.2 发现潜在的“变异因子”
1.3.3 自监督学习
1.3.4 评估无监督学习
1.4 强化学习
1.5 数据
1.5.1 常见的图像数据集
1.5.2 常见的文本数据集
1.5.3 离散输入数据的预处理
1.5.4 预处理文本数据
1.5.5 处理缺失数据
1.6 进一步讨论
1.6.1 机器学习与其他领域的关系
1.6.2 本书的组织结构
1.6.3 注意事项
第一部分 理论基础
第2章 概率:单变量模型
2.1 概述
2.1.1 什么是概率
2.1.2 不确定性的类型
2.1.3 概率的基本规则
2.2 随机变量
2.2.1 离散随机变量
2.2.2 连续随机变量
2.2.3 相关随机变量集
2.2.4 独立性和条件独立性
2.2.5 分布的矩
2.2.6 汇总统计信息的局限性*
2.3 贝叶斯规则
2.3.1 示例:病毒检测
2.3.2 示例:三门问题
2.3.3 逆问题*
2.4 伯努利分布和二项分布
2.4.1 定义
2.4.2 sigmoid函数
2.4.3 二元逻辑回归
2.5 分类分布和多项式分布
2.5.1 定义
2.5.2 softmax函数
2.5.3 多类逻辑回归
2.5.4 对数-求和-自然指数技巧
2.6 单变量高斯分布
2.6.1 累积分布函数
2.6.2 概率密度函数
2.6.3 回归
2.6.4 为什么高斯分布被广泛使用
2.6.5 作为限制情形的Dirac-δ函数
2.7 其他常见的单变量分布*
2.7.1 学生t分布
2.7.2 柯西分布
2.7.3 拉普拉斯分布
2.7.4 贝塔分布
2.7.5 伽马分布
2.7.6 经验分布
2.8 随机变量的变换*
2.8.1 离散情况
2.8.2 连续情况
2.8.3 可逆变换(双射)
2.8.4 线性变换的矩
2.8.5 卷积定理
2.8.6 中心极限定理
2.8.7 蒙特卡罗近似
2.9 练习题
第3章 概率:多元模型
3.1 多个随机变量的联合分布
3.1.1 协方差
3.1.2 相关性
3.1.3 不相关并不意味着独立
3.1.4 相关性并不意味着因果关系
3.1.5 Simpson悖论
3.2 多元高斯分布
3.2.1 定义
3.2.2 马哈拉诺比斯距离
3.2.3 多元正态分布的边缘概率和条件概率*
3.2.4 示例:条件二维高斯分布
3.2.5 示例:处理缺失值*
3.3 线性高斯系统*
3.3.1 高斯贝叶斯规则
3.3.2 推导*
3.3.3 示例:推理未知标量
3.3.4 示例:推理未知向量
3.3.5 示例:传感器融合
3.4 指数概率分布族*
3.4.1 定义
3.4.2 示例
3.4.3 对数配分函数为累积量生成函数
3.4.4 指数概率分布族的最大熵推导
3.5 混合模型
3.5.1 高斯混合模型
3.5.2 伯努利混合模型
3.6 概率图模型*
3.6.1 表示
3.6.2 推理
3.6.3 学习
3.7 练习题
第4章 统计学
4.1 概述
4.2 最大似然估计
4.2.1 定义
4.2.2 最大似然估计的论证
4.2.3 示例:伯努利分布的最大似然估计
4.2.4 示例:分类分布的最大似然估计
4.2.5 示例:单变量高斯分布的最大似然估计
4.2.6 示例:多元高斯分布的最大似然估计
4.2.7 示例:线性回归的最大似然估计
4.3 经验风险最小化
4.3.1 示例:最小化错误分类率
4.3.2 代理损失
4.4 其他估计方法*
4.4.1 矩量法
4.4.2 在线估计
4.5 正则化
4.5.1 示例:伯努利分布的最大后验估计
4.5.2 示例:多元高斯分布的最大后验估计*
4.5.3 示例:权重衰减
4.5.4 使用验证集选择正则化因子
4.5.5 交叉验证
4.5.6 提前终止法
4.5.7 使用更多数据
4.6 贝叶斯统计学*
4.6.1 共轭先验
4.6.2 贝塔二项式模型
4.6.3 狄利克雷-多项式模型
4.6.4 高斯-高斯模型
4.6.5 非共轭先验
4.6.6 可信区间
4.6.7 贝叶斯机器学习
4.6.8 计算问题
4.7 频率学派统计学*
4.7.1 采样分布
4.7.2 最大似然估计采样分布的高斯近似
4.7.3 任何估计器采样分布的自举法近似
4.7.4 置信区间
4.7.5 请注意:置信区间不可信
4.7.6 偏差-方差权衡
4.8 练习题
第5章 决策理论
5.1 贝叶斯决策理论
5.1.1 基本概念
5.1.2 分类问题
5.1.3 ROC曲线
5.1.4 精确率-召回率曲线
5.1.5 回归问题
5.1.6 概率预测问题
5.2 贝叶斯假设检验
5.2.1 示例:测试硬币是否均匀
5.2.2 贝叶斯模型选择
5.2.3 奥卡姆剃刀原理
5.2.4 交叉验证与边缘可能性之间的联系
5.2.5 信息标准
5.3 频率学派决策理论
5.3.1 估计器的风险计算
5.3.2 一致估计器
5.3.3 可容许估计器
5.4 经验风险最小化
5.4.1 经验风险
5.4.2 结构风险
5.4.3 交叉验证
5.4.4 统计学习理论*
5.5 频率学派假设检验*
5.5.1 似然比测试
5.5.2 无效假设显著性检验
5.5.3 p-值
5.5.4 被认为有害的p-值
5.5.5 为什么有人不坚持贝叶斯学派统计学理论
5.6 练习题
第6章 信息论
6.1 熵
6.1.1 离散随机变量的熵
6.1.2 交叉熵
6.1.3 联合熵
6.1.4 条件熵
6.1.5 困惑度
6.1.6 连续随机变量的微分熵*
6.2 相对熵*
6.2.1 定义
6.2.2 解释
6.2.3 示例:两个高斯分布之间的KL散度
6.2.4 KL散度的非负性
6.2.5 KL散度和最大似然估计
6.2.6 正向KL与反向KL
6.3 互信息*
6.3.1 定义
6.3.2 解释
6.3.3 示例
6.3.4 条件互信息
6.3.5 互信息作为“广义相关系数”
6.3.6 归一化互信息
6.3.7 最大信息系数
6.3.8 数据处理不等式
6.3.9 充分统计量
6.3.10 法诺不等式*
6.4 练习题
第7章 线性代数
7.1 概述
7.1.1 符号说明
7.1.2 向量空间
7.1.3 向量和矩阵的范数
7.1.4 矩阵的性质
7.1.5 特殊类型的矩阵
7.2 矩阵乘法
7.2.1 向量-向量的乘积
7.2.2 矩阵-向量的乘积
7.2.3 矩阵-矩阵的乘积
7.2.4 应用:数据矩阵的操作
7.2.5 克罗内克乘积*
7.2.6 爱因斯坦求和*
7.3 矩阵求逆
7.3.1 方阵的逆
7.3.2 舒尔补*
7.3.3 矩阵求逆引理*
7.3.4 矩阵行列式引理*
7.3.5 应用:推导多元正态分布的条件*
7.4 特征值分解
7.4.1 基础
7.4.2 矩阵对角化
7.4.3 对称矩阵的特征值和特征向量
7.4.4 二次型的几何特性
7.4.5 标准化和白化数据
7.4.6 幂方法
7.4.7 矩阵收缩
7.4.8 特征向量优化二次型
7.5 奇异值分解
7.5.1 基础
7.5.2 奇异值分解与特征值分解的联系
7.5.3 伪逆
7.5.4 奇异值分解与矩阵的值域空间和零空间*
7.5.5 截断奇异值分解
7.6 其他矩阵分解*
7.6.1 LU分解
7.6.2 正交三角分解
7.6.3 Cholesky分解
7.7 求解线性方程组*
7.7.1 求解方阵线性方程组
7.7.2 求解欠约束线性方程组
7.7.3 求解过度约束线性方程组
7.8 矩阵微积分
7.8.1 导数
7.8.2 梯度
7.8.3 方向导数
7.8.4 全导数*
7.8.5 雅可比矩阵
7.8.6 黑塞矩阵
7.8.7 常用函数的梯度
7.9 练习题
第8章 优化理论
8.1 概述
8.1.1 局部优化与全局优化
8.1.2 约束优化与无约束优化
8.1.3 凸优化与非凸优化
8.1.4 平滑优化与非平滑优化
8.2 一阶方法
8.2.1 下降方向
8.2.2 步长
8.2.3 收敛速度
8.2.4 动量方法
8.3 二阶方法
8.3.1 牛顿法
8.3.2 BFGS和其他拟牛顿方法
8.3.3 信任区域方法
8.4 随机梯度下降
8.4.1 应用于有限和问题
8.4.2 示例:用于拟合线性回归的随机梯度下降
8.4.3 选择步长
8.4.4 迭代平均
8.4.5 方差缩减技术*
8.4.6 预处理随机梯度下降
8.5 约束优化
8.5.1 拉格朗日乘子
8.5.2 KKT条件
8.5.3 线性规划
8.5.4 二次型规划
8.5.5 混合整数线性规划*
8.6 近端梯度法*
8.6.1 投影梯度下降
8.6.2 ℓ1范数正则化因子的近端算子
8.6.3 量化的近端算子
8.6.4 增量近端方法
8.7 边界优化*
8.7.1 通用算法
8.7.2 期望最大化算法
8.7.3 示例:高斯混合模型的期望最大化
8.8 黑盒和无梯度优化
8.9 练习题
第二部分 线性模型
第9章 线性判别分析
9.1 概述
9.2 高斯判别分析
9.2.1 二次型决策边界
9.2.2 线性决策边界
9.2.3 线性判别分析与逻辑回归之间的联系
9.2.4 模型拟合
9.2.5 最近邻质心分类器
9.2.6 Fisher线性判别分析*
9.3 朴素贝叶斯分类器
9.3.1 示例模型
9.3.2 模型拟合
9.3.3 贝叶斯朴素贝叶斯
9.3.4 朴素贝叶斯与逻辑回归之间的联系
9.4 生成式分类器与判别式分类器的比较
9.4.1 判别式分类器的优点
9.4.2 生成式分类器的优点
9.4.3 处理缺失特征
9.5 练习题
第10章 逻辑回归
10.1 概述
10.2 二元逻辑回归
10.2.1 线性分类器
10.2.2 非线性分类器
10.2.3 最大似然估计
10.2.4 随机梯度下降
10.2.5 感知器算法
10.2.6 迭代重加权最小二乘法
10.2.7 最大后验估计
10.2.8 标准化
10.3 多项式逻辑回归
10.3.1 线性分类器和非线性分类器
10.3.2 最大似然估计
10.3.3 基于梯度的优化
10.3.4 边界优化
10.3.5 最大后验估计
10.3.6 最大熵分类器
10.3.7 层次分类
10.3.8 处理大量的类
10.4 鲁棒逻辑回归*
10.4.1 似然的混合模型
10.4.2 双稳态损失
10.5 贝叶斯逻辑回归*
10.5.1 拉普拉斯近似
10.5.2 近似后验预测
10.6 练习题
第11章 线性回归
11.1 概述
11.2 最小二乘线性回归
11.2.1 术语
11.2.2 最小二乘估计
11.2.3 计算最大似然估计的其他方法
11.2.4 测量拟合优度
11.3 岭回归
11.3.1 计算最大后验估计
11.3.2 岭回归与主成分分析之间的联系
11.3.3 选择正则化因子的强度
11.4 套索回归
11.4.1 拉普拉斯先验的最大后验估计
11.4.2 为什么ℓ1正则化产生稀疏解
11.4.3 硬阈值与软阈值
11.4.4 正则化路径
11.4.5 最小二乘法、套索回归、岭回归和子集选择的比较
11.4.6 变量选择一致性
11.4.7 群组套索回归
11.4.8 弹性网络
11.4.9 优化算法
11.5 回归样条法*
11.5.1 B-样条基函数
11.5.2 使用样条基函数拟合线性模型
11.5.3 平滑样条法
11.5.4 广义加性模型
11.6 鲁棒线性回归*
11.6.1 拉普拉斯似然分布
11.6.2 学生t似然分布
11.6.3 Huber损失
11.6.4 RANSAC
11.7 贝叶斯线性回归*
11.7.1 先验概率
11.7.2 后验概率
11.7.3 示例
11.7.4 计算后验预测
11.7.5 中心化的优势
11.7.6 处理多重共线性
11.7.7 自动相关性确定*
11.8 练习题
第12章 广义线性模型*
12.1 概述
12.2 示例
12.2.1 线性回归
12.2.2 二项回归
12.2.3 泊松回归
12.3 具有非规范链接函数的广义线性模型
12.4 最大似然估计
12.5 示例:预测保险理赔
第三部分 深度神经网络
第13章 结构化数据的神经网络
13.1 概述
13.2 多层感知器
13.2.1 XOR问题
13.2.2 可微的多层感知器
13.2.3 激活函数
13.2.4 示例模型
13.2.5 深度的重要性
13.2.6 “深度学习革命”
13.2.7 与生物学的联系
13.3 反向传播
13.3.1 正向模式与反向模式的差异
13.3.2 多层感知器的反向模式微分
13.3.3 普通层的向量雅可比乘积
13.3.4 计算图
13.4 训练神经网络
13.4.1 调整学习率
13.4.2 梯度消失和梯度爆炸
13.4.3 非饱和激活函数
13.4.4 残差连接
13.4.5 参数初始化
13.4.6 并行训练
13.5 正则化
13.5.1 提前终止
13.5.2 权重衰减
13.5.3 稀疏深度神经网络
13.5.4 丢弃法
13.5.5 贝叶斯神经网络
13.5.6 (随机)梯度下降的正则化效应*
13.6 其他类型的前馈网络*
13.6.1 径向基函数网络
13.6.2 专家混合模型
13.7 练习题
第14章 用于图像处理的神经网络
14.1 概述
14.2 普通层
14.2.1 卷积层
14.2.2 池化层
14.2.3 整合所有部分
14.2.4 归一化层
14.3 图像分类的通用架构
14.3.1 LeNet
14.3.2 AlexNet
14.3.3 GoogLeNet
14.3.4 ResNet
14.3.5 DenseNet
14.3.6 神经架构搜索
14.4 其他形式的卷积*
14.4.1 空洞卷积
14.4.2 转置卷积
14.4.3 深度可分离卷积
14.5 使用卷积神经网络解决其他判别式视觉任务*
14.5.1 图像标记
14.5.2 目标检测
14.5.3 实例分割
14.5.4 语义分割
14.5.5 人体姿态估计
14.6 通过反转卷积神经网络生成图像*
14.6.1 将经过训练的分类器转换为生成模型
14.6.2 图像先验
14.6.3 可视化卷积神经网络学习到的特征
14.6.4 Deep Dream
14.6.5 神经风格迁移
第15章 用于序列处理的神经网络
15.1 概述
15.2 循环神经网络
15.2.1 vec2seq:序列生成
15.2.2 seq2vec:序列分类
15.2.3 seq2seq:序列翻译
15.2.4 教师强制
15.2.5 时序反向传播
15.2.6 梯度消失和梯度爆炸
15.2.7 门控和长期记忆
15.2.8 波束搜索
15.3 一维卷积神经网络
15.3.1 用于序列分类的一维卷积神经网络
15.3.2 用于序列生成的因果一维卷积神经网络
15.4 注意力
15.4.1 作为软字典查找的注意力
15.4.2 作为非参数化注意力的核回归
15.4.3 参数化注意力
15.4.4 基于注意力机制的seq2seq
15.4.5 基于注意力机制的seq2vec:文本分类
15.4.6 基于注意力机制的seq+seq2vec:文本对分类
15.4.7 软注意力与硬注意力
15.5 Transformer
15.5.1 自注意力
15.5.2 多头注意力
15.5.3 位置编码
15.5.4 整合所有部分
15.5.5 比较Transformer、CNN和RNN
15.5.6 用于图像处理的Transformer*
15.5.7 其他Transformer变体*
15.6 高效Transformer*
15.6.1 固定的不可学习的局部注意力模式
15.6.2 可学习的稀疏注意力模式
15.6.3 记忆和循环方法
15.6.4 低秩和核方法
15.7 语言模型和无监督表示学习
15.7.1 语言模型嵌入
15.7.2 Transformer的双向编码器表示
15.7.3 生成式预训练Transformer
15.7.4 文本到文本的转换Transformer
15.7.5 讨论
第四部分 非参数化模型
第16章 基于样例的方法
16.1 K-最近邻分类
16.1.1 示例
16.1.2 维度灾难
16.1.3 降低速度和内存要求
16.1.4 开放集识别
16.2 学习距离度量
16.2.1 线性和凸方法
16.2.2 深度度量学习
16.2.3 分类损失
16.2.4 排名损失
16.2.5 加速排名损失优化
16.2.6 深度度量学习的其他训练技巧
16.3 核密度估计
16.3.1 密度核
16.3.2 Parzen窗口密度估计器
16.3.3 如何选择带宽参数
16.3.4 从核密度估计到K-最近邻分类
16.3.5 核回归
第17章 核方法*
17.1 Mercer核
17.1.1 Mercer定理
17.1.2 一些流行的Mercer核
17.2 高斯过程
17.2.1 无噪声观测
17.2.2 噪声观测
17.2.3 与核回归的比较
17.2.4 权重空间与函数空间
17.2.5 数值问题
17.2.6 估计核
17.2.7 用于分类的高斯过程
17.2.8 与深度学习的联系
17.2.9 将高斯过程扩展到大型数据集
17.3 支持向量机
17.3.1 大间距分类器
17.3.2 对偶问题
17.3.3 软间距分类器
17.3.4 核技巧
17.3.5 将支持向量机的输出转换为概率
17.3.6 与逻辑回归的联系
17.3.7 支持向量机的多类别分类
17.3.8 如何选择正则化因子C
17.3.9 核岭回归
17.3.10 用于回归的支持向量机
17.4 稀疏向量机
17.4.1 相关向量机
17.4.2 稀疏核方法和稠密核方法的比较
17.5 练习题
第18章 树、森林、装袋法和提升法
18.1 分类和回归树
18.1.1 模型定义
18.1.2 模型拟合
18.1.3 正则化
18.1.4 处理缺失的输入特性
18.1.5 优点和缺点
18.2 集成学习
18.2.1 堆叠法
18.2.2 集成不是贝叶斯模型平均
18.3 装袋法
18.4 随机森林
18.5 提升法
18.5.1 前向分段加法建模
18.5.2 二次型损失和最小二乘提升法
18.5.3 指数损失和AdaBoost
18.5.4 logitBoost
18.5.5 梯度提升算法
18.6 树集成的解释
18.6.1 特征重要性
18.6.2 部分依赖关系图
第五部分 其他的机器学习方法
第19章 基于少量标记样例的学习
19.1 数据增强
19.1.1 示例
19.1.2 理论论证
19.2 迁移学习
19.2.1 微调
19.2.2 适配器
19.2.3 监督预训练
19.2.4 无监督预训练
19.2.5 域自适应
19.3 半监督学习
19.3.1 自我训练和伪标签
19.3.2 熵最小化
19.3.3 协同训练
19.3.4 图上的标签传播
19.3.5 一致性正则化
19.3.6 深度生成式模型*
19.3.7 结合自监督和半监督学习
19.4 主动学习
19.4.1 决策理论方法
19.4.2 信息理论方法
19.4.3 批次主动学习
19.5 元学习
19.5.1 模型不可知的元学习
19.6 少量样本学习
19.6.1 匹配网络
19.7 弱监督学习
19.8 练习题
第20章 数据降维
20.1 主成分分析
20.1.1 示例
20.1.2 算法的推导
20.1.3 计算问题
20.1.4 选择潜在维度的数量
20.2 因子分析*
20.2.1 生成式模型
20.2.2 概率主成分分析
20.2.3 FA/PPCA的期望最大化算法
20.2.4 参数的不可识别性
20.2.5 非线性因子分析
20.2.6 因子分析器的混合模型
20.2.7 指数族因子分析
20.2.8 配对数据的因子分析模型
20.3 自动编码器
20.3.1 瓶颈自动编码器
20.3.2 去噪自动编码器
20.3.3 收缩式自动编码器
20.3.4 稀疏自动编码器
20.3.5 变分自动编码器
20.4 流形学习*
20.4.1 什么是流形
20.4.2 流形假设
20.4.3 流形学习的方法
20.4.4 多维尺度变换
20.4.5 Isomap
20.4.6 核主成分分析
20.4.7 最大方差展开
20.4.8 局部线性嵌入
20.4.9 拉普拉斯特征映射
20.4.10 t-SNE
20.5 词嵌入
20.5.1 潜在语义分析/索引
20.5.2 word2vec
20.5.3 GloVe
20.5.4 单词类比
20.5.5 单词嵌入的RAND-WALK模型
20.5.6 上下文单词嵌入
20.6 练习题
第21章 聚类
21.1 概述
21.1.1 评价聚类方法的输出
21.2 层次聚合聚类
21.2.1 算法
21.2.2 示例
21.2.3 扩展
21.3 K-均值聚类
21.3.1 算法
21.3.2 示例
21.3.3 向量量化
21.3.4 K-均值聚类++算法
21.3.5 K-中心点算法
21.3.6 加速技巧
21.3.7 选择簇数K
21.4 使用混合模型进行聚类
21.4.1 高斯混合模型
21.4.2 伯努利混合模型
21.5 谱聚类*
21.5.1 归一化切割
21.5.2 图拉普拉斯算子的特征向量编码聚类
21.5.3 示例
21.5.4 与其他方法的联系
21.6 双聚类*
21.6.1 基本双聚类
21.6.2 嵌套划分模型
第22章 推荐系统
22.1 明确反馈
22.1.1 数据集
22.1.2 协同过滤
22.1.3 矩阵分解
22.1.4 自动编码器
22.2 隐式反馈
22.2.1 贝叶斯个性化排序
22.2.2 因子分解机
22.2.3 神经矩阵分解
22.3 利用辅助信息
22.4 “探索-利用”权衡
第23章 图嵌入*
23.1 概述
23.2 图嵌入作为编码器/解码器问题
23.3 浅层图嵌入
23.3.1 无监督嵌入
23.3.2 基于距离:欧几里得方法
23.3.3 基于距离:非欧几里得方法
23.3.4 基于外积:矩阵分解方法
23.3.5 基于外积:skip-gram方法
23.3.6 有监督嵌入
23.4 图神经网络
23.4.1 消息传递图神经网络
23.4.2 谱图卷积
23.4.3 空间图卷积
23.4.4 非欧几里得图卷积
23.5 深度图嵌入
23.5.1 无监督嵌入
23.5.2 半监督嵌入
23.6 应用
23.6.1 无监督的应用
23.6.2 有监督的应用
附录 符号对照表
参考文献
智能科学与技术丛书
后折页
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜