Github4万星神作,数据处理 模型搭建 无监督训练 任务微调,仅需掌握Python,带你从零构建AI大模型; 揭大模型背后的面纱,让读者了解其工作原理,学习如何评估其质量,并掌握微调和改的具体技术; 强调亲手实践,使用PyTorch而不依赖现有库,通过各种图表和图解帮助读者深理解LLM的工作机制、局限性和定制方式; 通过本书的学习,读者可以创建自己的小型但功能强大的模型,并将其作为个人助手使用;
售 价:¥
纸质售价:¥69.80购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
版权声明
前言
致谢
关于本书
目标读者
本书结构概览
关于代码
本书论坛
其他在线资源
关于封面插图
第 1 章 理解大语言模型
1.1 什么是大语言模型
1.2 大语言模型的应用
1.3 构建和使用大语言模型的各个阶段
1.4 Transformer 架构介绍
1.5 利用大型数据集
1.6 深入剖析 GPT 架构
1.7 构建大语言模型
1.8 小结
第 2 章 处理文本数据
2.1 理解词嵌入
2.2 文本分词
2.3 将词元转换为词元 ID
2.4 引入特殊上下文词元
2.5 BPE
2.6 使用滑动窗口进行数据采样
2.7 创建词元嵌入
2.8 编码单词位置信息
2.9 小结
第 3 章 编码注意力机制
3.1 长序列建模中的问题
3.2 使用注意力机制捕捉数据依赖关系
3.3 通过自注意力机制关注输入的不同部分
3.3.1 没有可训练权重的简单自注意力机制
3.3.2 计算所有输入词元的注意力权重
3.4 实现带可训练权重的自注意力机制
3.4.1 逐步计算注意力权重
3.4.2 实现一个简化的自注意 Python 类
3.5 利用因果注意力隐藏未来词汇
3.5.1 因果注意力的掩码实现
3.5.2 利用 dropout 掩码额外的注意力权重
3.5.3 实现一个简化的因果注意力类
3.6 将单头注意力扩展到多头注意力
3.6.1 叠加多个单头注意力层
3.6.2 通过权重划分实现多头注意力
3.7 小结
第 4 章 从头实现 GPT 模型进行文本生成
4.1 构建一个大语言模型架构
4.2 使用层归一化进行归一化激活
4.3 实现具有 GELU 激活函数的前馈神经网络
4.4 添加快捷连接
4.5 连接 Transformer 块中的注意力层和线性层
4.6 实现 GPT 模型
4.7 生成文本
4.8 小结
第 5 章 在无标签数据上进行预训练
5.1 评估文本生成模型
5.1.1 使用 GPT 来生成文本
5.1.2 计算文本生成损失
5.1.3 计算训练集和验证集的损失
5.2 训练大语言模型
5.3 控制随机性的解码策略
5.3.1 温度缩放
5.3.2 Top-k 采样
5.3.3 修改文本生成函数
5.4 使用 PyTorch 加载和保存模型权重
5.5 从 OpenAI 加载预训练权重
5.6 小结
第 6 章 针对分类的微调
6.1 不同类型的微调
6.2 准备数据集
6.3 创建数据加载器
6.4 初始化带有预训练权重的模型
6.5 添加分类头
6.6 计算分类损失和准确率
6.7 在有监督数据上微调模型
6.8 使用大语言模型作为垃圾消息分类器
6.9 小结
第 7 章 通过微调遵循人类指令
7.1 指令微调介绍
7.2 为有监督指令微调准备数据集
7.3 将数据组织成训练批次
7.4 创建指令数据集的数据加载器
7.5 加载预训练的大语言模型
7.6 在指令数据上微调大语言模型
7.7 抽取并保存模型回复
7.8 评估微调后的大语言模型
7.9 结论
7.9.1 下一步
7.9.2 跟上领域的最新进展
7.9.3 写在最后
7.10 小结
附录 A PyTorch 简介
A.1 什么是 PyTorch
A.1.1 PyTorch 的三大核心组件
A.1.2 定义深度学习
A.1.3 安装 PyTorch
A.2 理解张量
A.2.1 标量、向量、矩阵和张量
A.2.2 张量数据类型
A.2.3 常见的 PyTorch 张量操作
A.3 将模型视为计算图
A.4 轻松实现自动微分
A.5 实现多层神经网络
A.6 设置高效的数据加载器
A.7 典型的训练循环
A.8 保存和加载模型
A.9 使用 GPU 优化训练性能
A.9.1 在 GPU 设备上运行 PyTorch
A.9.2 单个 GPU 训练
A.9.3 使用多个 GPU 训练
A.10 小结
附录 B 参考文献和延伸阅读
第 1 章
第 2 章
第 3 章
第 4 章
第 5 章
第 6 章
第 7 章
附录 A
附录 C 练习的解决方案
第 2 章
第 3 章
第 4 章
第 5 章
第 6 章
第 7 章
附录 A
附录 D 为训练循环添加更多细节和优化功能
D.1 学习率预热
D.2 余弦衰减
D.3 梯度裁剪
D.4 修改的训练函数
附录 E 使用 LoRA 进行参数高效微调
E.1 LoRA 简介
E.2 准备数据集
E.3 初始化模型
E.4 使用 LoRA 进行参数高效微调
附录 F 理解推理大语言模型:构建与优化推理模型的方法和策略
一、如何定义“推理模型”
二、何时应该使用推理模型
三、简要介绍 DeepSeek R1 的训练流程
四、构建和优化推理模型的四大核心方法
五、关于 DeepSeek R1 的思考
六、在有限预算下开发推理模型
看完了
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜