万本电子书0元读

万本电子书0元读

顶部广告

从零开始写大模型电子书

可学AI团队倾力造,带领读者以极低的门槛快速门大模型;涵盖从神经网络到Transformer架构再到GPT模型构建的完整知识体系;通过案例手把手带领读者实际体验一个真实大模型的完整构建流程;赠送教学视频、教学PPT、源代码等超值配套资源;提供QQ群、公众号等完善的售后服务渠道;本书特色:内容全面:涵盖从神经网络快速门到Transformer架构解析,再到GPT模型构建实战等方方面面的知识,帮助读者全面学习大模型构建的完整知识体系。门槛极低:手把手带领读者推导公式并动手写代码,通过实践加深读者对知识的理解,帮助读者理解GPT的基本原理,从而大幅降低大模型的学习门槛。轻松上手:基于作者多年的AI授课经验造的神经网络门课程体系编写,通过通俗易懂的完整案例,手把手带领读者轻松门大模型。图文并茂:结合160多幅示意图行讲解,用图文并茂的方式直观地介绍大模型的基本原理与构建过程,帮助读者透彻地理解所学知识。实用性强:结合大量的Python代码示例讲解,带领读者上手实践,并详解一个有2700万个参数的极简源大模型MiniMind的构建,手把手带领读者实际体验一个真实大模型的构建流程。资源超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。服务完善:提供QQ群、B站、电子邮箱和公众号等多种服务渠道,为读者的学习保驾护航。

售       价:¥

纸质售价:¥55.10购买纸书

6人正在读 | 0人评论 6.5

作       者:王双、牟晨、王昊怡

出  版  社:清华大学出版社

出版时间:2025-07-01

字       数:12.5万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
《从零始写大模型:从神经网络到Transformer》结合丰富的图示和程序示例,全面、系统地介绍大模型的基本原理,并通过一个极简大语言模型构建案例带领读者上手实践。本书学习门槛极低,即便零基础的读者,也能在本书的引领下比较轻松地掌握大模型的基本知识体系,并理解大模型的基本原理,从而为日后一步学习好基础。《从零始写大模型:从神经网络到Transformer》提供配套教学视频、源代码和教学PPT等超值配套资源,以方便读者高效、直观地学习。《从零始写大模型:从神经网络到Transformer》共20章,分为5篇。第1篇神经网络快速门,介绍神经网络的基础和结构;第2篇Transformer架构基础,介绍几种经典的编解码架构、Tokenization基础知识、Transformer架构涉及的数学概念;第3篇Transformer模型剖析,首先介绍大语言模型的概念和参数规模,然后介绍Transformer的词汇输模块、注意力机制模块和输出模块,最后介绍基于Transformer架构的模型训练过程、推理过程、优化方法和超参数;第4篇Transformer阶,首先介绍如何使用Python实现一个简单的Transformer架构,然后介绍BERT和GPT两种经典大语言模型,最后给出国内一些大公司的高频面试题;第5篇GPT模型完全体验之MiniMind,详细介绍一个源极简大语言模型MiniMind的项目情况、代码结构,以及安装、训练、微调与推理过程等,带领读者体验大语言模型的完整构建过程。《从零始写大模型:从神经网络到Transformer》内容丰富,通俗易懂,案例典型,讲解深浅出,特别适合零基础学习大模型的读者阅读,也适合IT领域或其他领域向AI转型但缺乏基础的程序员、工程师等相关从业人员阅读,还适合高等院校和培训机构作为大模型的门教材或教学参考书。<br/>【推荐语】<br/>可学AI团队倾力造,带领读者以极低的门槛快速门大模型;涵盖从神经网络到Transformer架构再到GPT模型构建的完整知识体系;通过案例手把手带领读者实际体验一个真实大模型的完整构建流程;赠送教学视频、教学PPT、源代码等超值配套资源;提供QQ群、公众号等完善的售后服务渠道;本书特色:内容全面:涵盖从神经网络快速门到Transformer架构解析,再到GPT模型构建实战等方方面面的知识,帮助读者全面学习大模型构建的完整知识体系。门槛极低:手把手带领读者推导公式并动手写代码,通过实践加深读者对知识的理解,帮助读者理解GPT的基本原理,从而大幅降低大模型的学习门槛。轻松上手:基于作者多年的AI授课经验造的神经网络门课程体系编写,通过通俗易懂的完整案例,手把手带领读者轻松门大模型。图文并茂:结合160多幅示意图行讲解,用图文并茂的方式直观地介绍大模型的基本原理与构建过程,帮助读者透彻地理解所学知识。实用性强:结合大量的Python代码示例讲解,带领读者上手实践,并详解一个有2700万个参数的极简源大模型MiniMind的构建,手把手带领读者实际体验一个真实大模型的构建流程。资源超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。服务完善:提供QQ群、B站、电子邮箱和公众号等多种服务渠道,为读者的学习保驾护航。<br/>【作者】<br/>王双,博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2017年起教授人工智能的相关课程,对PINN和AIGC的相关理论与应用有深的研究,熟练掌握AIGC的相关原理、工具与发技巧,熟悉AIGC的各种场景应用,主持发了高校AIGC实训中心平台。已为多所高等院校提供AIGC相关课程、师资、平台综合解决方案。主持编写并出版了《AI绘画大师之道:轻松门》和《AI绘画全场景案例应用与实践》等图书。牟晨,毕业于西安石油大学,现任可学AI研发工程师。对现有大语言模型涉猎较深,精通常见源模型的本地部署与工程化应用,技巧娴熟,为多所高校讲授GPT通识课程。王昊怡,毕业于武汉纺织大学,现任可学AI研发工程师。拥有丰富的智能体发经验,精通RAG本地知识库与常见源模型微调,为多所高校讲授GPT通识课程。<br/>
目录展开

作者简介

内容简介

前言

本书特色

本书内容

读者对象

配套资源获取方式

意见反馈

致谢

第1篇 神经网络快速入门

第1章 神经网络基础

1.1 神经元

1.2 手算神经网络

1.3 手推前向传播

1.4 手推反向传播

第2章 手搓神经网络

2.1 写一个神经网络并训练

2.2 经典神经网络——CNN

2.3 经典神经网络——RNN

第2篇 Transformer架构基础

第3章 编解码架构概述

3.1 数据处理的高效邮递员——Auto encoder

3.2 温故而知新——VAE

3.3 深度学习中的猫鼠游戏——GAN

3.4 变形金刚——Transformer

第4章 Tokenization基础

4.1 文字转数字

4.2 词嵌入

第5章 Transformer架构的数学基础

5.1 向量和矩阵相乘的变换

5.2 空间变化的性质

5.3 层归一化

第3篇 Transformer模型剖析

第6章 Transformer架构概述

6.1 大语言模型概述

6.2 Transformer架构基础

第7章 词汇输入模块

7.1 Tokenization方法

7.2 位置编码

7.3 深入理解词嵌入与位置信息

第8章 注意力机制模块

8.1 注意力机制的运算

8.2 交叉注意力

8.3 多头注意力

第9章 输出模块

9.1 残差连接和Norm处理

9.2 全连接前馈神经网络

9.3 mask处理

9.4 最终输出逻辑及参数量

第10章 基于Transformer架构的模型训练、推理与优化

10.1 训练过程

10.2 推理过程

10.3 Seq2Seq的优化过程

第11章 Transformer模型的超参数

11.1 学习率

11.2 批处理数量batch_size

11.3 维度

11.4 多头注意力的头数

第4篇 Transformer进阶

第12章 手搓Transformer架构

12.1 Transformer的核心架构代码

12.2 Encoder代码详解

12.3 Decoder代码详解

第13章 经典大语言模型

13.1 只使用编码端的经典BERT模型剖析

13.2 只使用解码端的经典GPT模型剖析

13.3 BERT模型与GPT模型的对比

第14章 Transformer算法面试12问

14.1 Transformer模型为什么使用Layer Norm

14.2 在Transformer模型中FFN有什么作用

14.3 在Transformer模型中Position Embedding有什么作用

14.4 Transformer模型中的Weight Tying是什么

14.5 为什么大多数大语言模型都是仅解码器架构

14.6 在Transformer模型中Encoder和Decoder是如何交汇的

14.7 Transformer模型中的Layer Norm可以并行吗

14.8 什么是张量并行

14.9 在Transformer模型中为什么使用不同权重的矩阵生成Q和K

14.10 更深、更宽的Transformer网络是否意味着更强的训练模型

14.11 Transformer模型推理为何要做K、V缓存

14.12 在Transformer模型中K、V缓存是如何工作的

第5篇 GPT模型完全体验之MiniMind

第15章 大模型案例之MiniMind

15.1 MiniMind模型概述

15.2 项目简介

15.3 代码框架

第16章 MiniMind代码详解

16.1 输入部分

16.2 MiniMind中的Transformer架构

16.3 输出部分

16.4 微调过程

16.5 测试过程

第17章 MiniMind模型的安装

17.1 软硬件环境的配置

17.2 项目安装

第18章 MiniMind模型的训练

18.1 数据集

18.2 参数配置

18.3 预训练

第19章 MiniMind模型的微调

19.1 单轮对话微调

19.2 多轮对话微调

第20章 MiniMind模型的推理

20.1 测试模型的对话效果

20.2 测试模型的接龙效果

20.3 不同模型的对比

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部