万本电子书0元读

万本电子书0元读

顶部广告

扩散模型——核心原理与强化学习优化电子书

·前沿技术解析:系统梳理Diffusion-QL、Plan Diffuser、DDPO、Diffusion-DPO等关键算法,紧跟学术与工业界展。  ·学用双向赋能:不仅讲解扩散模型在强化学习中的应用,更深探讨强化学习对扩散模型的优化,实现技术闭环。 ·理论实战融合:提供大量可运行的代码实例,涵盖机器人控制、自动驾驶等场景。 ·系统知识脉络:从数学基础、模型设计到应用扩展,构建“原理—实现—系统—优化”的完整知识体系。

售       价:¥

纸质售价:¥62.20购买纸书

2人正在读 | 0人评论 6.4

作       者:陈云、牛雅哲、张金欧文 编著

出  版  社:人民邮电出版社有限公司

出版时间:2025-11-01

字       数:12.2万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
本书通过系统化的理论讲解与实战导向的案例分析,帮助读者掌握扩散模型与强化学习的结合应用,探索其针对实际问题的解决方案。书中首先介绍了生成模型的发展史,特别是扩散模型的起源和核心思想,为读者学习后续章节奠定基础;然后深探讨了扩散模型在构建决策智能体、结合价值函数等方面的应用,还详细讲解了如何利用扩散模型解决轨迹优化和策略优化等问题;下来探索了扩散模型在多任务泛化和世界模型建模方面的扩展应用,展示了其在复杂环境中的适应性和灵活性;最后讨论了利用强化学习优化扩散模型的新展,以及扩散模型在决策问题上的前沿研究方向。<br/>【推荐语】<br/>·前沿技术解析:系统梳理Diffusion-QL、Plan Diffuser、DDPO、Diffusion-DPO等关键算法,紧跟学术与工业界展。  ·学用双向赋能:不仅讲解扩散模型在强化学习中的应用,更深探讨强化学习对扩散模型的优化,实现技术闭环。 ·理论实战融合:提供大量可运行的代码实例,涵盖机器人控制、自动驾驶等场景。 ·系统知识脉络:从数学基础、模型设计到应用扩展,构建“原理—实现—系统—优化”的完整知识体系。 ·面向生产科研:适合希望将扩散模型应用于复杂决策场景的工程师阅读,也能够满足研究者对技术本质与前沿方向的深度探索。<br/>【作者】<br/>陈云 北京大学智能科学与技术专业学士、软件工程硕士,现任阿里巴巴国际数字商业集团智能技术部推荐算法工程师,主要研究方向为生成式人工智能在智能推荐与商业广告中的创新应用。曾于上海人工智能实验室担任研究员,深度参与源强化学习平台DI-engine的研发与维护,并在生成式策略学习与扩散模型方向持续输出技术博客文章与源实践项目,目前多项研究成果发表于国际顶级会议及期刊。 牛雅哲 上海人工智能实验室前沿探索中心研究员,源决策智能组织OpenDILab(GitHub Star 数超2.7万,为国内影响力广泛的决策智能源组织)负责人。曾在NeurIPS、ICLR、AAAI等机器学习顶级会议上发表多篇论文,在强化学习、分布式系统及大模型训练基建等领域拥有多年研发经验,长期致力于探索机器学习算法与系统设计优化相结合的最佳实践路径。 张金欧文 上海人工智能实验室AI For Science中心算法工程师,研究方向为生成模型、强化学习、科学智能与工业智能。<br/>
目录展开

版 权

内容提要

前 言

资源与支持

第1章 起源:扩散模型简介

1.1 生成模型的发展史

1.2 扩散模型核心思想介绍

1.2.1 扩散过程及其逆过程

1.2.2 扩散模型的训练

1.2.3 扩散模型的推断

1.2.4 扩散模型的评价指标

1.2.5 扩散模型的类型

1.3 条件扩散模型

1.3.1 分类器引导采样和无分类器引导采样

1.3.2 ControlNet

1.4 扩散模型加速采样方法

1.4.1 training-free加速采样方法

1.4.2 training-based加速采样方法

参考文献

第2章 基石:扩散模型与轨迹优化问题

2.1 离线强化学习

2.2 第一个基于扩散模型的决策智能体:Plan Diffuser

2.2.1 以轨迹片段为对象的扩散模型

2.2.2 Plan Diffuser的建模与优化

2.2.3 Plan Diffuser的特性

2.2.4 从实验中解析Plan Diffuser

2.2.5 灵活的测试目标

2.2.6 离线强化学习

2.2.7 扩散模型热启动

2.3 条件生成决策模型的集大成者:Decision Diffuser

2.3.1 Decision Diffuser的建模与优化

2.3.2 回报以外的条件变量

2.4 代码实战

2.4.1 导入第三方库

2.4.2 准备数据集

2.4.3 配置扩散模型

2.4.4 实例化扩散模型

2.4.5 训练条件扩散模型

2.4.6 条件采样

参考文献

第3章 基石:扩散模型与价值函数的结合

3.1 强化学习中基于价值函数的策略优化

3.2 Diffusion-QL:高效建模离线数据集中的行为策略

3.3 CEP和QGPO:借助能量函数设计新的引导器

3.3.1 对比能量预测法

3.3.2 基于Q价值函数引导的策略优化

3.4 LDCQ:扩散模型约束下的Q-learning

3.4.1 背景知识

3.4.2 隐空间扩散强化学习

3.4.3 以目标为条件的隐空间扩散模型

3.4.4 实验与分析

3.4.5 局限性与展望

参考文献

第4章 基石:扩散模型训练技巧指南

4.1 如何设计去噪网络

4.1.1 U-Net

4.1.2 DiT

4.1.3 文本编码器

4.2 如何设计训练方案

4.2.1 连续时间扩散模型的训练

4.2.2 扩散过程的设计与选择

4.2.3 扩散模型建模目标与训练方式的选择

4.3 如何选择扩散模型的类型

4.4 代码实战

参考文献

第5章 扩展:多任务泛化

5.1 离线元强化学习

5.2 MetaDiffuser

5.2.1 面向任务的上下文编码器

5.2.2 条件扩散模型架构

5.2.3 双引导增强规划器

参考文献

第6章 扩展:世界模型建模

6.1 世界模型简介

6.2 基于RNN的世界模型

6.2.1 论文“World Models”

6.2.2 DreamerV3

6.3 基于Transformer的世界模型

6.3.1 IRIS

6.3.2 TWM

6.3.3 STORM

6.4 基于扩散模型的世界模型

6.4.1 扩散范式的最佳实践

6.4.2 实验结果

参考文献

第7章 反转:用强化学习来优化扩散模型

7.1 引言

7.2 DDPO:将去噪过程建模为序列决策过程

7.2.1 将扩散模型建模为多步MDP

7.2.2 策略梯度估计

7.2.3 各种奖励模型下的采样表现

7.3 Diffusion-DPO:运用于扩散模型的直接偏好优化

7.3.1 从RLHF到DPO

7.3.2 将RLHF用于文本图像对齐

7.3.3 将DPO用于文本图像对齐

7.3.4 将DPO用于扩散模型优化

7.3.5 文本图像对齐实验

7.3.6 从强化学习角度推导Diffusion-DPO

7.4 DRaFT:通过可微分奖励函数直接优化扩散模型

7.4.1 DRaFT

7.4.2 DRaFT-K

7.4.3 DRaFT-LV

7.4.4 实验结果

7.5 代码实战

参考文献

第8章 扩展:扩散模型在决策问题上的新进展

8.1 基于生成模型的强化学习策略

8.2 决策基模型中的扩散模型

8.2.1 ViNT

8.2.2 NoMaD

8.2.3 SuSIE

8.3 总结与展望

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部