万本电子书0元读

万本电子书0元读

顶部广告

终端智能语音处理技术与应用电子书

在AI大模型爆发的今天,语音交互已成为智能设备的核心口。然而,依赖云端计算的语音处理存在延迟、隐私和成本问题,终端智能语音处理技术才是未来! 《终端智能语音处理技术与应用》是业内头部专家集20余年研究、工程实践经验的典范之作,系统阐述了终端智能语音处理的全栈技术,从基础理论到工程实践,帮助读者掌握降噪、波束成形、盲源分离、回声消除、模型量化等核心技术,造高性能、低延迟的语音交互系统。

售       价:¥

纸质售价:¥86.10购买纸书

2人正在读 | 0人评论 6.3

作       者:纳跃跃 等

出  版  社:电子工业出版社

出版时间:2025-04-01

字       数:24.5万

所属分类: 科技 > 计算机/网络 > 多媒体/数据通信

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
语音是最有效的人机交互方式之一。人工智能与传统语音技术相结合使其在家居、可穿戴、机器人、车载等智能终端设备上得到了普及。终端设备具有低资源、实时性、应用场景复杂多变等特,对算法提出了更严格的要求。本书介绍了面向端侧设备的若干智能语音处理技术,书中主要采用了传统信号处理与深度学习相结合的方法论,并且介绍了在实际工程应用中的若干心得,适合于理工科高年级本科生、研究生,以及语音领域的工程师阅读。<br/>【推荐语】<br/>在AI大模型爆发的今天,语音交互已成为智能设备的核心口。然而,依赖云端计算的语音处理存在延迟、隐私和成本问题,终端智能语音处理技术才是未来! 《终端智能语音处理技术与应用》是业内头部专家集20余年研究、工程实践经验的典范之作,系统阐述了终端智能语音处理的全栈技术,从基础理论到工程实践,帮助读者掌握降噪、波束成形、盲源分离、回声消除、模型量化等核心技术,造高性能、低延迟的语音交互系统。   为什么选择本书? ? 大模型时代刚需:云端大模型虽强,但端侧语音处理才是实时交互的关键。本书教你如何优化终端语音技术,与云端AI无缝协同。 ? 理论 工程全覆盖:不仅深讲解算法原理(如STFT、MVDR、IVA),还提供完整工具包和训练技巧,直应用于产品发。 ? 解决实际痛:针对噪声、混响、多说话人场景,提供可落地的解决方案,提升语音识别和唤醒性能。 ? 模型量化与优化:专章讲解无数据量化技术,让深度学习模型在资源受限的终端设备上高效运行。 ? 工业级工具包:附赠完整配置参数和示例代码,大幅降低发门槛,加速项目落地。<br/>【作者】<br/>纳跃跃,博士,毕业于北京交通大学计算机科学与技术专业,2014年在中国科学院声学研究所语言声学与内容理解重实验室完成博士后工作。目前就职于吉利汽车研究院,主要研究和工作方向包括数字信号处理、机器学习、面向智能终端的语音交互等。王子腾,高级工程师,中国科学院声学研究所获信号与信息处理专业博士学位,曾任职阿里巴巴达摩院语音实验室,现就职于北京欧珀通信有限公司。付强博士,研究员,之江实验室高级研究专家。博士毕业于西安电子科技大学,美国OGI口语中心、爱尔兰Limeirck大学博士后。曾任阿里巴巴达摩院研究员(P10),中科院声学所研究员,并曾创办北京先声互联科技有限公司,后被阿里巴巴全资收。长期从事语音处理 机器听觉研究和应用,是国内声学前端处理领域的拓者,具有丰富的从学术研究到产品量产的产学研一体化经验。<br/>
目录展开

内容简介

好评袭来

推荐序

前言

1 终端智能语音处理概述

1.1 引言

1.2 问题和挑战

1.3 发展历史概要

1.4 本书的组织结构

1.5 本书的适用人群

1.6 常用表示和符号对照

1.6.1 默认符号

1.6.2 对离散时间序列的表示

1.6.3 关于索引序号从0还是1开始的说明

1.7 关于中英文混写的说明

1.8 免责声明

1.9 本章小结

理论篇

2 子带滤波

2.1 离散傅里叶变换与短时傅里叶变换

2.1.1 离散傅里叶变换

2.1.2 短时傅里叶变换

2.1.3 输出延时

2.1.4 频谱泄漏

2.1.5 时域卷积与频域点积的近似关系

2.2 多相滤波器组

2.2.1 对频谱泄漏的数学解释

2.2.2 扇形损失

2.2.3 重采样

2.2.4 多相滤波器组

2.3 滤波器设计基础

2.4 本章小结

3 固定波束形成

3.1 多通道语音增强的基本原理

3.1.1 物理解释

3.1.2 几何解释

3.2 远场模型

3.3 波束形成及阵列性能评价

3.3.1 beampattern

3.3.2 directivity index

3.3.3 white noise gain

3.3.4 effective rank

3.4 波束形成算法的求解形式

3.4.1 superdirective beamforming

3.4.2 差分波束形成

3.5 本章小结

4 自适应波束形成

4.1 递推求平均

4.2 典型自适应波束形成算法

4.2.1 MVDR算法

4.2.2 PMWF算法

4.3 共轭对称矩阵求逆

4.3.1 1×1和2×2矩阵求逆

4.3.2 Cholesky分解

4.3.3 矩阵求逆引理

4.3.4 IQRD方法

4.3.5 误差与稳定性

4.4 本章小结

5 盲源分离

5.1 信号模型

5.1.1 瞬时模型

5.1.2 卷积模型

5.2 独立成分分析

5.2.1 独立性假设与中心极限定理

5.2.2 ICA的目标函数

5.2.3 AuxICA算法

5.2.4 2×2广义特征分解问题

5.2.5 排列歧义性与尺度歧义性

5.3 独立向量分析

5.3.1 IVA的目标函数

5.3.2 AuxIVA算法

5.3.3 两级架构

5.4 盲源分离与波束形成的联系和区别

5.5 本章小结

6 回声消除与去混响

6.1 信号模型

6.1.1 回声消除信号模型

6.1.2 去混响信号模型

6.2 LMS与NLMS算法

6.3 RLS算法

6.3.1 最小二乘法

6.3.2 RLS算法

6.4 一种基于盲源分离的回声消除方法

6.4.1 问题背景

6.4.2 算法推导

6.4.3 对比实验

6.5 本章小结

7 数据模拟

7.1 信号模型和系统框架

7.2 传函的模拟与测量

7.2.1 镜像法传函模拟

7.2.2 传函测量

7.2.3 分块卷积

7.3 非线性回声模拟

7.4 散射噪声模拟

7.5 信噪比和音量

7.6 本章小结

8 深度语音增强

8.1 信号模型

8.2 时频掩蔽

8.3 损失函数

8.4 深度回声残余抑制

8.4.1 数据准备

8.4.2 输入特征

8.4.3 模型结构

8.5 多通道语音增强模型

8.5.1 基于掩蔽的波束形成算法

8.5.2 深度神经网络空域滤波算法

8.6 歌曲成分分离

8.7 本章小结

9 语音活动性检测

9.1 HMMVAD

9.1.1 HMM基础

9.1.2 前向算法与后向算法

9.1.3 Viterbi算法

9.1.4 Baum-Welch算法

9.1.5 下溢问题

9.1.6 在线HMMVAD

9.2 NNVAD

9.2.1 一种NNVAD模型

9.2.2 一种NN和HMM结合的VAD

9.3 VAD性能评价

9.4 本章小结

10 关键词检测

10.1 特征提取

10.2 声学模型

10.2.1 建模单元

10.2.2 声学模型

10.2.3 关于声学模型工作原理的讨论

10.3 解码器

10.3.1 阈值与动态阈值

10.3.2 关于ROC曲线与阈值选择的讨论

10.4 虚警问题

10.4.1 对虚警现象的直观解释

10.4.2 减少虚警的方法

10.4.3 对比实验

10.5 多通道关键词检测与通道选择

10.5.1 问题背景

10.5.2 模型与训练方法

10.5.3 实验与分析

10.6 本章小结

11 联合优化方法

11.1 盲源分离统一框架

11.1.1 信号模型

11.1.2 问题拆解

11.1.3 对比实验

11.2 语音增强与关键词检测联合优化

11.2.1 系统框架

11.2.2 语音增强模块

11.2.3 关键词检测模块

11.2.4 实验现象

11.3 本章小结

12 模型量化

12.1 模型量化方法

12.1.1 训练后量化

12.1.2 训练时量化

12.1.3 无数据量化

12.2 关键词检测模型的无数据量化方法

12.2.1 时序数据生成器

12.2.2 中心距离约束与双生成器

12.2.3 高质量筛选

12.2.4 时间掩码量化蒸馏

12.2.5 无数据量化流程

12.2.6 无数据量化实验

12.3 本章小结

工程篇

13 终端智能语音处理工具包

13.1 系统框架

13.2 配置参数详解

13.2.1 通用参数

13.2.2 回声消除

13.2.3 去混响

13.2.4 多通道语音增强

13.2.5 深度语音增强

13.2.6 后滤波

13.2.7 自动增益控制

13.2.8 音量计算

13.2.9 声源定位

13.2.10 语音活动性检测

13.2.11 关键词检测

13.2.12 命令词检测

13.2.13 产线测试,模型训练

13.3 主要离线工具示例

13.3.1 SoundConnect离线工具

13.3.2 批处理工具

13.4 示例程序

13.4.1 从配置文件初始化

13.4.2 从Params.c文件初始化

13.5 本章小结

14 模型训练

14.1 数据准备

14.1.1 正样本数据

14.1.2 负样本和噪声数据

14.2 环境配置

14.2.1 传函模拟

14.2.2 目标语音模拟

14.2.3 干扰信号模拟

14.2.4 回声模拟

14.2.5 噪声模拟

14.2.6 音量和增益

14.2.7 生成模拟音频

14.3 模型训练

14.3.1 训练环境

14.3.2 训练流程

14.3.3 模型训练技巧总结

14.4 模型测试

14.4.1 测试环境

14.4.2 评价指标

14.4.3 测试集的录制与准备

14.4.4 测试流程

14.5 模型发布

14.6 本章小结

附录A

A.1 复数求偏导和共轭偏导

A.2 共轭求导示例

A.2.1 向量求导

A.2.2 二次型求导

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部