在AI大模型爆发的今天,语音交互已成为智能设备的核心口。然而,依赖云端计算的语音处理存在延迟、隐私和成本问题,终端智能语音处理技术才是未来! 《终端智能语音处理技术与应用》是业内头部专家集20余年研究、工程实践经验的典范之作,系统阐述了终端智能语音处理的全栈技术,从基础理论到工程实践,帮助读者掌握降噪、波束成形、盲源分离、回声消除、模型量化等核心技术,造高性能、低延迟的语音交互系统。
售 价:¥
纸质售价:¥86.10购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
内容简介
好评袭来
推荐序
前言
1 终端智能语音处理概述
1.1 引言
1.2 问题和挑战
1.3 发展历史概要
1.4 本书的组织结构
1.5 本书的适用人群
1.6 常用表示和符号对照
1.6.1 默认符号
1.6.2 对离散时间序列的表示
1.6.3 关于索引序号从0还是1开始的说明
1.7 关于中英文混写的说明
1.8 免责声明
1.9 本章小结
理论篇
2 子带滤波
2.1 离散傅里叶变换与短时傅里叶变换
2.1.1 离散傅里叶变换
2.1.2 短时傅里叶变换
2.1.3 输出延时
2.1.4 频谱泄漏
2.1.5 时域卷积与频域点积的近似关系
2.2 多相滤波器组
2.2.1 对频谱泄漏的数学解释
2.2.2 扇形损失
2.2.3 重采样
2.2.4 多相滤波器组
2.3 滤波器设计基础
2.4 本章小结
3 固定波束形成
3.1 多通道语音增强的基本原理
3.1.1 物理解释
3.1.2 几何解释
3.2 远场模型
3.3 波束形成及阵列性能评价
3.3.1 beampattern
3.3.2 directivity index
3.3.3 white noise gain
3.3.4 effective rank
3.4 波束形成算法的求解形式
3.4.1 superdirective beamforming
3.4.2 差分波束形成
3.5 本章小结
4 自适应波束形成
4.1 递推求平均
4.2 典型自适应波束形成算法
4.2.1 MVDR算法
4.2.2 PMWF算法
4.3 共轭对称矩阵求逆
4.3.1 1×1和2×2矩阵求逆
4.3.2 Cholesky分解
4.3.3 矩阵求逆引理
4.3.4 IQRD方法
4.3.5 误差与稳定性
4.4 本章小结
5 盲源分离
5.1 信号模型
5.1.1 瞬时模型
5.1.2 卷积模型
5.2 独立成分分析
5.2.1 独立性假设与中心极限定理
5.2.2 ICA的目标函数
5.2.3 AuxICA算法
5.2.4 2×2广义特征分解问题
5.2.5 排列歧义性与尺度歧义性
5.3 独立向量分析
5.3.1 IVA的目标函数
5.3.2 AuxIVA算法
5.3.3 两级架构
5.4 盲源分离与波束形成的联系和区别
5.5 本章小结
6 回声消除与去混响
6.1 信号模型
6.1.1 回声消除信号模型
6.1.2 去混响信号模型
6.2 LMS与NLMS算法
6.3 RLS算法
6.3.1 最小二乘法
6.3.2 RLS算法
6.4 一种基于盲源分离的回声消除方法
6.4.1 问题背景
6.4.2 算法推导
6.4.3 对比实验
6.5 本章小结
7 数据模拟
7.1 信号模型和系统框架
7.2 传函的模拟与测量
7.2.1 镜像法传函模拟
7.2.2 传函测量
7.2.3 分块卷积
7.3 非线性回声模拟
7.4 散射噪声模拟
7.5 信噪比和音量
7.6 本章小结
8 深度语音增强
8.1 信号模型
8.2 时频掩蔽
8.3 损失函数
8.4 深度回声残余抑制
8.4.1 数据准备
8.4.2 输入特征
8.4.3 模型结构
8.5 多通道语音增强模型
8.5.1 基于掩蔽的波束形成算法
8.5.2 深度神经网络空域滤波算法
8.6 歌曲成分分离
8.7 本章小结
9 语音活动性检测
9.1 HMMVAD
9.1.1 HMM基础
9.1.2 前向算法与后向算法
9.1.3 Viterbi算法
9.1.4 Baum-Welch算法
9.1.5 下溢问题
9.1.6 在线HMMVAD
9.2 NNVAD
9.2.1 一种NNVAD模型
9.2.2 一种NN和HMM结合的VAD
9.3 VAD性能评价
9.4 本章小结
10 关键词检测
10.1 特征提取
10.2 声学模型
10.2.1 建模单元
10.2.2 声学模型
10.2.3 关于声学模型工作原理的讨论
10.3 解码器
10.3.1 阈值与动态阈值
10.3.2 关于ROC曲线与阈值选择的讨论
10.4 虚警问题
10.4.1 对虚警现象的直观解释
10.4.2 减少虚警的方法
10.4.3 对比实验
10.5 多通道关键词检测与通道选择
10.5.1 问题背景
10.5.2 模型与训练方法
10.5.3 实验与分析
10.6 本章小结
11 联合优化方法
11.1 盲源分离统一框架
11.1.1 信号模型
11.1.2 问题拆解
11.1.3 对比实验
11.2 语音增强与关键词检测联合优化
11.2.1 系统框架
11.2.2 语音增强模块
11.2.3 关键词检测模块
11.2.4 实验现象
11.3 本章小结
12 模型量化
12.1 模型量化方法
12.1.1 训练后量化
12.1.2 训练时量化
12.1.3 无数据量化
12.2 关键词检测模型的无数据量化方法
12.2.1 时序数据生成器
12.2.2 中心距离约束与双生成器
12.2.3 高质量筛选
12.2.4 时间掩码量化蒸馏
12.2.5 无数据量化流程
12.2.6 无数据量化实验
12.3 本章小结
工程篇
13 终端智能语音处理工具包
13.1 系统框架
13.2 配置参数详解
13.2.1 通用参数
13.2.2 回声消除
13.2.3 去混响
13.2.4 多通道语音增强
13.2.5 深度语音增强
13.2.6 后滤波
13.2.7 自动增益控制
13.2.8 音量计算
13.2.9 声源定位
13.2.10 语音活动性检测
13.2.11 关键词检测
13.2.12 命令词检测
13.2.13 产线测试,模型训练
13.3 主要离线工具示例
13.3.1 SoundConnect离线工具
13.3.2 批处理工具
13.4 示例程序
13.4.1 从配置文件初始化
13.4.2 从Params.c文件初始化
13.5 本章小结
14 模型训练
14.1 数据准备
14.1.1 正样本数据
14.1.2 负样本和噪声数据
14.2 环境配置
14.2.1 传函模拟
14.2.2 目标语音模拟
14.2.3 干扰信号模拟
14.2.4 回声模拟
14.2.5 噪声模拟
14.2.6 音量和增益
14.2.7 生成模拟音频
14.3 模型训练
14.3.1 训练环境
14.3.2 训练流程
14.3.3 模型训练技巧总结
14.4 模型测试
14.4.1 测试环境
14.4.2 评价指标
14.4.3 测试集的录制与准备
14.4.4 测试流程
14.5 模型发布
14.6 本章小结
附录A
A.1 复数求偏导和共轭偏导
A.2 共轭求导示例
A.2.1 向量求导
A.2.2 二次型求导
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜