《语音处理及人机互动技术》是2016年科学出版社出版的图书,作者是张毅。
基本介绍
- 书名:语音处理及人机互动技术
- 作者:张毅
- 出版社:科学出版社
- 出版时间:2016
出版信息
语音处理及人机互动技术
作者:张毅
出版社:科学出版社
出版年:2016-3
页数:216
ISBN:9787030303240
页数:216
ISBN:9787030303240
内容简介
本书是在作者多年从事服务机器人及信息无障碍技术的基础上总结所取得的研究成果,并结合当前国际国内服务机器人方面的最新进展撰写完成的,以助老助残为目标,从老年人和残障人生理需求和心理需求出发,以服务机器人和信息无障碍技术为对象,系统地阐述了服务机器人与信息无障碍技术的基本原理与关键技术,并给出了服务机器人和信息无障碍服务系统的套用示例。
目录
《智慧型科学技术着作丛书》序
前言
第1章绪论
1.1语音信号技术的历史
1.2语音信号技术套用及新方向
1.2.1语音信号的识别
1.2.2语音信号的合成
1.2.3语音信号的编码
参考文献
第2章语音信号的声学基础
2.1语音信号的产生
2.1.1语音发音器官
2.1.2语音声学特徵
2.1.3语音信号的时域及频域表示
前言
第1章绪论
1.1语音信号技术的历史
1.2语音信号技术套用及新方向
1.2.1语音信号的识别
1.2.2语音信号的合成
1.2.3语音信号的编码
参考文献
第2章语音信号的声学基础
2.1语音信号的产生
2.1.1语音发音器官
2.1.2语音声学特徵
2.1.3语音信号的时域及频域表示
2.1.4汉语语音分类
2.1.5汉语语音韵律特性
2.2语音信号的感知
2.2.1人的听觉系统
2.2.2人耳的听觉特性
2.2.3人耳听觉的掩蔽效应
2.3语音信号生成的数学模型
2.3.1激励模型
2.3.2声道模型
2.3.3辐射模型
2.3.4语音信号的数学模型
2.4语音产生的非线性模型
2.4.1调频一调幅模型的基本原理
2.4.2Teager能量运算元
2.4.3能量分离算法
2.4.4调频—调幅模型的套用
参考文献
第3章语音信号的分析
3.1语音信号预处理步骤
3.1.1採样与量化
3.1.2预加重
3.1.3分帧与加窗
3.1.4端点检测
3.2语音信号的时域分析
3.2.1短时能量分析
3.2.2短时平均过零率
3.2.3短时自相关函式和短时平均幅度差函式
3.3语音信号的频域分析
3.3.1滤波器组方法
3.3.2傅立叶频谱分析
3.3.3线性预测倒谱係数
3.3.4Mel频率倒谱係数
3.4语音信号的倒谱分析
3.4.1同态信号处理的基本原理
3.4.2复倒谱和倒谱
3.5语音信号的小波分析
参考文献
第4章语音增强
4.1语音信号与语音增强
4.1.1语音特性
4.1.2人耳感知特性
2.1.5汉语语音韵律特性
2.2语音信号的感知
2.2.1人的听觉系统
2.2.2人耳的听觉特性
2.2.3人耳听觉的掩蔽效应
2.3语音信号生成的数学模型
2.3.1激励模型
2.3.2声道模型
2.3.3辐射模型
2.3.4语音信号的数学模型
2.4语音产生的非线性模型
2.4.1调频一调幅模型的基本原理
2.4.2Teager能量运算元
2.4.3能量分离算法
2.4.4调频—调幅模型的套用
参考文献
第3章语音信号的分析
3.1语音信号预处理步骤
3.1.1採样与量化
3.1.2预加重
3.1.3分帧与加窗
3.1.4端点检测
3.2语音信号的时域分析
3.2.1短时能量分析
3.2.2短时平均过零率
3.2.3短时自相关函式和短时平均幅度差函式
3.3语音信号的频域分析
3.3.1滤波器组方法
3.3.2傅立叶频谱分析
3.3.3线性预测倒谱係数
3.3.4Mel频率倒谱係数
3.4语音信号的倒谱分析
3.4.1同态信号处理的基本原理
3.4.2复倒谱和倒谱
3.5语音信号的小波分析
参考文献
第4章语音增强
4.1语音信号与语音增强
4.1.1语音特性
4.1.2人耳感知特性
4.1.3噪声特性
4.1.4语音增强的信号模型
4.2谱减法语音增强
4.2.1基本原理
4.2.2基本谱减法的改进
4.3维纳滤波法语音增强
4.4卡尔曼滤波法语音增强
4.5最小均方误差法的语音增强
4.6语音增强的一些新发展
参考文献
第5章模式识别算法及套用
5.1矢量量化的基本原理
5.2矢量量化的失真测度
5.2.1欧氏距离测度
5.2.2线性预测失真测度
5.2.3识别失真测度
5.3人工神经网路的基本原理
5.4人工神经网路的基本构成
5.4.1人工神经元模型
5.4.2神经网路有向图表示
5.4.3神经网路结构及工作方式
5.5基本神经网路模型及算法
5.5.1单层感知器
5.5.2多层感知器
5.5.3径向基函式神经网路模型
5.5.4循环神经网路
5.5.5支持向量机
参考文献
第6章语音信号的识别
6.1语音识别概述
6.2孤立词语音识别
6.3连续词语音识别
6.4说话人识别
6.4.1说话人识别概述
6.4.2说话人识别特徵选取
6.4.3说话人识别系统的结构
6.4.4说话人识别中的识别方法
6.4.5说话人识别中需进一步研究的问题
6.5语音信号预处理
6.6语音信号识别特徵提取
6.7语音信号识别方法
6.8隐马尔可夫模型基本原理及在语音识别中的套用
6.8.1马尔可夫链
6.8.2隐马尔可夫模型的定义
6.8.3隐马尔可夫模型的三个问题
6.8.4隐马尔可夫模型在语音识别中的套用
6.9动态时间规整算法
参考文献
第7章语音信号的合成
7.1概述
7.2语音合成的基本方法
7.2.1以单词为基础的合成方法
7.2.2以音节为基础的合成方法
7.2.3以音素为基础的合成方法
7.3共振峰合成法
7.4线性预测合成法
7.5语音合成专用硬体介绍
7.6PSOLA算法合成语音
7.7文语转换系统
参考文献
第8章语音信号定位与分离技术
8.1声源定位技术
8.1.1基于麦克风阵列的定位方法
8.1.2基于入耳听觉机理的声源定位
8.2语音分离技术
8.2.1计算听觉场景分析
8.2.2计算听觉场景分析的语音分离模型
8.2.3独立分量分析
8.3声源定位与语音分离实现方法
参考文献
第9章基于听觉机制的语音识别
9.1人耳的听觉机制
9.1.1人耳听觉中枢的物理结构
9.1.2人耳听觉中枢的听觉机理
9.2人耳听觉系统的基本模型
9.2.1人耳听觉系统的钋周听觉模型
9.2.2人耳听觉系统的内毛细胞模型
9.2.3人耳听觉系统的重合神经元模型
9.3多声源环境下人耳语音定位模型
9.3.1双耳线索
9.3.2耳廓效应
9.3.3双耳时间差模型
9.3.4多声源环境下声源定位系统的设计
9.4多声源环境下人耳语音分离模型
9.4.1语音信号分离的反演模型
9.4.2语音信号分离系统的设计
9.5基于听觉机制的语音识别系统
参考文献
第10章基于语音的人机互动及套用
10.1人机互动的研究及发展
10.1.1人机互动概述
10.1.2人机互动的研究内容
10.1.3人机互动的发展历程
10.2语音人机互动及其套用
10.2.1语音人机互动概述
10.2.2语音人机互动与智慧型轮椅
10.2.3语音人机互动与智慧型电视
10.2.4语音人机互动的其他套用
参考文献