24小(xiǎo)时联系電(diàn)话:18217114652、13661815404
中文(wén)
- 您当前的位置:
- 首页>
- 電(diàn)子资讯>
- 公司新(xīn)闻>
- 嵌入式媒體(tǐ)处理(lǐ)中的语...
公司新(xīn)闻
嵌入式媒體(tǐ)处理(lǐ)中的语音处理(lǐ)模型
嵌入式媒體(tǐ)处理(lǐ)中的语音处理(lǐ)模型
语音和音频处理(lǐ)都处理(lǐ)可(kě)听数据,尽管语音处理(lǐ)的频率范围是 20 Hz 到 4 kHz,而音频处理(lǐ)的频率范围是 20 Hz 到 20 kHz。语音和音频处理(lǐ)之间有(yǒu)一个主要區(qū)别:语音压缩机制基于人类声带,而音频压缩机制基于人耳系统。
语音处理(lǐ)是数字信号处理(lǐ)的一个子集。人类声道的某些特性与一些数學(xué)技术一起使用(yòng)来实现语音信号的压缩,以便通过 VoIP 和蜂窝网络传输数据。
语音处理(lǐ)大致分(fēn)為(wèi):
语音编码:通过删除数据中的冗余来压缩语音以减少数据大小(xiǎo)以用(yòng)于存储和流式传输。
语音识别:算法识别口语单词并将其转换為(wèi)文(wén)本的能(néng)力。
说话人验证/识别:用(yòng)于银行业的安全应用(yòng),以确定说话人的身份。
语音增强:用(yòng)于消除噪音和增加增益,使录制的语音更清晰。
语音合成:人工生成人类语音以进行文(wén)本到语音的转换。
从语音处理(lǐ)的角度剖析人类声带
人耳对 50 Hz 至 4 KHz 之间的能(néng)量信号最為(wèi)敏感。语音信号由声音序列组成。当空气被挤出肺部时,声道的声學(xué)激发产生声音/语音信号。肺在言语产生过程中充当供气设备。声带(如下图所示)实际上是改变声门面积的两层膜。当我们呼吸时,声带保持打开状态,但当我们说话时,它们会打开和关闭。
当空气被挤出肺部时,声带附近的气压就会升高。一旦气压达到某个阈值,声带/褶皱就会打开,空气流过它们会导致膜振动。声带振动的频率取决于声带的長(cháng)度和声带的张力。该频率称為(wèi)基频或音调频率,它定义了人类的音调。统计发现人类的基频在以下范围内:
男士 50 Hz 至 200 Hz
150 Hz 至 300 Hz 女性和
儿童 200 Hz 至 400 Hz
人类的语音可(kě)以大致分(fēn)為(wèi)三种类型的声音:
浊音:当空气从肺部流过声道时,声带振动产生的声音,例如 a、b、m、n 等。浊音带有(yǒu)低频成分(fēn)。在浊音产生期间,声带大部分(fēn)时间是闭合的。
清音:声带不振动的清音。空气通过声道的持续流动会产生清音,例如 shh、sss、f 等。清音带有(yǒu)高频分(fēn)量。在清音产生期间,声带大部分(fēn)时间是开放的。
其他(tā)声音:这些声音可(kě)以分(fēn)类為(wèi):
鼻音:声带与鼻道在声學(xué)上耦合,即通过鼻孔和嘴唇发出的声音,例如 m、n、ing 等。
爆破音:这些声音是声道前部闭合处附近压力的积累和突然释放的结果,例如 p、t、b 等
声道的横截面积根据我们打算产生的声音而变化。共振峰频率可(kě)以定义為(wèi)能(néng)量高度集中的频率。统计上,已经观察到对于每 kHz 大约有(yǒu)一个共振峰频率。因此,我们可(kě)以在 4 KHz 的人类语音频率范围内观察到总共 3-4 个共振峰频率。
由于人类语音的带宽為(wèi) 0 到 4
KHz,我们基于奈奎斯特准则以 8 KHz 对语音信号进行采样以避免混叠。
语音制作模型
根据语音信号(浊音或清音)的内容,语音信号包括一系列脉冲(对于浊音)或随机噪声(对于清音)。这个信号频谱在声道中移动。声道充当频谱整形滤波器,即声道的频率响应被施加到传入语音信号上。声道的形状和大小(xiǎo)决定了频率响应,从而决定了人声的差异。
开发准确的语音生成模型需要开发基于语音过滤器的人类语音生成机制模型。假定激发源和声道是相互独立的。因此,它们都是单独建模的。為(wèi)了对声道进行建模,假设声道在 10 毫秒(miǎo)的时间段内具有(yǒu)定义的特征。因此,每 10 毫秒(miǎo)一次,声道配置会发生变化,从而产生新(xīn)的声道参数(即共振/共振峰频率)
要建立准确的语音生成模型,必须建立基于语音滤波器的模型。该模型必须准确地表示以下内容:
人类语言产生机制的激发技术。
唇鼻发声过程。
声道的复杂操作。
浊音和
无声的讲话。
S(z) = E(z) * G(z) * A*V(z) * R(z)
在哪里:
S(z) => 模型输出的语音
E(z) => 激励模型
G(z) => 声门模型
A => 增益因子
V(z) => 声带模型
R(z) => 辐射模型
激励模型:模型的激励函数的输出将根据产生的语音的特征而变化。
在浊音过程中,激励将由一系列脉冲组成,每个脉冲以基音周期的间隔间隔开。
在清音过程中,激励将是白噪声/随机噪声类型的信号。
声门模型:声门模型专门用(yòng)于人类语音的浊音部分(fēn)。声门流在语音识别和语音合成机制中區(qū)分(fēn)说话者。
增益系数:声音的能(néng)量取决于增益系数。通常,浊音的能(néng)量比清音的能(néng)量大许多(duō)倍。
声道模型:一连串无损管(短而圆柱形)构成声道的基础/模型(如下图 4所示),每个管都有(yǒu)自己的共振频率。无损管的设计因人而异。共振频率取决于管子的形状,因此不同人的声音也不同。
上述声道模型通常用(yòng)于低比特率语音编解码器、语音识别系统、说话人认证/识别系统以及语音合成器。為(wèi)每一帧语音导出声道模型的系数是必不可(kě)少的。用(yòng)于导出语音编解码器中声道模型系数的典型技术是線(xiàn)性预测编码 (LPC)。LPC 声码器可(kě)以实现 1.2 到 4.8 kbps 的比特率,因此被归类為(wèi)低质量、中等复杂度和低比特率算法。
使用(yòng) LPC,我们可(kě)以从过去的语音样本中导出当前的语音样本值。
在时域中,语音方程可(kě)以粗略表示如下:
当前语音样本 = [(系数 X 过去的语音样本)+ 增益修正的激励]
概括
语音信号的特性取决于人类语音产生系统。语音生成模型源自人类语音生成系统的基本原理(lǐ)。
因此,了解人类语音生成系统的特征对于设计语音压缩、语音合成和语音识别技术的算法至关重要。语音生成模型用(yòng)于将模拟语音转换為(wèi)数字形式,以通过電(diàn)话应用(yòng)程序(蜂窝電(diàn)话、有(yǒu)線(xiàn)電(diàn)话和互联网上的 VoIP 流)、文(wén)本到语音转换、语音编码以通过压缩有(yǒu)效利用(yòng)带宽将语音信号降低比特率以在相同带宽内容纳更多(duō)用(yòng)户。