1.1的语音信号
第三步是神经;
言语产生过程的第三步是神经肌肉控制的转移;
即,神经元的集合 - 移动 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、 、
也就是说,一组控制信号引导神经肌肉系统以与预期发音一致的方式移动关节器官,即舌头、嘴唇、牙齿、下颌和舌膜。
时间在
时间间隔(以秒为单位)
1.2
图1.2
A 带有文字“我们追逐。”
这是带有语音标签的语音波形,代表消息“我们应该追吗?”
2 (IPA) 一组使用一组 .
国际音标协会 (IPA) 使用一组等效的专用符号提供了一组音标规则。
该代码没有字体,因此更具有 和 。
代码不需要特殊字体,因此具有更多信息和所需的强调程度。
神经步骤的末端是一组 ( ),它们导致声道按 的顺序移动到 。
神经肌肉控制步骤的最终结果是一系列发音运动(连续控制),导致声道的发音器官以规定的方式移动以产生所需的声音。
,最后一步是“声道”,即声音和时间声道,如 1.2 所示。
最后,语音产生过程的最后一步是“声道系统”,它创建物理声源和适当的时变声道形状,产生如图1.2所示的声音波形。
这样,中的就变成了。
这样,所需的信息就被编码到语音信号中。
以流量来说,大约有32()的。
为了确定语音生成过程中信息流动的速度,假设书面语言中有大约 32 个符号(字母)。
(其中有 ,但如果我们 和 ,我们得到的计数为 32 =25 。)
(英语有 26 个字母,但如果我们添加简单的标点符号和空格,我们会得到一个接近 32 = 25 个符号的数字。)
价格大概是15元左右。
正常的平均说话速度约为每秒 15 个符号。
因此,作为一阶,文本的基本速率约为 75 bps(每 5 位乘以 15 位)。
因此,假设独立字母作为简单的一阶近似,编码为语音的文本消息的基本信息速率约为 75 bps(每个符号 5 位乘以每秒 15 个符号)。
,速率会随着速率的变化而变化。
然而,实际语速会随着语速的变化而变化。
对于 1.2,文本有 15 ( ) 且 a 为 0.6,a 为 15 x 5/0.6= 125 bps。
在图 1.2 的示例中,文本表示有 15 个字母(包括空格),相应的语音表示的持续时间为 0.6 秒,给出了 15 x 5/0.6= 125 bps 的较高估计。
在 的阶段,文本与(例如,音调和 )一起转换为基本声音单位,速率可以超过 200 bps。
在此过程的第二阶段,文本表示被转换为称为音素和韵律标记(例如音调和重音)的基本声音单位,在这些单位之上,可以轻松提高信息率。
1.2 中用于标记 的集合 64 = 26 ,或大约 6 位/(同样是 的粗略值)。
图 1.2 中用于注释语音的语音符号集包含大约 64 = 26 个符号,或者大约 6 位/音素(假设音素是独立的,这也是一个粗略的近似值)。
1.2 中,0.6 中有 8 个。
在图1.2中,大约0.6秒内有8个音素。
这导致 of8 x 6/0.6 =80 bps。
这导致估计值为 8 x 6/0.6 = 80 bps。
的(例如,音调,)可以将文本作为 的总速率添加 100 bps。
描述信号的韵律特征(例如,持续时间、音调、响度)所需的附加信息可以轻松地将编码为语音信号的文本消息的总信息率提高100 bps。
对于链中的前两个,因此我们可以对流量进行一些调整。
语音链前两级的信息表示是离散的,因此我们可以通过一些简单的假设轻松估计信息流的速度。
对于链的一部分的下一个阶段,(以神经元的形式)。
在下一阶段,在语音链的语音产生部分,表示变得连续(以关节运动的神经肌肉控制信号的形式)。
如果可以的话,我们可以知道这些和这些的数据速率可能是多少。
如果可以测量,我们就可以估计这些控制信号的频谱带宽,并对这些信号进行适当的采样和量化,以获得可以估计数据速率的等效数字信号。
移动到的时间。
与所产生的声音波形的时间变化相比,关节的移动相对缓慢。
并且 的总数据速率约为 2000 bps [105],因此,文本由一组数据速率比我们为 的速率要高得多的 组成。
对所需带宽和信号表示精度的估计表明,总的关节控制信号采样数据速率约为 2000 个基点 [105]。因此,原始文本消息由一组需要更高数据速率的连续变化信号的数字表示组成。然后我们估计作为离散文本信号传输的消息的信息率。
3、正如我们稍后将看到的,链末端部分的数据速率可以
3. 最后,正如我们稍后将看到的,在语音链的语音生成部分的末尾,数字化语音波形的数据速率可以为
3请注意,我们将术语“数据速率”表示为从 到 。
请注意,我们引入数字表示的术语“数据速率”,以将其与语音信号表示的消息的固有信息内容区分开。
从 64,000 到超过 700,000 bps。
范围从 64,000 到 64,000。
我们以 0 至 4 kHz 的速率和 8000/秒的速率。
我们通过检查以理想的感知保真度表示语音信号所需的采样率和量化来得出这样的数字,例如,“电话质量”语音处理需要保持 0 到 4 kHz 的带宽,这意味着采样率8000件/秒。
每个都可以是对数刻度上的 8 位,比特率为 64,000 bps。
每个样本幅度可以使用 8 位分布以对数标度进行量化,从而得到 64,000 bps 的比特率。
这是(即可以 the from it),但对于大多数人来说,它听起来是来自 the by the。
这种表达很容易理解(即人类可以轻松地从中提取信息),但对于大多数听众来说,它听起来与说话者产生的原始语音信号不同。
另一方面,“CD”可以使用16位44,100/秒的速率,或者705,600 bps的数据速率。
另一方面,语音波形可以用“CD 质量”来表示,使用 44100 个样本/秒的 16 位采样率,或 1 bps 的数据率。
在这种情况下,将来自 .
在这种情况下,再现的声音信号实际上与原始语音信号无法区分。
当我们从a移动到链时,a的a可以通过波和a的a来实现。
当我们通过语音链从文本表示转移到语音波形表示时,结果是信息编码,可以通过声波传播传输并由听众的听觉机制稳健解码。
上面的数据速率表明,当我们从文本移动到 a 时,数据速率可以高达 10,000。
上述数据速率分析表明,当我们从文本转向采样语音波形时,数据速率可增加多达 10,000 倍。
其中一部分是额外的,例如状态、、等,但大部分是由于简单和的。
这些附加信息的一部分代表了说话者的特征,例如情绪状态、说话习惯、口音等,但大部分是由于模拟信号的简单采样和精细量化的低效率造成的。
因此,由于 的低速率,大部分的主题是具有比 的数据速率更低的数据速率。
因此,认识到语音的低固有信息速率,许多数字语音处理的中心主题是以低于采样波形的数据速率获得数值表示。
上面类型的 / 模型的链,以及 / 模型的链,如 1.4 的左半部分所示。
完整的语音链包括上述类型的语音产生/生成模型,以及语音感知/识别模型,如图1.4左下部分所示。
该模型显示了从耳朵处到体内的步骤。
语音感知模型说明了从耳朵捕获语音到理解语音信号中编码的信息的处理步骤序列。
第一步是到a。
第一步是将声学波形有效地转换为频谱表示。
这是由内耳完成的,它充当非银行的角色,而它们则由非银行的角色完成。
这是通过内耳的基底膜来实现的,该基底膜充当非均匀频谱分析仪,在空间上分离输入语音信号的频谱分量,以便可以通过非均匀滤波器组对它们进行分析。
的步骤是进入一组声音(或在区域中),可以通过大脑进行。
语音感知过程的第二步是将频谱特征通过神经传导为一组可以被大脑解码和处理的声音特征(或语言学领域中的独特特征)。
第三步是将声音的a 转化为人脑中的a 、单词和a 的集合。
该过程的第三步是利用人脑的语言翻译过程将声音特征转换为与输入信息相关的一组音素、单词和句子。
该模型的最后一步是将单词和单词转化为基本的单词,以便能够或采取一些。
最后,语音感知模型的最后一步是将信息的音素、单词和句子转换为对底层信息含义的理解,以便能够做出响应或采取一些适当的行动。
我们在 1.4 中的大部分内容充其量是最好的,但它是模型中人脑的每个步骤中的一些步骤,因此该模型是针对所发生的情况的。
我们对大多数语音感知模块的基本理解过程如图1.4所示,在最好的情况下是基本的,但一般认为语音感知模型中的一些物理相关步骤发生在人脑中,因此整个模型对于思考是有用的发生的过程。
的 和 都在 4 中。
第 4 章讨论了听觉和知觉的基本原理。
1.4 中的链中显示了我们没有的部分 - 模型的 和 部分。
图1.4的完整语音链图中还有一个额外的过程我们没有讨论,即模型的语音生成部分和语音感知部分之间的传输通道。
在它的 中,与 1.3 中一样,这只是在一个空间中的波 a 和 a 。
在最简单的实施例中,如图 1.3 所示,该传输通道仅由位于公共空间中的扬声器和听众之间的声学连接组成。
在我们的链条模型中正是如此,因为它是现实世界的噪音,并且更真实。
在我们的语音链模型中包含这个传输信道是必要的,因为它包含现实世界的噪声和信道失真,这使得在真实通信环境中理解语音和信息变得更加困难。
更多关于我们这里的内容 - 这是 of 组成 and, , or by a 的地方。
更有趣的是,在这里,语音的声学波形被转换为数字形式,并通过通信系统进行操纵、存储或传输。
也就是说,我们正是在其中找到了。
换句话说,数字语音处理就是在这个领域应用的。
1.1该
的是人;即 a 和 a 的 。 to 的[364],a as a of 可以用其单位为比特来表示,其中 的速率以比特每(bps)为单位。在 以及许多人类中,“存在”的形式是 (),它可以是反式的,(), , 和 是人类的。
的形式是我们所说的 。 ,例如 1. 2 中的 one,可以用 a 、 and 与 an 连起来,然后再用 aloud 、 a 或 , as 连起来。这种形式是贝尔的以及今天的 for 、 、 和 音频的基础。用贝尔自己的话说[47],
,如果我能得到一个,当声音存在时,它会像空气一样变化,我可以得到任何声音,甚至是 的声音。
贝尔做出了他的伟大,他的伟大在他的身上。 ,甚至我们的主要焦点将是在 和它的形式上,它是从 中的 开始。
1.3 显示了 a 的 a 和 - 从 a 的大脑中的 a 到 a 的 a ,再到 a 的 a 的 a 。在他们的 to 、 Denes 和 to this 中作为链”[88]。链的更多块显示在 1 .4 中。左上角的 为 大脑中的 a 。可以作为 的 a 。对于(1.4中的上面的路径)。
可以是文本。为了说话”,将文本转换为文本的a。这一步,代码为1. 4,文本为(与和)的基本a和(即,的速度和)。
作为一个,1. 2 中使用的是- 代码。 2 因此,我们追逐的文本”(在 )中为 [SH UH D- W IY - CH EY S]。(有关 的更多信息,请参阅 3。)第三步是神经元 - ;即,神经- 移动 、 、 、 、 、 、 嘴唇、牙齿、下巴和软腭,
1.2
时间在
1.2
A 带有文字“我们追逐。”
2 (IPA) 一组使用一组 .该代码没有字体,因此更具有 和 。神经步骤的末端是一组 ( ),它们导致声道按 的顺序移动到 。 ,最后一步是“声道”,即声音和时间声道,如 1.2 所示。这样,中的就变成了。
以流量来说,大约有32()的。 (其中有 ,但如果我们 和 ,我们得到的计数为 32 =25 。) 的比率约为 15 个。因此,作为一阶,文本的基本速率约为 75 bps(每 5 位乘以 15 位)。
,速率会随着速率的变化而变化。对于 1.2,文本有 15 ( ) 且 a 为 0.6,a 为 15 x 5/0.6= 125 bps。在 的阶段,文本与(例如,音调和 )一起转换为基本声音单位,速率可以超过 200 bps。用于标记 1 中的集合。
2 64 = 26,或大约 6 位/(同样是 的粗略值)。 1.2 中,0.6 中有 8 个。这导致 of8 x 6/0。 6 =80 bps。的(例如,音调,)可以将文本作为 的总速率添加 100 bps。
对于链中的前两个,因此我们可以对流量进行一些调整。对于链的一部分的下一个阶段,(以神经元的形式)。如果可以的话,我们可以了解这些和这些的数据速率可能是多少。
移动到的时间。并且 的总数据速率约为 2000 bps [105],因此,文本由一组数据速率比我们为 的速率要高得多的 组成。 3、正如我们稍后将看到的,链末端部分的数据速率可以
3请注意,我们将术语“数据速率”表示为从 到 。
从 64,000 到超过 700,000 bps。我们的速率为 0 至 4 kHz,速率为 8000/秒。每个速率可以为对数刻度上的 8 位,比特率为 64,000 bps。这是(即,可以从它),但对于大多数人来说,它可以是从另一方面,可以是“CD”,使用 16 位或数据速率 44,100/秒的速率。在这种情况下,将来自 705,600 bps。
当我们从 a 移动到链时, 是 a 的 ,可以通过波和 a 的 。上面的数据速率表明,当我们从文本移动到 a 时,数据速率可能会增加到 10,000。其中一部分是额外的,例如状态,,,等等,但大部分是由于简单和的。因此,由于 的低速率,大部分的主题是具有比 的数据速率更低的数据速率。
上面类型的 / 模型的链,以及 / 模型,如 1 的一半左侧所示。 4. 该模型显示了从耳朵处到 中的步骤。第一步是到a。这是由内耳完成的,它充当非银行的角色,而它们则由非银行的角色完成。
的步骤是进入一组声音(或在区域中),可以通过大脑进行。第三步是将声音的a 转化为人脑中的a 、单词和a 的集合。该模型的最后一步是将单词和单词转化为基本的单词,以便能够或采取一些。
我们的 1. 4 中的大多数是最好的,但它是模型中人脑的每个步骤中的一些,因此该模型是针对所发生的情况的。的 和 都在 4 中。
1.4 中的链中显示了我们没有的部分 - 模型的 和 部分。在它的 中,与 1.3 中一样,这只是波 a 和 a 位于一个空间中。在我们的链条模型中正是如此,因为它是现实世界的噪音,并且更真实。我们这里的更多内容 - 这是 of 形成 and , , 或由 a 组成的地方。也就是说,我们正是在其中找到了。
语音的基本目的是用于人类交流,即说话者和听者之间的消息传输。根据香农信息理论1361,离散符号序列所表示的消息的信息量可以用比特来量化,信息传输速率可以用比特每秒(bps)来衡量。在语音产生和许多人工设计的电子通信系统中,要传输的信息被编码为连续变化的波形(模拟波形),可以传输、记录(存储)、操作并最终由听者解码。消息的基本模拟形式是称为语音信号的声波。如图1.2所示,语音信号可以通过麦克风转换为电信号,通过模拟和数字信号处理方法进一步处理,然后根据需要通过扬声器、电话听者或耳机转换回声波。这种处理语音的方法为贝尔发明电话奠定了基础,也是当今大多数记录、传输和操作语音和音频信号的设备的基础。用贝尔自己的话说:“沃森,如果我能找到一种改变电流密度的机制,就像声音传播时空气改变密度一样,我就可以通过电传输任何声音,甚至语音。”
为了确定语音产生过程中的信息流速率,我们假设书面语言中大约有 32 个符号(字母,英语有 26 个字母,如果包括标点符号和空格,则更接近 32 = 25 个符号) 。正常的平均说话速率约为每秒 15 个符号,因此假设字母彼此独立的简单一阶近似,编码为语音的文本消息的基本信息速率约为 75 bps(每个符号 5 位乘以 15)每秒符号数)。然而,实际速率会随着语速的变化而变化。
@国际音标协会(IPA)提供了一套音素标注的规则,用一组等价的特殊符号来表示语音编码,而不需要特殊的字体,因此更方便计算机应用。
对于图1.2中的例子,文本包含15个字母(包括空格),对应的语音条目持续0.6秒,因此有15x5/0.6=较高的速率。在语音产生过程的第二阶段,文本表示被转换为带有韵律(即音高和重音)标记的称为音素的基本声音单元,此时信息率可以轻松达到上述水平。图 1.2 中用于标记语音段的音素集包含大约 64 = 26 个符号,或每个音素 6 位(假设音素彼此独立的粗略近似值)。在图1.2中,大约0.6秒内有8个音素。计算出的信息速率为8*6/0.6 = 80bps。考虑到描述信号韵律特征的附加信息(如段长、音调、响度),文本信息编码成语音信号后,需要加上总信息率。
语音链前两级的信息表示是离散的,因此可以使用一些简单的假设来估计信息流的速率。在语音链的语音产生部分的下一阶段,信息表示变得连续(以关节运动期间神经肌肉控制信号的形式)。如果可以测量它们,就可以估计这些控制信号的频谱带宽,可以进行适当的采样和量化以获得等效的数字信号,然后可以估计数据速率。与所产生的声波波形的时间变化相比,关节的运动相当慢。带宽估计和信号表示所需的精度要求意味着采样的联合控制信号的总数据速率约为。因此,由一组连续变化的信号表示的原始文本消息的传输比由离散文本信号表示的消息的传输更快。 “需要更高的数据速率”。在语音链的语音生成部分的最后阶段,数字语音波形的数据速率可以从到超过变化。我们通过实现所需的感知保真度所需的测量来表示语音信号。计算采样率和量化率以获得上述结果。例如,“电话质量”语音处理需要保证0~4kHz的带宽,这意味着每个样本可以以8000的采样率在对数尺度上量化为8位,从而得到数据率。这种表示很容易理解(即可以轻松地从中提取消息),但对于大多数听众来说,该语音听起来与说话者发出的原始语音相同。说话会不一样。另一方面,语音波形可以用“CD质量”来表示,即使用44100个样本/秒、每个样本16位的采样率以及总数据率,恢复的声波将发声并且有与原始语音信号几乎没有区别。
当我们通过语音链将文本表示形式转换为语音波形表示形式时,消息会被编码,以便它可以以声学波形的形式传播,并且可以通过听众的听觉机制进行稳健解码。前面对数据速率的分析表明,当我们将消息从文本表示形式转换为采样语音波形时,数据速率会增加 10,000 倍。这些附加信息部分可以代表说话者的一些特征,比如情绪状态、说话习惯、口音等,但这主要是由于模拟信号的简单采样和精细量化的低效率造成的。因此,由于语音信号固有的低信息率,许多数字语音处理侧重于以比采样波形更低的数据率来数字表示语音。
完整的语音链包括上面讨论的语音产生/生成模型,还包括图 1.4 底部从右到左显示的语音感知/识别模型。语音感知模型显示了从耳朵捕获语音信号到理解语音信号编码中携带的消息的处理步骤序列。第一步是有效地将声波转换为频谱表示。这是通过耳朵内的基底膜实现的。基底膜的作用就像一个非均匀频谱分析仪,它在空间上分离输入语音信号的频谱分量。以非均匀滤波器组形式进行频谱分析。语音感知过程的第二步是神经传导过程,将频谱特征转化为大脑可以解码和处理的声音特征(或语音学领域的独特特征)。第三步利用人脑的语言翻译过程将声音特征转化为与输入消息相对应的一组音素、单词和句子。语音感知模型的最后一步是将消息对应的音素、单词和句子转化为对基本信息含义的理解,然后做出响应或采取适当的处理。我们对图1.4中大部分语音感知模块流程的基本了解还很初步,但普遍认为语音感知模型中各个步骤之间的物理互连发生在人脑中,因此整个模型非常有用用于思考语音感知模型中的各个步骤。这对于这个过程的发生非常有帮助。第 4 章讨论了听觉和知觉的机制。
图1.4所示的整个语音链图中还有一个过程我们没有讨论,即模型中的语音产生部分和语音感知部分。
@术语“数据速率”是为数字表示引入的,以将其与语音信号表示的消息中包含的固有信息内容区分开来。
零件之间的传输通道。在图 1.3 所示的最简单的实现中,传输通道仅由同一空间中的扬声器和听者之间的声波连接组成。有必要将传输信道包含在语音链模型中,因为在真实的通信环境中,噪声和信道失真会使语音和消息的理解变得更加困难。有趣的是,正是在传输通道中,我们使用通信系统将声波波形转换为数字形式并对其进行操作、存储或传输;正是在这个领域,我们发现了数字语音处理的应用。