言语信息处理【零】导言

Phonemes

音素,语音研究基本单位

Vowel

  • all voiced
  • 单元音 双元音

American English Vowel Space

使用舌头所在位置描述和区分元音
front,back,high,low

English consonants

按发音部位可以分为:
唇音、双唇音、唇齿音、舌尖音、齿音、卷舌音、齿龈音、齿龈後音、龈颚音、舌面音、硬颚音、唇硬颚音、软颚音、 唇软颚音、小舌音、舌根音、咽音、会厌音、喉音
按发音方法可以分为:
鼻音、塞音(爆音)、擦音、塞擦音、近音(无擦通音)、闪音(弹音)、颤音。
清浊音:辅音发音时声带的振动模式。发浊辅音时,声带有充分振动;发清辅音时,声带完全不振动。

Articulation Map

也是一种提取语音信息特征的方法

Prosody

  • intonation: Tune
  • duration: how long/short of each phoneme
  • phrasing: where the breaks are

Ear Structure

通过耳朵的结构提取声音的不同频路

  • Vibrate hairs inside conchlear
  • Different frequencies vibrate different hairs
  • Converts time domain to frequency domains S

计算机处理声音

capture the pressure waves as a series of samples

Analog to digital

speech is analog but computers are digital, we need to convert
AD converter

Sample Frequency

  • F0 80-300 Hz
  • F1/F2 250-3000 Hz
  • Fricatives 4kHz-8kHz
  • human ear 20-20000Hz

奈奎斯特采样定理

采样定理wiki

采样过程所应遵循的规律,又称取样定理、抽样定理。采样定理说明采样频率与信号频谱之间的关系,是连续信号离散化的基本依据。
在进行模拟/数字信号的转换过程中,当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax),采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的2.56~4倍;采样定理又称奈奎斯特定理。
如果对信号的其它约束是已知的,则当不满足采样率标准时,完美重建仍然是可能的。 在某些情况下(当不满足采样率标准时),利用附加的约束允许近似重建。 这些重建的保真度可以使用Bochner定理来验证和量化。

Waveform Encoding

PCM: +/- 32768
MULAW encoding

  • wide band speech 16kHz
  • narrow band speech 8kHz

Spectragram vs Time domain

傅里叶变换 FT
快速傅里叶变换 FFT

Time domain
Time domain

spectragram
spectragram

放大内容:
在这里插入图片描述

Microphones

  • Head mounted mic
  • Far field mic
  • Arrat mic

作业:CD采样频率为什么是44.1kHz
答案:
知乎参考链接

在数字音频尤其是音乐领域,最常见的采样率是 44.1 kHz,即每秒44100个采样。为何它这么常见的简短回答:CD 使用这个采样率,因此也是大部分从 CD 拷贝而来的音频和音频工作站软件的采样率。
至于为什么CD 选用这个采样率就比较有趣了。在1970年代,数字录音还处在幼儿阶段,许多不同的采样率被使用,包括 37 kHz 和 50 kHz [1]。在70年代后半叶,Philips 和 Sony 在 CD 上展开合作,两个公司在采样率上有很多争论。最终因为一系列原因,44.1 kHz 被选中。
根据 Nyquist 定理,44.1 kHz 可以重现频率低于 22.05 kHz 的所有音频。这覆盖了正常人能够听到的所有频率。尽管关于高频信息的感知仍有争论,但只有少数人能够感知高于 20 kHz 声音的观点已被广泛接受。
44.1 kHz 也允许CD格式的创作者在120毫米的唱片上记录至少80分钟的音乐(多于一个黑胶唱片的容量),在当时这被认为是一个极好的卖点。
此外,44100还是个特别的数字:44100 = 2^{2} \times 3^2\times 5^2\times 7^2 ,因此 44.1kHz 对于很多运算来说是个简单的数字。

豆瓣参考链接

Compact Disc
日常生活中大家都接触过CD,记得在2000年前后,当时MP3还未普及,IC当时听音乐、歌曲主要靠购买CD。CD一般来说是Compact Disc Digital Audio的简称,翻译成中文大概是紧凑型数字音频盘的意思。最初由飞利浦和索尼在上个世纪80年代初以红书(Red Book)的形式联合发布,在1987年被标准化组织IEC接纳为正式标准,编号为IEC 60908。这个标准最近一次修订是在1999年。飞利浦和索尼出版了一系列以颜色命名的标准,全部都是关于Compact Disc的,红书(Red Book)就是其中描述数字音频CD的一本。
(CD Logo、CD盘面、早期的CD唱机、放大的CD表面纹路)
IEC 60908整个标准还是挺繁杂的,我们只关注其中的编码部分。简单来说,存放于CD中的音频编码标准就是声音通道数为2、采样精度16位、编码格式为线性PCM、采样率固定是44.1KHz。
(适用于CD的音频标准IEC60908)
PCM Adaptor
在红书(Red Book)发布之前的1970年代,还存在着一种录音设备叫做PCM适配器。故名思义,它把模拟的音频信号转换成数字的PCM编码,并提供录制到视频存储设备上的接口。为什么音频和视频搅和在一起?因为当时已有的音频存储设备带宽不够大,不足以提供16位的PCM数字音频的存取带宽,这个带宽大概在1M~1.5M bit/s,这在当时是一个相当“高”的带宽,只有视频存储设备才有如此高的存取能力。PCM适配器把音频数据按特定的视频格式打包,从而可以借助于已有的“高带宽”视频存储设备实现音频数据的存取。
(Sony PCM-F1:PCM Adaptor)
好吧,回忆一下我们之前在创刊号的问题:为什么CD的采样率是44.1KHz?到这里,已经非常的接近问题的答案了。那就是任何新事物都要尊重传统的力量。放到这里,那就是音频CD的采样率沿用了PCM适配器的采样率,而PCM适配器的采样率还要能够兼容视频存储设备的特定要求,以便利用现有的视频存取设备来存取其中的音频数据。
Video Format
当时大量存在的视频存储设备主要支持两种视频制式,一种是25帧制式(称为CCIR 625/50,也叫PAL),一种是30帧制式(称为EIAN 525/60,也叫NTSC)。当时世界上有电视普及的国家按这两种制式分为两个阵营。首先看30帧(即60场)制式,这种制式的一帧中,可利用来录制音频的视频行最多能有490行,分到每一场(Field)就有245行。在每一视频行可以平均存储3个音频采样点,那么音频出现的频率就是602453 = 44100。这就是44.1KHz采样率的由来的原因之一。
同样在25帧(即50场)制式中,最大可利用的行数是588行,分到每一场有294行,同样每一行存放3个音频采样点,那么音频采样率就是502943 = 44100 。这样的音频采样率可以保证对两种视频制式的最大限度兼容。
Prime Numbers
还有一种解释说明采用44100Hz的原因是,44100可以分解成2、3、5、7四个最小连续素数的平方的乘积。听起来有些神秘主义的倾向,IC推测这些素数因子有助于系统实现时的频率合成。
(神秘数字44100可分解为素数平方积)
Symphony No. 9 (Beethoven)
还有一种更为传奇的说法,就是最初的CD设计团队发现,如果用48KHz的采样率的话,一张CD放不下74分钟版的贝多芬第九交响曲。而采用稍小的44.1KHz,则刚好可以放下。IC感觉这种说法有点儿太传奇太浪漫了,信不信由您。
(贝多芬第九交响曲手稿)


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部