言语信息处理【零】导言

2023-08-28 11:03:45

Phonemes

音素，语音研究基本单位

Vowel

all voiced
单元音双元音

American English Vowel Space

使用舌头所在位置描述和区分元音
front,back,high,low

English consonants

按发音部位可以分为：
唇音、双唇音、唇齿音、舌尖音、齿音、卷舌音、齿龈音、齿龈後音、龈颚音、舌面音、硬颚音、唇硬颚音、软颚音、唇软颚音、小舌音、舌根音、咽音、会厌音、喉音
按发音方法可以分为：
鼻音、塞音（爆音）、擦音、塞擦音、近音（无擦通音）、闪音（弹音）、颤音。
清浊音：辅音发音时声带的振动模式。发浊辅音时，声带有充分振动；发清辅音时，声带完全不振动。

Articulation Map

也是一种提取语音信息特征的方法

Prosody

intonation: Tune
duration: how long/short of each phoneme
phrasing: where the breaks are

Ear Structure

通过耳朵的结构提取声音的不同频路

Vibrate hairs inside conchlear
Different frequencies vibrate different hairs
Converts time domain to frequency domains S

计算机处理声音

capture the pressure waves as a series of samples

Analog to digital

speech is analog but computers are digital, we need to convert
AD converter

Sample Frequency

F0 80-300 Hz
F1/F2 250-3000 Hz
Fricatives 4kHz-8kHz
human ear 20-20000Hz

奈奎斯特采样定理

采样定理wiki

采样过程所应遵循的规律，又称取样定理、抽样定理。采样定理说明采样频率与信号频谱之间的关系，是连续信号离散化的基本依据。
在进行模拟/数字信号的转换过程中，当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax)，采样之后的数字信号完整地保留了原始信号中的信息，一般实际应用中保证采样频率为信号最高频率的2.56～4倍；采样定理又称奈奎斯特定理。
如果对信号的其它约束是已知的，则当不满足采样率标准时，完美重建仍然是可能的。在某些情况下（当不满足采样率标准时），利用附加的约束允许近似重建。这些重建的保真度可以使用Bochner定理来验证和量化。

Waveform Encoding

PCM: +/- 32768
MULAW encoding

wide band speech 16kHz
narrow band speech 8kHz

Spectragram vs Time domain

傅里叶变换 FT
快速傅里叶变换 FFT

Time domain

spectragram

放大内容：
在这里插入图片描述

Microphones

Head mounted mic
Far field mic
Arrat mic

作业：CD采样频率为什么是44.1kHz
答案：
知乎参考链接

在数字音频尤其是音乐领域，最常见的采样率是 44.1 kHz，即每秒44100个采样。为何它这么常见的简短回答：CD 使用这个采样率，因此也是大部分从 CD 拷贝而来的音频和音频工作站软件的采样率。
至于为什么CD 选用这个采样率就比较有趣了。在1970年代，数字录音还处在幼儿阶段，许多不同的采样率被使用，包括 37 kHz 和 50 kHz [1]。在70年代后半叶，Philips 和 Sony 在 CD 上展开合作，两个公司在采样率上有很多争论。最终因为一系列原因，44.1 kHz 被选中。
根据 Nyquist 定理，44.1 kHz 可以重现频率低于 22.05 kHz 的所有音频。这覆盖了正常人能够听到的所有频率。尽管关于高频信息的感知仍有争论，但只有少数人能够感知高于 20 kHz 声音的观点已被广泛接受。
44.1 kHz 也允许CD格式的创作者在120毫米的唱片上记录至少80分钟的音乐（多于一个黑胶唱片的容量），在当时这被认为是一个极好的卖点。
此外，44100还是个特别的数字：44100 = 2^{2} \times 3^2\times 5^2\times 7^2 ，因此 44.1kHz 对于很多运算来说是个简单的数字。

豆瓣参考链接

Compact Disc
日常生活中大家都接触过CD，记得在2000年前后，当时MP3还未普及，IC当时听音乐、歌曲主要靠购买CD。CD一般来说是Compact Disc Digital Audio的简称，翻译成中文大概是紧凑型数字音频盘的意思。最初由飞利浦和索尼在上个世纪80年代初以红书（Red Book）的形式联合发布，在1987年被标准化组织IEC接纳为正式标准，编号为IEC 60908。这个标准最近一次修订是在1999年。飞利浦和索尼出版了一系列以颜色命名的标准，全部都是关于Compact Disc的，红书（Red Book）就是其中描述数字音频CD的一本。
（CD Logo、CD盘面、早期的CD唱机、放大的CD表面纹路）
IEC 60908整个标准还是挺繁杂的，我们只关注其中的编码部分。简单来说，存放于CD中的音频编码标准就是声音通道数为2、采样精度16位、编码格式为线性PCM、采样率固定是44.1KHz。
（适用于CD的音频标准IEC60908）
PCM Adaptor
在红书（Red Book）发布之前的1970年代，还存在着一种录音设备叫做PCM适配器。故名思义，它把模拟的音频信号转换成数字的PCM编码，并提供录制到视频存储设备上的接口。为什么音频和视频搅和在一起？因为当时已有的音频存储设备带宽不够大，不足以提供16位的PCM数字音频的存取带宽，这个带宽大概在1M~1.5M bit/s，这在当时是一个相当“高”的带宽，只有视频存储设备才有如此高的存取能力。PCM适配器把音频数据按特定的视频格式打包，从而可以借助于已有的“高带宽”视频存储设备实现音频数据的存取。
（Sony PCM-F1：PCM Adaptor）
好吧，回忆一下我们之前在创刊号的问题：为什么CD的采样率是44.1KHz？到这里，已经非常的接近问题的答案了。那就是任何新事物都要尊重传统的力量。放到这里，那就是音频CD的采样率沿用了PCM适配器的采样率，而PCM适配器的采样率还要能够兼容视频存储设备的特定要求，以便利用现有的视频存取设备来存取其中的音频数据。
Video Format
当时大量存在的视频存储设备主要支持两种视频制式，一种是25帧制式（称为CCIR 625/50，也叫PAL），一种是30帧制式（称为EIAN 525/60，也叫NTSC）。当时世界上有电视普及的国家按这两种制式分为两个阵营。首先看30帧（即60场）制式，这种制式的一帧中，可利用来录制音频的视频行最多能有490行，分到每一场（Field）就有245行。在每一视频行可以平均存储3个音频采样点，那么音频出现的频率就是602453 = 44100。这就是44.1KHz采样率的由来的原因之一。
同样在25帧（即50场）制式中，最大可利用的行数是588行，分到每一场有294行，同样每一行存放3个音频采样点，那么音频采样率就是502943 = 44100 。这样的音频采样率可以保证对两种视频制式的最大限度兼容。
Prime Numbers
还有一种解释说明采用44100Hz的原因是，44100可以分解成2、3、5、7四个最小连续素数的平方的乘积。听起来有些神秘主义的倾向，IC推测这些素数因子有助于系统实现时的频率合成。
（神秘数字44100可分解为素数平方积）
Symphony No. 9 (Beethoven)
还有一种更为传奇的说法，就是最初的CD设计团队发现，如果用48KHz的采样率的话，一张CD放不下74分钟版的贝多芬第九交响曲。而采用稍小的44.1KHz，则刚好可以放下。IC感觉这种说法有点儿太传奇太浪漫了，信不信由您。
（贝多芬第九交响曲手稿）

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 6-5 实验9_7_设计函数int getVowel(char str[ ],char vowel[ ])；
下一篇 > OJ 1042 胥哥的DOTA

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce