Funpack第二季第一期语音控制Syntiant TinyML点亮led灯

内容介绍

使用edge-impulse进行NN模型的训练。受限于非会员的限制，模型无法搭建的很大，不过对于简单的声纹信息处理来说足够。并且在NDP芯片上的网络大小也是受到限制的。

FsZPrmVLKsMULTR8WxKRv9JF3yVw

图1 Edge-impulse网页

收集语音数据：使用火山引擎的语音合成数据进行训练。加入噪声数据。

Fn4DpLD7J5Jhebi2tW6o-y5BZQDH

图2火山引擎网页

数据集构成：总长度为17min，每段语音长度在1s至2s之间，标签为male、female、little和噪声集openset。

FjIafHMjMI28_CcKULQRGb_uoGWq

图3 数据信息

声纹识别理论：傅里叶变换和梅尔尺度变换

我们常说的声音信号，都是由各种不同频率的声波组成而来的，如下图所示，我们能看到的其实只有一个矩形波，但它背后是由许许多多的正弦波叠加而成。这些正弦波按照频率从低到高从前向后排列开来，而每一个波的振幅也都是不同。所以为了能得到这个信号更多维度的信息（即从时域的信息转换成频域的信息），此时就需要傅里叶变换了。

首先考虑一个连续信号 f(x) 的傅里叶变换，如下

Ft-gHhMsJM11wkvuu4ksvRCTJqJt

在实际应用中，计算机只能处理离散信号，我们得到离散傅里叶变换(DFT)，如下

Fte73ks4Rz_GgiXf8e2Bj_YQlm7r

而现在，计算机直接采用的是快速傅里叶变换(FFT)，结果是与DFT一样的。

傅里叶变换到声谱图spectrogram

声谱图是我们最终处理的目标。不同的人的音色之所以不同，原因在于大家发音的过程中的谐波成分有所区别，人耳以及背后的大脑通过处理这个信息，得到了我们对声音的印象，通过大脑这个神经网络，我们可以区别不同人的声音。对于我们的芯片上的神经网络而言，用声谱图提取信息就十分重要。

短时傅里叶变换定义如下：

FgfhmPkw7_luJPW09gZzqhKGWz95

通过分帧的策略，将连续的声音信号进行分段的捕捉，正好可以利用STFT。

然后我们就要对分帧后的信号进行快速傅里叶变换（FFT），最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式，然后就可以得到声谱图了。

FrNulLISZU5D6Buu9-B4QROV014s

图4 原理图

需要注意的是，帧与帧之间必须有一定的重叠，这个overlap有利于整体的连贯性。

Fjge5aJvuzlJog37z0T07Uh3OtuP

图5图帧间隔混叠策略

所以处理的过程是从信号的左端向右滑动。伪代码为

FgbRSZYPrDPYC34t_zbaMVuaQx4I

梅尔尺度，梅尔滤波器和梅尔频谱

梅尔尺度（Mel Scale）是建立从人类的听觉感知的频率——Pitch到声音实际频率直接的映射。频率的单位是赫兹（Hz），人耳能听到的频率范围是20-20000Hz，但人耳对Hz这种标度单位并不是线性感知关系，例如，若把音调频率从1000Hz提高到2000Hz，我们的耳朵只能觉察到频率似乎提高了一些而不是一倍。但是通过把频率转换成美尔尺度，我们的特征就能够更好的匹配人类的听觉感知效果。从频率到梅尔频率的转换公式如下：

Ft2i5j1aXWePXvZnkDpsPq9fhWHM

我们可以观察一下转换后的映射图，可以发现人耳对于低频声音的分辨率要高于高频的声音，因为赫兹到梅尔是log的关系，所以当频率较小时，mel随Hz变化较快；当频率很大时，mel的上升很缓慢，曲线的斜率很小。这说明了人耳对低频音调的感知较灵敏，在高频时人耳是很迟钝的，梅尔标度滤波器组启发于此。

Fg9edq5dXBdVqNzVTy4xQ2zdtwRK

图6 听觉感知灵敏度

为了模拟人耳对声音的感知，人们发明的梅尔滤波器组。一组大约20-40(通常26)个三角滤波器组，它会对上一步得到的周期图的功率谱估计进行滤波。而且区间的频率越高，滤波器就越宽(但是如果把它变换到美尔尺度则是一样宽的)。为了计算方便，我们通常把26个滤波器用一个矩阵来表示，这个矩阵有26行，列数就是傅里叶变换的点数。

FmZ3puKhLWtlFCtsX-PBMJ5145mP