Feature Extraction for ASR: Pitch

Pitch即音调、音高,是人类对声音的一种感知,想必大家都还记得中学物理中讲过的声音的三个特性:响度、音调、音色。所以Pitch在语音识别中是个很重要的特征。Pitch可以量化为频率,称为基本频率(F0)。字词中音调及音调的变化构成了像中文这样音调语言的语调,所以Pitch特征在音调类语言识别中更为重要。

阅读更多...

Utterance Detection in Amazon

最近粗略的接触了些话音检测和噪声过滤的工作,有参考到Amazon的相关论文,在此分享下论文的主要方法和贡献。本次分享的两篇论文方法套路基本一样,只是分别使用于不同的场景,一篇是用在端点检测(END-OF-UTTERANCE DETECTION)上,用来判断用户是否已经结束语音指令。另一篇是应用在Device-directed Utterance Detection上,应该主要是用在echo音箱等vpa上,用来过滤一些误触发,用户正对着设备下发的指令认为是正例,而背景噪音,细碎的嬉笑打闹聊天的声音认为是负例,不应该触发, 所以叫Device-directed Utterance Detection。

阅读更多...

C++仿函数

定义

functor的英文解释为something that performs a function,即其行为类似函数的东西。C++中的仿函数是通过在类中重载()运算符实现,使你可以像使用函数一样来创建类的对象。

阅读更多...

小小鼓励一下~

支付宝
微信