羊角岽

低延时 RNN-T 训练

Speech Recognition / Next-gen Kaldi

新一代 Kaldi 团队新作，通过在损失函数中增加时延正则项实现低时延 RNN-T 的训练。

阅读更多...

Pruned RNN-T: 又好又快的 RNN-T 训练

Speech Recognition / Next-gen Kaldi

又好又快的 RNN-T 训练

阅读更多...

下一代Kaldi - K2

Speech Recognition

An introduction to Differentiable Weighted Finite State Acceptors by Daniel Povey

阅读更多...

Linux Cpu调度策略与实践

先举个栗子

阅读更多...

Feature Extraction for ASR: Pitch

Speech Recognition

Pitch即音调、音高，是人类对声音的一种感知，想必大家都还记得中学物理中讲过的声音的三个特性：响度、音调、音色。所以Pitch在语音识别中是个很重要的特征。Pitch可以量化为频率，称为基本频率（F0）。字词中音调及音调的变化构成了像中文这样音调语言的语调，所以Pitch特征在音调类语言识别中更为重要。

阅读更多...

Utterance Detection in Amazon

Speech Recognition

最近粗略的接触了些话音检测和噪声过滤的工作，有参考到Amazon的相关论文，在此分享下论文的主要方法和贡献。本次分享的两篇论文方法套路基本一样，只是分别使用于不同的场景，一篇是用在端点检测（END-OF-UTTERANCE DETECTION）上，用来判断用户是否已经结束语音指令。另一篇是应用在Device-directed Utterance Detection上，应该主要是用在echo音箱等vpa上，用来过滤一些误触发，用户正对着设备下发的指令认为是正例，而背景噪音，细碎的嬉笑打闹聊天的声音认为是负例，不应该触发，所以叫Device-directed Utterance Detection。

阅读更多...

深度学习人类语言处理公开课

Speech Recognition

李宏毅《深度学习人类语言处理》公开课
课程地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

阅读更多...

Towords End-to-End Speech Recognition

Speech Recognition

Google’s End-to-End Speech Recognition Tutorial at ISCSLP 2018

阅读更多...

C++仿函数

定义

functor的英文解释为something that performs a function，即其行为类似函数的东西。C++中的仿函数是通过在类中重载()运算符实现，使你可以像使用函数一样来创建类的对象。

阅读更多...

C++使用LD_PRELOAD劫持（Hook）库函数

在调试C++程序的时候，我们并不是每次都能拿到源代码，很多时候我们只能得到一个动态库so，调试时这个动态库就是一个黑匣子，没办法查看修改或者在里面加日志，那么我们是不是就没有任何办法对我们感兴趣的函数和参数进行监控和跟踪了呢？

阅读更多...

小小鼓励一下~

支付宝

微信