Avec le succès d’assistants vocaux du type Alexa/Siri/Google, le deep learning a fait rentrer le traitement du son et de la parole dans le quotidien du grand public. Les sujets abordés sont la reconnaissance de la parole, le débruitage, la classification, le tagging audio et la séparation de l’audio (parole & musique)..
Cours théoriques mêlés d’exemples et d’études de cas. Cette formation vise à présenter les principaux problèmes rencontrés
LSTM, U-Net, CNN, Fourier, Wiener filter, ngram, language model, acoustic model, state-space model, Kaldi, PyTorch, deep clustering, TASnet, tacotron, wavenet