Avec le succès d’assistants vocaux du type Alexa/Siri/Google, le deep learning a fait rentrer le traitement du son et de la parole dans le quotidien du grand public.
Les sujets abordés sont la reconnaissance de la parole, le débruitage, la classification, le tagging audio et la séparation de l’audio (parole & musique)..

Moyens techniques

Support de cours projeté pendant la formation et transmis à l’ensemble des stagiaires à l’issue de la formation; cas et exemples pratiques choisis selon les domaines d’intérêt des stagiaires

Suivi de l’exécution

Emargement demandé chaque demie-journée à tous les stagiaires Évaluation : Questionnaire d’évaluation des acquis à l’issue de la formation

Appréciation des résultats

Questionnaire de satisfaction à l’issue de la formation

Objectifs pédagogiques

Cours théoriques mêlés d’exemples et d’études de cas. Cette formation vise à présenter les principaux problèmes rencontrés

Technologies abordées

LSTM, U-Net, CNN, Fourier, Wiener filter, ngram, language model, acoustic model, state-space model, Kaldi, PyTorch, deep clustering, TASnet, tacotron, wavenet

Compétences visées

  • Bases en traitement du signal audio
  • Reconnaissance de la parole: concepts classiques, état de l’art
  • Débruitage, séparation, filtrage
  • Classification, tagging
  • Synthese vocale et musicale