Du Big Data vers l'IA
Public : Grand public IT
Durée : 1 jour
Pré-requis : Expérience MOA/MOE sur des projets logiciels
Tarif : 450€ par stagiaire
Depuis quelques années, des budgets énormes sont débloqués dans toutes les grandes - et moins grandes - entreprises de France pour prendre le virage "Big Data".
Nous proposons ici une formation d'introduction généraliste au domaine, en une journée. Après une introduction et des définitions essentielles, nous balaierons les problématiques et contraintes afférentes aux données, la manière de les résoudre, et les outils permettant de mener à bien ce type de projets. Un accent particulier sera mis sur les façons de reconnaître les contextes où des projets "Big Data" sont pertinents, et ceux où ils ne le sont pas.
Nous nous appuyons tout au long de cette formation sur des échanges et des exemples pratiques, pour amener nos stagiaires à projeter leurs propres problématiques et contraintes métier sur le domaine.
Présentation : Big Data ?
- Présentation des principales définitions, rapide historique
- Intérêt fondamental du Big Data : cas d'applications, enjeux et gains observés
- Faut-il toujours être sur un projet Big Data ? réflexions d'opportunité
- Du Big Data au Deep Learning, une roadmap générique
- Dangers du Big Data : aveuglement sur la donnée, limites de compréhension (exemple sur une donnée à 4 dimensions), exemples d'erreur possibles
- Usecases Big Data : Quand et comment. Echanges sur des cas d'application
Big Data : Maîtriser la donnée
- Une "grosse" donnée : différents cas de figure (forte volumétrie, forte dimensionalité), différentes options
- Qu'est-ce que la maîtrise de la donnée : vision incrémentale
- Correction de la donnée : évidences et particularités
- Cartographie statistique de la donnée : méthodologie et outils
- Visualisation de la donnée : exemples de visualisation, précision des risques de chacune, relation métier-technique de compréhension de la donnnée
- Analyse du cycle de vie classique d'une donnée : sources, transformations, objectifs
Big Data : Utiliser la donnée ?
- Quelles utilisations ou applications ? Notion de hiérarchie des enjeux entre bas niveau et haut niveau
- Méthodologie de gestion de risque et d'itérations
- Approches statistiques et baselines : opportunités et limites, exemples.
- Approches Machine Learning : opportunités et limites.
- Approches Deep Learning : spécialisation du Machine Learning. Problèmes d'incertitudes et d'utilisation, résultats d'état de l'art
- Comparaisons de performance et de coût pour chaque solution. Avertissements sur la pertinence de certains outils trop spécifiques ou complexes
Big Data : Outils bas niveau de construction
- Clustering non supervisé : définition, enjeux, exemples d'application. Présentation fonctionnelle k-Means / DB-Scan
- Détection d'anomalie : définition, risques de confusion. Exemple d'échanges métier et de précision d'un problème
- Représentation de moindre dimension : enjeux et intérêts. Présentation fonctionnelle PCA/t-SNE/uMAP. Exemples de visualisation
Big Data : Risques et gestion
- Risques statistiques : différence entre corrélation et causalité, paradoxes statistiques usuels avec exemples
- Risques du Machine/Deep Learning : présentation, problèmes de l'overfit. Impossibilité de valider totalement un outil.
- Une donnée réellement anonymisée ? Alertes et mises en évidence de la complexité d'une anonymisation.
- Proposition de méthodologie en trois temps d'approche d'un projet Big Data
Big Data : Outils
- Présentation des principales plateformes Big Data. Alertes sur les risques de vols de donnée ou de confidentialité
- Acteurs clouds "tout en un" : présentation et analyses, cas de l'annotation de donnée
- Docker & Kubernetes : présentation fonctionnelle
- Frameworks de visualisation existants : présentation comparée
- Hadoop ? Apache Spark ? Cassandra ? Pachyderm ? Règles de précaution et conseils dans la jungle des frameworks
Présentation : Big Data ?
- Présentation des principales définitions, rapide historique
- Intérêt fondamental du Big Data : cas d'applications, enjeux et gains observés
- Faut-il toujours être sur un projet Big Data ? réflexions d'opportunité
- Du Big Data au Deep Learning, une roadmap générique
- Dangers du Big Data : aveuglement sur la donnée, limites de compréhension (exemple sur une donnée à 4 dimensions), exemples d'erreur possibles
- Usecases Big Data : Quand et comment. Echanges sur des cas d'application
Big Data : Maîtriser la donnée
- Une "grosse" donnée : différents cas de figure (forte volumétrie, forte dimensionalité), différentes options
- Qu'est-ce que la maîtrise de la donnée : vision incrémentale
- Correction de la donnée : évidences et particularités
- Cartographie statistique de la donnée : méthodologie et outils
- Visualisation de la donnée : exemples de visualisation, précision des risques de chacune, relation métier-technique de compréhension de la donnnée
- Analyse du cycle de vie classique d'une donnée : sources, transformations, objectifs
Big Data : Utiliser la donnée ?
- Quelles utilisations ou applications ? Notion de hiérarchie des enjeux entre bas niveau et haut niveau
- Méthodologie de gestion de risque et d'itérations
- Approches statistiques et baselines : opportunités et limites, exemples.
- Approches Machine Learning : opportunités et limites.
- Approches Deep Learning : spécialisation du Machine Learning. Problèmes d'incertitudes et d'utilisation, résultats d'état de l'art
- Comparaisons de performance et de coût pour chaque solution. Avertissements sur la pertinence de certains outils trop spécifiques ou complexes
Big Data : Outils bas niveau de construction
- Clustering non supervisé : définition, enjeux, exemples d'application. Présentation fonctionnelle k-Means / DB-Scan
- Détection d'anomalie : définition, risques de confusion. Exemple d'échanges métier et de précision d'un problème
- Représentation de moindre dimension : enjeux et intérêts. Présentation fonctionnelle PCA/t-SNE/uMAP. Exemples de visualisation
Big Data : Risques et gestion
- Risques statistiques : différence entre corrélation et causalité, paradoxes statistiques usuels avec exemples
- Risques du Machine/Deep Learning : présentation, problèmes de l'overfit. Impossibilité de valider totalement un outil.
- Une donnée réellement anonymisée ? Alertes et mises en évidence de la complexité d'une anonymisation.
- Proposition de méthodologie en trois temps d'approche d'un projet Big Data
Big Data : Outils
- Présentation des principales plateformes Big Data. Alertes sur les risques de vols de donnée ou de confidentialité
- Acteurs clouds "tout en un" : présentation et analyses, cas de l'annotation de donnée
- Docker & Kubernetes : présentation fonctionnelle
- Frameworks de visualisation existants : présentation comparée
- Hadoop ? Apache Spark ? Cassandra ? Pachyderm ? Règles de précaution et conseils dans la jungle des frameworks