Méthodologie de l'observatoire GEN_SCAN
La Grande École du Numérique (GEN) s’est appuyée sur le savoir-faire de plusieurs Ed-tech pour concevoir et déployer son Observatoire des formations aux métiers du numérique et des besoins en compétences numériques partout en France.

La Grande École du Numérique, dans la continuité de la mise en place de son moteur de recherche, s’est appuyée sur l'EdTech Mindmatcher pour la conception et la mise en production de son Observatoire des formations aux métiers du numérique partout en France. Ce projet a vu l’intégration des données de la start-up Trouvetavoie pour avoir une estimation des offres d’emploi de l’ensemble du territoire liées à la cartographie des métiers de la GEN.
1. Récupération et indexation des formations au numérique
La première phase du projet a consisté à récupérer les données concernant les formations depuis différentes bases de données des partenaires de la GEN :
- Les données concernant les formations initiales via l’ONISEP, accessibles en open data ;
- Les données des formations éligibles au CPF depuis les bases de Mon Compte Formation ;
- Les données concernant les formations continues fournies par le réseau CARIF-OREF.
Ces données sont stockées dans des champs similaires grâce au langage de référence LHEO puis homogénéisées et enrichies grâce à la technologie d’analyse sémantique automatisée basée sur l’intelligence artificielle de l’Edtech INOKUFU.
Un filtrage des données est alors réalisé pour ne retenir que les formations correspondant aux métiers de la cartographie GEN. L’Edtech MINDMATCHER assure un retraitement des informations sur des critères de recherche full texte en utilisant notamment les « formacodes ».
Les formations sont ainsi toutes taguées par -au minimum- une famille et un métier du numérique.
2. Récupération et indexation des besoins en compétences numériques
Dans cette version 1 de l’observatoire, les besoins en compétences sont estimés à partir des offres d’emplois.
La startup TrouveTaVoie exploite un méta-modèle propriétaire qui lui permet de structurer de façon cohérente les données extraites des offres d’emploi et d’éviter les doublons.
Grâce à ses IA et son approche d’interopérabilité, TrouveTaVoie transfère des statistiques articulées selon le référentiel ROME de Pôle emploi vers celui de la cartographie des métiers au numérique de la GEN.
A quoi correspondent les chiffres des offres d’emploi ?
Environ 1,5 million d'offres d'emploi sont publiées chaque mois sur les différents job boards en France.
Chaque fin de mois, TrouveTaVoie prélève un échantillonnage aléatoire représentatif de 1 million d’offres, puis effectue des opérations d'analyse via une intelligence artificielle afin :
- d’extraire les offres publiées au cours du mois ;
- de les dédoublonner ;
- de les affecter à un métier de la cartographie GEN
- de les communiquer à la GEN qui élabore les chiffres clés publiés au début du mois suivant.
Les valeurs absolues des offres d’emploi prises séparément représentent environ 70% du volume réel. Ainsi, l'analyse de ces chiffres dans leur évolution et en valeurs relatives permet de d’avoir une vision d’ensemble fiable des tendances par métier et famille.
3. Structuration de l’Observatoire et informations présentées
Mindmatcher s’est ensuite attaché à récupérer, et à stocker mensuellement, les données liées aux formations issues du moteur de recherche d’une part et les statistiques au sens du nombre d’offres d’emploi par métier, par poste, par département, … transmises par TrouveTaVoie d’autre part.
L’Observatoire repose ainsi à la fois sur les données liées aux formations et aux offres d’emploi sous différents formats (Représentation géographique départementale, Graphiques de répartition par famille métier, par métier, par région, Courbes de tendances et d’évolution, …).
Outre les techniques d’IA utilisées pour extraire et catégoriser les données, l’observatoire utilise des outils de Data Science et de Data viz qui permettent notamment une représentation géographique des données.
La GEN a également créé un indice de tension. Celui-ci représente à un instant T le rapport entre le nombre d’offres d’emploi estimé et le nombre de formations disponibles estimé dans le même périmètre. Les offres d’emploi représentent le besoin en compétences du numérique et les formations, la capacité de fournir ces compétences.
De manière plus détaillée, cet indice de tension s’écrit :
Le rapport entre le nombre d’offres d’emploi et le nombre de formations est linéarisé au moyen d’un logarithme. Cela permet de disposer d’une échelle allant de -∞ à +∞ centrée sur 0 lorsque le nombre d’offres d’emploi est égal au nombre de formations. Le coefficient i0 est une valeur de référence choisie arbitrairement comme la valeur de l’indice de tension au niveau national tous métiers et offres d’emploi confondues au 1er octobre 2022. Il sert à définir la valeur 1 de notre indice de tension.
La première version de l’observatoire publiée le 31/01/2023 analyse les données en date du 1er janvier 2023.
L’intérêt de cet observatoire devrait se confirmer au fil des mois car au-delà des données mensuelles brutes, c’est l’analyse de l’évolution des différents indicateurs et la mise à jour de tendances de fond qui permettront de mieux piloter l’offre de formation.