Bilan d’une année de webinars Data Science

24 février 2022

Le partage entre datascientists est un élément central dans la construction d’une communauté. De plus, c’est un véritable témoignage de la qualité des travaux réalisés. 

Des webinars collaboratifs

Au sein de l’entité Innovation, Data & Digital du Groupe BPCE, et plus particulièrement dans l’équipe de Loïc Brient, Responsable Data Science, une belle initiative a vu le jour en 2020 : l’organisation de sessions de webinars collaboratifs.  
 

L’objectif est de partager des bonnes pratiques, des nouvelles technologies, ainsi que des retours d’expériences avec la communauté Data Science du groupe. Lors de ces séquences, qui se déroulent tous les vendredis matin, « les datascientists parlent aux datascientists».

Fort du succès rencontré en 2020, ce dispositif a été renouvelé en 2021, avec :

  • 36 webinars réalisés,
    • dont 29 retours d’expérience projet et 7 sujets techniques,
    • réunissant 13 équipes différentes représentées ; soit les principales équipes pratiquant la Data Science au sein du Groupe BPCE ;
  • 70 participants connectés en moyenne,
  • et une satisfaction qui ne cesse de s’améliorer avec un NPS supérieur à 70.

Ces séances ont permis d’initier de nombreuses collaborations inter-équipes et de revenir sur les techniques Data Science utilisées et de les approfondir :

  • Les bonnes pratiques au quotidien : paramétrage de son environnement de travail…
  • Les techniques autour des projets : approfondissement sur les variables de Shapley, benchmark des outils et librairies d’Auto-ML…
  • Les partages sur la mise en œuvre d’algorithmes : RNN sur données structurées dans un contexte de classification répétée dans le temps, NLP dont analyse de sentiment et détection d’entités nommées, Positive Unlabelled Learning…

Focus sur ces 3 derniers algorithmes complexes 

Le Recurrent Neural Networks

Le RNN est un type de réseau neuronal artificiel couramment utilisé dans la reconnaissance vocale et le traitement du langage naturel (NLP). En définitive, les RNN sont conçus pour reconnaître les caractéristiques séquentielles d’une donnée, ainsi que les schémas comportementaux, pour prédire le prochain scénario probable. On peut généraliser son utilisation aux données temporelles et utiliser ce type d’algorithme pour réaliser une classification. Celle-ci prenant en compte l’historique et les comportements passés.  C’est ainsi que nous avons utilisé ces modèles de réseaux neuronaux, pour extraire de l’information des données de navigation (temporelles par nature) et utiliser cette information pour prédire au mieux les actions des clients.  

Natural Langage Processing 

Le NLP est la capacité d’un programme informatique à comprendre et analyser le langage naturel. Ainsi, les sujets partagés cette année ont principalement porté sur l’analyse de sentiments (Sentiment Analysis) et la détection d’entités nommées (Named Entity Recognition). Cela, aussi bien dans un contexte d’échanges avec les clients qu’à des fins de conformité.  

La classification Positive Unlabelled Learning 

La PUL est une classification binaire dans un cadre de données d’apprentissage dégradées. Cette méthode de classification permet de pallier l’absence de labélisation d’une partie des données, en donnant plus d’importance aux données pour lesquelles l’information est certaine. Nous appliquons notamment ces techniques dans le cadre des projets pour lesquels la cible est connue progressivement et tardivement. Tout en estimant préalablement le taux de complétude de celle-ci. Cela permet de se doter d’une estimation fiable des performances des modèles dans ces conditions d’apprentissage dégradées.  

 

Les sessions de ces webinars collaboratifs sont bien entendu reconduites pour l’année 2022. Si vous voulez en savoir plus sur cette initiative, n’hésitez pas à contacter Loïc Brient. 

Contact blog: soraya.fleury@bpce.fr