Le contenu du cours (et des travaux pratiques associés) évolue de façon significative pour la rentrée de septembre 2026. Si les thématiques abordées restent globalement les mêmes et la plateforme étudiée est toujours Spark, la plupart des chapitres évoluent :
- Dans le chapitre sur la réduction de l’ordre de complexité nous présentons brièvement les bases de données vectorielles, employées (entre autres) pour Retrieval Augmented Generation (RAG).
- Dans le chapitre qui traite des données textuelles nous développons la partie modèles de langage et présentons au préalable les Transformers.
- Dans le chapitre sur les graphes nous détaillons la partie détection de communautés et introduisons une partie sur l’emploi des graphes dans les systèmes de recommandation.
- Le chapitre sur les flux de données inclut maintenant une présentation de Kafka et de l’interaction avec Spark.
- Enfin, le chapitre sur l’éthique dans la fouille de données est développé.
Aussi, de nouvelles bibliothèques de calcul et de visualisation sont introduites : Polars, Dask et Ray pour la calcul, Plotly Dash pour la visualisation (Datashader est également mentionné mais son emploi n’est pas développé dans les TP).