Introduction

K-means est un algorithme de clustering basé sur le principe de barycentres. Au lancement de l'algorithme, la valeur de K est fixée, et elle définit le nombre de clusters attendus en sortie.
On initialise les clusters en sélectionnant K points parmi les données (de manière aléatoire), ce seront les barycentres.
On va alors parcourir chaque point des données et l'on va chercher le barycentre le plus proche et ajouter le point à ce cluster.
Une fois tous les points dans les clusters, on va alors recalculer les barycentres avec les clusters ainsi créés.
On itère alors les mêmes opérations (parcourir chaque point et le mettre dans un cluster) plusieurs fois.
Au bout d'un moment, on va obtenir une situation d'équilibre (les clusters ne seront plus modifiés, les barycentres devraient converger).
Il est à noter que le choix des barycentres au début (de manière aléatoire ici), implique que l'on peut obtenir des résultats différents si on lance l'algorithme plusieurs fois. Il est donc conseillé de réaliser plusieurs fois le clustering et de sélectionner le meilleur résultat.

Fonctionnement étape par étape

Voici un petit résumé du fonctionnement de K-Means :


diapositive1

Jupyter

Le fichier Jupyter va te permettre de tester tes connaissances sur le fonctionnement de l'algorithme.
Il y a des parties à compléter sur les points clés de l'algorithme pour mieux comprendre son fonctionnement.


Si vous êtes bloqué, voici le corrigé : Fichier Jupyter Corrigé



Fiche résumé

Bravo !
Tu as fini ce tutoriel sur K-Means.
A ce stade, tu dois avoir compris le fonctionnement de l'algorithme, ce n'est maintenant plus une boite noire pour toi !
Néanmoins, si jamais il te venait à oublier certains détails, voici une fiche résumé qui te rafraichira la mémoire !