K-means

Introduction

K-means est un algorithme de clustering basé sur le principe de barycentres. Au lancement de l'algorithme, la valeur de K est fixée, et elle définit le nombre de clusters attendus en sortie.
On initialise les clusters en sélectionnant K points parmi les données (de manière aléatoire), ce seront les barycentres.
On va alors parcourir chaque point des données et l'on va chercher le barycentre le plus proche et ajouter le point à ce cluster.
Une fois tous les points dans les clusters, on va alors recalculer les barycentres avec les clusters ainsi créés.
On itère alors les mêmes opérations (parcourir chaque point et le mettre dans un cluster) plusieurs fois.
Au bout d'un moment, on va obtenir une situation d'équilibre (les clusters ne seront plus modifiés, les barycentres devraient converger).
Il est à noter que le choix des barycentres au début (de manière aléatoire ici), implique que l'on peut obtenir des résultats différents si on lance l'algorithme plusieurs fois. Il est donc conseillé de réaliser plusieurs fois le clustering et de sélectionner le meilleur résultat.

Fonctionnement étape par étape

Voici un petit résumé du fonctionnement de K-Means :

Jupyter

Le fichier Jupyter va te permettre de tester tes connaissances sur le fonctionnement de l'algorithme.
Il y a des parties à compléter sur les points clés de l'algorithme pour mieux comprendre son fonctionnement.

Télécharger le fichier jupyter !

Si vous êtes bloqué, voici le corrigé : Fichier Jupyter Corrigé

Comment utiliser le fichier Jupyter ?

Les fichiers Jupyters sont des fichiers qui permettent de créer un environnement Python, avec un affichage simple mêlant du texte et du code.
C'est le support parfait pour comprendre clairement un code Python, et c'est la solution que nous avons choisi pour toi.
Pour l'installer, rien de plus simple !

Téléchargez le fichier Jupyter ci-dessous
Ouvrez votre Drive Google
Téléversez ce fichier Jupyter dans votre Drive
Pour l'ouvrir, faites clic droit, "ouvrir avec ...", "Colaboratory"
Si vous n'avez pas cette option, faites "Connect More Apps" et cherchez "Colaboratory".
Vous pourrez normalement faire l'étape précédente.

Fiche résumé

Bravo !
Tu as fini ce tutoriel sur K-Means.
A ce stade, tu dois avoir compris le fonctionnement de l'algorithme, ce n'est maintenant plus une boite noire pour toi !
Néanmoins, si jamais il te venait à oublier certains détails, voici une fiche résumé qui te rafraichira la mémoire !

Télécharger la fiche résumé !