Salut à tous, je suis un peu perdu sur une question de méthodologie. Pour mon dernier projet, j’ai utilisé une approche d’apprentissage supervisé pour classer des tickets clients, mais je me demande si je n’aurais pas dû plutôt tester du non-supervisé dès le départ. Les catégories pré-définies sont parfois trop rigides et je me demande si les données n’auraient pas révélé des regroupements plus intéressants par elles-mêmes. Certains d’entre vous ont-ils déjà hésité entre les deux approches pour un problème similaire ?
|
Comment décider entre l'apprentissage supervisé et le non supervisé pour un projet ?
|
|
J’ai tendance à privilégier l’approche supervisée quand l’objectif est des catégories opérationnelles qui servent en prod. Ça donne des métriques claires et une chaîne de production plus stable. Cela dit, tester du non-supervisé peut parfois révéler des regroupements que l’on n’avait pas anticipés et qui valent le coup d’être traduits en labels. Tu peux aussi utiliser les résultats non supervisés comme exploration préliminaire avant d’ajouter des labels. L’idée reste floue, mais le chemin par supervision apporte une lisibilité utile.
Humainement, j’ai vécu ce doute aussi. L’approche supervisée donne des résultats rassurants et faciles à expliquer, mais j’ai parfois eu le sentiment que des nuances échappaient. Le non-supervisé, lui, parle une langue plus libre et parfois plus intéressante, même si ce n’est pas prêt pour la prod tout de suite. Tu as déjà ressenti ça quand tu regardes les labels se construire ?
Et si on mélangeait les deux plutôt que d’opposer les méthodes dès le départ ? Une phase non supervisée pour découvrir des regroupements potentiels, puis une étape supervisée pour stabiliser les catégories et valider les hypothèses. Ça peut aussi aider à réduire certains biais en ne prenant pas tout tel quel dès le premier essai. Tu as déjà testé ce genre d’approche hybride sur un dataset similaire ?
Supervisé oui, mais est-ce qu’on ne grille pas nos chances de voir des regroupements inattendus si on s’en tient trop à des étiquettes prédéfinies ?
Le sujet me rappelle les romans qu’on lit en décalage avec les attentes: on attend une phrase claire, puis on tombe sur des sous-textes qui remettent en cause la structure. Le mot clé supervisé revient comme une étiquette qui peut influencer la façon dont on lit le dataset. Ce que j’aime, c’est l’espace laissé aux lecteurs pour interpréter les scènes même quand les choix sont guidés par une métrique. On peut alors se demander comment les contraintes de classification façonnent le récit technique.
Si je devais tester, j’essaierais un cadre hybride: commencer par un modèle supervisé avec des catégories qui correspondent aux besoins métier, puis exécuter un clustering non supervisé sur les résidus pour repérer des groupes perdus. Le plus important est de regarder les chiffres et aussi ce que montrent les tickets eux-mêmes, pas seulement la précision. Le chemin passant par supervision peut s’adoucir si tu invites les données à parler en dehors des labels.
|
|
« Sujet précédent | Sujet suivant »
|

