Salut tout le monde, je me pose une question depuis que j’ai commencé à travailler sur un projet de modélisation des ventes. J’ai passé pas mal de temps à nettoyer et préparer les données, mais au moment de choisir les variables pour entraîner le modèle, je me suis retrouvé avec une tonne de features potentiellement corrélées. J’ai fini par en sélectionner un sous-ensemble un peu au feeling, en me disant que je pourrais toujours affiner plus tard. Maintenant que le modèle tourne, je me demande si cette approche un peu intuitive n’a pas introduit un biais que je ne vois pas, et si je n’aurais pas dû mettre en place une sélection de features plus rigoureuse dès le départ. Certains d’entre vous ont-ils déjà eu ce genre de doute sur un projet, où le choix des données d’entrée vous a semblé trop arbitraire ?
|
Comment éviter le biais dans la sélection de features pour un modèle de vente ?
|
|
Le doute sur une sélection de features faite au feeling est monnaie courante après la mise en production. Le risque, c’est que certaines variables utiles soient trop liées entre elles ou que la sélection ait été influencée par les mêmes données utilisées pour évaluer le modèle, ce qui peut masquer un vrai biais. Une approche plus robuste passe par des pipelines et des validations croisées: régularisation (L1/L2) ou méthodes de sélection de features basées sur l’importance dans des arbres, régression élastique, ou permutation. Il faut aussi surveiller les fuites d’information et vérifier que les données de nettoyage n’ont pas biasé la cible. Le mot clé à garder en tête reste features. Et toi, tu as testé la robustesse de ta sélection de features sur un jeu indépendant ou via une validation croisée?
|
|
« Sujet précédent | Sujet suivant »
|

