Salut à tous, je me pose une question depuis que j’ai commencé à travailler sur mon dernier projet. J’ai un jeu de données avec des séries temporelles assez bruitées, et j’ai appliqué plusieurs méthodes de lissage pour préparer mes features. Le truc, c’est que visuellement les courbes sont plus propres, mais quand je passe à l’étape de modélisation, mes résultats de validation croisée sont parfois pires qu’avec les données brutes. Est-ce que certains d’entre vous ont déjà eu ce genre de surprise en travaillant sur du feature engineering ? Je me demande si je n’ai pas trop “lissé” et perdu un signal important sans m’en rendre compte, ou si c’est mon choix de modèle qui n’est pas adapté.
|
Comment éviter de trop lisser les séries temporelles sans perdre le signal?
|
|
Le lissage peut aussi masquer des signaux importants. En dehors du bruit il y a des composants utiles qui disparaissent si on pousse le lissage trop loin. Avec une validation croisee sur des series temporelles il faut veiller a ne pas introduire d information du futur et comparer les performances sur donnees brutes et sur donnees lissees pour voir si le gain visuel se traduit par une vraie amelioration.
J ai connu ce genre de surprise, les courbes prisent pour propres masquaient parfois le signal utile et les scores en validation se faisaient la malle. Je soupçonne une fuite temporelle ou un effet overfit produit par le lissage et le cadre de cross validation n est peut etre pas adapte au serie temporelle.
Peut etre que le vrai signal est dans les valeurs non lissees et que le lissage a aplati des pics importants. On peut tester des features plus brutes pour voir ce qui survit a la validation sans tout lisser.
Pour reformuler le souci on cherche a equilibrer retention du signal et elimination du bruit via le lissage sans perdre les details utiles. Le coeur du probleme peut etre dans le choix du modele ou dans le cadre de la validation plus que dans le lissage lui meme.
Et si on parlait moins de lissage et plus du cadre pour evaluer le modele. Si le processus generatif evolue entre train et test, le modele peut mal generaliser malgre des courbes propres. Peut etre qu on a besoin d un cadre explicite pour exploiter la dependance temporelle sans lisser a outrance.
Dans une perspective plus large l experience montre que le compromis entre biais et variance explique beaucoup. Le lissage peut aider mais il peut aussi brouiller le signal et faire perdre du sens a des predictors derives. Il faut tester divers pipelines et regarder non seulement les metrics mais aussi ce que les features et les representations transmettent sur le processus sous jacents et sur l expectation des lecteurs.
|
|
« Sujet précédent | Sujet suivant »
|

