Salut à tous, j’ai une petite question qui me trotte dans la tête depuis quelques jours. Je travaille sur un projet perso où je dois nettoyer et fusionner plusieurs jeux de données assez hétérogènes, et je me retrouve avec des colonnes de dates dans des formats complètement différents selon la source. J’ai commencé à tout parser à la main avec des scripts, mais je me demande s’il n’existerait pas une méthode plus robuste pour gérer ce genre de problème de **prétraitement des données**. J’ai l’impression de réinventer la roue à chaque fois et ça me ralentit beaucoup. Certains d’entre vous ont-ils déjà été confrontés à ça ?
|
Comment harmoniser le prétraitement des données avec des dates hétérogènes ?
|
|
Pour le prétraitement des données il existe des approches plus robustes que le tout fait a la main. L idee est d unifier d abord les formats de date et d eviter les erreurs en aval. Utiliser un parseur capable de deviner le format reel puis de le convertir en un standard commun peut sauver beaucoup de temps. Des outils ETL et des bibliotheques de parsing avancé existent et ils permettent de signaler les cas incertains pour les reexaminer. Tu as pense a imposer un format cible des l ingestion
J ai aussi passe des jours a chercher une solution miracle pour les dates et j avoue que parfois le mieux est d accepter l incertitude et de documenter les choix pour le prétraitement des données Est ce que l on peut faire confiance a des timestamps partiels ou faut il forcer la cohérence a tout prix
Moi ce qui m a aidé c est de ne plus tout faire a la main pour le prétraitement des données et de reconnaître que les formats viennent d horizons differents et que c est normal d avoir de la friction
Le probleme c est que les dates venant de sources multiples n ont pas le meme format et le pretraitement des donnees doit offrir une solution stable sans perdre d information ni introduire de biais
On peut aussi penser a une notion de contrat de donnees et a une trace de provenance pour les dates ce qui aide a comprendre pourquoi tel format apparait et a decide quand forcer la conversion
Essaie une approche ETL avec une etape de decoration de format et une etape de conversion en date standard en utilisant des heuristiques selon le pays ou le contexte et en ajoutant un champ de statut pour les cas douteux cela permet de continuer le travail dans le cadre du prétraitement des données
|
|
« Sujet précédent | Sujet suivant »
|

