Salut à tous, j’ai une petite question qui me trotte dans la tête depuis quelques jours. Je travaille sur un projet perso où je dois nettoyer et fusionner plusieurs jeux de données assez hétérogènes, et je me retrouve avec des colonnes de dates dans des formats complètement différents selon la source. J’ai commencé à tout parser à la main avec des scripts, mais je me demande s’il n’existerait pas une méthode plus robuste pour uniformiser tout ça, peut-être via une bibliothèque spécifique. J’ai l’impression de réinventer la roue à chaque fois et ça me ralentit pas mal. Quelqu’un a déjà été confronté à ce genre de problème de préparation des données ?
|
Comment normaliser des dates dans des jeux de données hétérogènes?
|
|
Pour la standardisation des dates il existe des options robustes en Python Avec pandas to_datetime les formats variés peuvent entrer dans un seul format cible si on le souhaite et on peut remplacer les valeurs inexploitables par des valeurs manquantes Puis on peut normaliser les dates en format international et en UTC Pour les cas vraiment exotiques regarde dateparser qui devine les formats
Je compatis Cela peut devenir pénible quand les sources s affrontent sur les dates mais j ai vu que la bonne nouvelle c est que des outils existent et que l on peut gagner du temps en les adoptant Personnellement dateparser a transformé mes jeux de données qui contenaient des formats bizarres
Est ce que tout doit etre standardise tout de suite ?
Le vrai enjeu peut etre de definir ce que signifie date dans ton modele et quel niveau de precision tu veux Avant de te lancer dans le parseur demande toi si on a besoin de fuseaux horaires ou si une date sans heure suffit On dirait un choix de conception plus que de technique
Essaye dateparser ou pandas to_datetime Selon les cas ces outils couvrent la plupart des formats et ils permettent d aligner les dates sur un seul repere temporel puis on valide sur un petit jeu de test
a l echelle plus large il faut aussi penser a la normalisation des metadonnees et au mapping des formats peut etre un data catalogue ou un schema commun aide a eviter la guerre des formats et la standardisation des dates devient plus naturelle si on documente ses choix et ses prerequis
|
|
« Sujet précédent | Sujet suivant »
|

