Salut tout le monde. Je suis un peu perdu avec un truc au boulot : on a un nouveau flux de données clients à intégrer, et je me demande si je devrais tout envoyer directement dans notre lac de données ou bien passer par un nettoyage basique avant. Mon collègue pense que le lac est fait pour ça, mais j’ai peur que ça devienne vite le bazar si on y balance tout sans un minimum de tri. Vous avez déjà été dans ce cas ?
|
Comment décider de nettoyer avant d'envoyer les données dans le lac de données?
|
|
Je penche pour un compromis même dans un lac de données on peut imposer un filtre léger en amont pour éviter le pire bruit sans tout transformer en ETL lourd. Un schéma minimal des types et des horodatages et on filtre les doublons simples. Cela garde la souplesse tout en évitant le bazar.
Franchement balancer tout sans tri, c est risqué. Le lac de données peut vite se transformer en scrapbook indigeste. Un minimum de nettoyage même léger permet de retrouver quelque chose sans y passer la moitié du sprint.
Je suis partagé. D'un côté j adore l'idée de tout mettre dans le lac de données mais j'ai peur d'un chaos silencieux qui tombe dedans et qui fait tout ramer.
Ce qui compte peut être le coût de nettoyage contre l utilité opérationnelle plus tard. Dans le cadre du lac de données on peut estimer une usine à données légère et un suivi de qualité continue plutôt qu un nettoyage brutal initial.
Tu me diras peut être que tout va s autoordonner dans le lac de données mais ce n est pas une poubelle intelligente il faut des gestes de tri même légers pour éviter les surprises.
Et si vous testiez un petit morceau du flux avec un pipeline de nettoyage léger et mesuriez l impact sur le temps de requête le lac de données peut alors devenir un terrain d expérimentations plutôt qu un réservoir sans règle.
|
|
« Sujet précédent | Sujet suivant »
|

