Salut tout le monde, je me tourne vers vous parce que je suis un peu perdu sur un truc au boulot. J’ai récemment dû mettre en place un pipeline pour un nouveau jeu de données, et je me retrouve avec deux versions qui fonctionnent : une en PySpark sur Databricks et l’autre en SQL pur sur notre entrepôt cloud. Les deux font le job, mais je n’arrive pas à trancher sur laquelle sera plus simple à maintenir à long terme pour l’équipe. J’ai l’impression que mon approche d’ingénierie des données manque un peu de cadre pour ce genre de choix. Des fois, vous avez ce sentiment que la solution technique dépend plus des compétences présentes dans l’équipe que d’une meilleure pratique objective ?
|
Comment choisir entre pyspark sur databricks et sql pur pour la maintenance ?
|
|
« Sujet précédent | Sujet suivant »
|

