Comment choisir entre Pandas et PySpark pour nettoyer des gros logs?
#1
Salut à tous, je me pose une question depuis quelques jours. Je travaille sur un projet perso où je dois nettoyer et fusionner plusieurs fichiers de logs assez volumineux, et j’ai naturellement commencé à tout faire en Pandas, comme d’habitude. Mais là, en voyant la taille des données, je me demande si je ne devrais pas plutôt passer par PySpark pour le traitement, quitte à revenir à Pandas après pour l’analyse fine. Certains d’entre vous ont-ils déjà été dans ce cas de figure ? J’ai l’impression de devoir choisir entre le confort de l’outil que je maîtrise et l’efficacité théorique d’une solution plus adaptée, et ça me laisse un peu indécis.
Répondre


[-]
Réponse rapide
Message
Saisissez votre réponse à ce message ici.

Code de confirmation
Veuillez saisir le texte figurant dans l’image ci-dessous. Ce procédé permet de bloquer les robots.
Code de confirmation
(insensible à la casse)

Aller au forum