Connexion

Salut à tous, je me pose une question depuis quelques jours. Je travaille sur un projet perso où je dois nettoyer et fusionner plusieurs fichiers de logs assez volumineux, et j’ai naturellement commencé à tout faire en Pandas, comme d’habitude. Mais là, en voyant la taille des données, je me demande si je ne devrais pas plutôt passer par PySpark pour le traitement, quitte à revenir à Pandas après pour l’analyse fine. Certains d’entre vous ont-ils déjà été dans ce cas de figure ? J’ai l’impression de devoir choisir entre le confort de l’outil que je maîtrise et l’efficacité théorique d’une solution plus adaptée, et ça me laisse un peu indécis.

Connexion
Nom d’utilisateur
Mot de passe	Mot de passe oublié ?
	Se souvenir de moi