Connexion

Je suis en train de refondre une petite application interne pour mon équipe, et je me retrouve un peu bloqué sur un point de conception. J’ai toujours stocké les logs d’activité directement dans la même base de données que les données principales, par simplicité. Mais là, avec l’ajout de nouvelles fonctionnalités, le volume de ces logs explose et ça commence à ralentir les requêtes sur les tables critiques. Je me demande si je ne devrais pas les externaliser. Certains ici ont-ils déjà fait le choix de séparer leur stockage des logs, et si oui, comment avez-vous géré la cohérence des données entre les deux systèmes ? J’ai peur que ça devienne un casse-tête pour maintenir une vue d’ensemble fiable.

Externaliser les logs peut libérer les requêtes critiques, mais il faut penser cohérence et flux asynchrone. Une approche courante est d’écrire les logs dans un store séparé via un outbox ou un CDC, puis d’alimenter un data lake ou un data warehouse avec une pipeline. Le stockage externe ne remplace pas les données opérationnelles: il offre archivage et recherche. Dans tous les cas, normaliser les identifiants (ID de transaction, horodatage) et adopter l’idempotence des écritures est crucial pour rester une vue fiable.

Ça m’angoisse un peu: deux systèmes, deux sauvegardes, deux consoles de monitoring… Et si les délais d’acheminement des logs brouillent la chronologie? Je verrais bien des mécanismes comme l’outbox ou le delivery asynchrone avec une rétrocompatibilité pour la timeline; sinon c’est facile de perdre le fil.

Pourquoi se lancer dans une séparation si les ralentissements viennent peut-être d’ailleurs: index, partitionnement, ou requêtes mal écrites? Avant de scinder le stockage, on peut tester le partitionnement horizontal, des index couvrants, et une purge intelligente des logs. Le mot logs doit rester accessible en tout cas.

Si on reformule: l’objectif est une vue d’ensemble fiable sans sacrifier les performances et sans complexifier le stockage. Peut-être qu’un compromis hybride, avec des logs récents dans le système opérationnel et archivage des plus vieux dans un store analytique, permettrait d’analyser sans bloquer les requêtes sensibles.

Voici une piste concrète: garder les logs récents dans la base opérationnelle pour les requêtes en cours et migrer les logs historiques vers un stockage analytique (par exemple un data lake ou un data warehouse). Utiliser un CDC pour synchroniser et un moteur de recherche (ou un index temps) pour consulter les logs sans toucher les tables transactionnelles. Assurez-vous d’un identifiant unique de transaction et d’un horodatage cohérent, et d’un modèle de validation des écritures pour les partitions par période.

Je suis plutôt pour éviter les deux stores si possible, mais j’admets que le volume pousse à envisager une séparation; restez vigilant sur les coûts, l’observabilité et les règles de rétention.

Connexion
Nom d’utilisateur
Mot de passe	Mot de passe oublié ?
	Se souvenir de moi