DédupData
Script Python automatisé de dédoublonnage de personnes, connectant l'ensemble des sources de données d'une mutuelle nationale.
Mutuelle nationale
Mutuelle de santé d'envergure nationale, comptant plusieurs centaines de milliers d'adhérents et gérant des flux de données provenant de multiples systèmes : GED, logiciel de gestion Cegedim, plateforme support Zendesk, bases de données Azure. Au fil des années, des milliers de doublons de personnes s'étaient accumulés dans le système d'information, créés par erreur humaine par les équipes de gestion.
Les équipes de gestion créaient involontairement des doublons de personnes dans le SI. Ces doublons s'accumulaient depuis des années, dispersés dans de multiples systèmes sans possibilité de fusion automatisée.
Ce que l'on observait
Doublons créés par erreur humaine
Les gestionnaires créaient de nouvelles fiches au lieu de retrouver les existantes. Variantes de noms, fautes de frappe, formats d'adresse différents.
Données silotées
GED, Cegedim, Zendesk, base Azure : chaque système avait sa propre copie des personnes, sans synchronisation ni réconciliation.
Pas de vue unique personne
Impossible de reconstituer l'historique complet d'un adhérent. Les informations étaient fragmentées entre plusieurs fiches.
Risque RGPD
Les doublons multipliaient les données personnelles stockées sans raison légitime, augmentant l'exposition au risque de non-conformité RGPD.
Notre réponse
Un traitement automatisé de fusion cross-systèmes
Listing de doublons en entrée
Le traitement reçoit en entrée un listing de personnes identifiées comme doublons. L'identification est réalisée en amont par les équipes métier ou les outils internes de la mutuelle.
Connexion multi-sources
Script Python connecté simultanément à la GED, Cegedim, Zendesk, Azure SQL Database et toutes les bases de données de la mutuelle.
Fusion automatisée cross-systèmes
Pour chaque doublon identifié, le script propage automatiquement la fusion dans l'ensemble des systèmes connectés : mise à jour des références, consolidation des historiques, suppression des fiches redondantes.
Traçabilité complète
Chaque opération de fusion est journalisée avec un rapport détaillé : fiches source, fiche cible, systèmes impactés, données consolidées. Un historique complet pour audit et conformité.
À partir d'un listing de doublons identifiés en amont, le script Python se connecte à l'ensemble des systèmes et propage la fusion pour produire une base propre et réconciliée.
À partir d'un listing de doublons identifiés en amont, le traitement propage automatiquement la fusion dans l'ensemble des systèmes connectés.
Du listing de doublons à la base unifiée
Le traitement reçoit en entrée un listing de personnes identifiées comme doublons par les équipes métier. Il se connecte ensuite à l'ensemble des systèmes de la mutuelle pour propager la fusion : mise à jour des références, consolidation des historiques et suppression des fiches redondantes.
- Ingestion du listing — lecture du fichier de doublons identifiés en amont, validation du format et des identifiants
- Connexion multi-sources — accès simultané à la GED, Cegedim, Zendesk, Azure SQL et toutes les bases de la mutuelle
- Fusion cross-systèmes — pour chaque doublon, propagation de la fusion dans tous les systèmes : consolidation des données, mise à jour des références croisées
- Traçabilité et rapports — journal détaillé de chaque fusion réalisée, rapport de synthèse pour audit et conformité
Réception du listing
Ingestion du fichier de doublons identifiés en amont
Connexion aux systèmes
Accès simultané aux 5 sources de données
Résolution des références
Identification des fiches liées dans chaque système
Fusion cross-systèmes
Consolidation des données, suppression des fiches redondantes
Rapport et traçabilité
Journal de chaque fusion, rapport de synthèse
Comparaison avant/après sur la qualité des données d'une mutuelle nationale.
Ce qui change avec le dédoublonnage automatisé
Ce que nos clients nous demandent
Comment fonctionne le processus de dédoublonnage ?
L'identification des doublons est réalisée en amont par les équipes métier ou les outils internes de la mutuelle. Notre traitement reçoit en entrée ce listing de personnes en doublon, puis se connecte à l'ensemble des systèmes (GED, Cegedim, Zendesk, Azure SQL) pour propager automatiquement la fusion dans chaque source de données.
Quelles sources de données pouvez-vous connecter ?
Le script Python se connecte à toute source exposant une API, une base de données SQL, des fichiers (CSV, Excel, XML) ou un protocole standard. Pour cette mutuelle : GED (API REST), Cegedim (base SQL), Zendesk (API REST), Azure SQL Database, et des extractions fichiers de systèmes legacy.
Le traitement est-il conforme RGPD ?
Oui. Le dédoublonnage contribue à la conformité RGPD en réduisant les données personnelles redondantes. Le traitement est réalisé sur l'infrastructure du client (Azure), les données ne quittent jamais le périmètre de la mutuelle. Un registre de traitement est maintenu conformément à l'article 30 du RGPD.
Le traitement peut-il être relancé régulièrement ?
Oui. À chaque nouveau listing de doublons identifiés, le script peut être relancé pour propager les fusions dans tous les systèmes. Le processus est conçu pour être exécuté de manière récurrente au fil de l'identification de nouveaux doublons.
Combien de temps pour mettre en place le système ?
Le projet a été réalisé en 3 mois : 1 mois d'analyse des sources et des règles métier, 1 mois de développement du script de fusion multi-sources, 1 mois de tests, ajustements et mise en production. Le nettoyage initial de la base existante a été réalisé durant la phase de recette.
Un besoin identifié ?
Diagnostic gratuit de 30 minutes — sans engagement, confidentiel.