Bidev Consulting Logo
À propos
Étude de cas

DédupData

Script Python automatisé de dédoublonnage de personnes, connectant l'ensemble des sources de données d'une mutuelle nationale.

Assurance / Mutuelle Qualité données Python 3 mois Référence anonymisée
Le client

Mutuelle nationale

Mutuelle de santé d'envergure nationale, comptant plusieurs centaines de milliers d'adhérents et gérant des flux de données provenant de multiples systèmes : GED, logiciel de gestion Cegedim, plateforme support Zendesk, bases de données Azure. Au fil des années, des milliers de doublons de personnes s'étaient accumulés dans le système d'information, créés par erreur humaine par les équipes de gestion.

5+
Sources de données
100K+
Enregistrements traités
Python
Script de fusion
Azure
Infrastructure cloud
Des milliers de doublons à une base de données unifiée

Les équipes de gestion créaient involontairement des doublons de personnes dans le SI. Ces doublons s'accumulaient depuis des années, dispersés dans de multiples systèmes sans possibilité de fusion automatisée.

Ce que l'on observait

!

Doublons créés par erreur humaine

Les gestionnaires créaient de nouvelles fiches au lieu de retrouver les existantes. Variantes de noms, fautes de frappe, formats d'adresse différents.

!

Données silotées

GED, Cegedim, Zendesk, base Azure : chaque système avait sa propre copie des personnes, sans synchronisation ni réconciliation.

!

Pas de vue unique personne

Impossible de reconstituer l'historique complet d'un adhérent. Les informations étaient fragmentées entre plusieurs fiches.

!

Risque RGPD

Les doublons multipliaient les données personnelles stockées sans raison légitime, augmentant l'exposition au risque de non-conformité RGPD.

Notre réponse

Un traitement automatisé de fusion cross-systèmes

Listing de doublons en entrée

Le traitement reçoit en entrée un listing de personnes identifiées comme doublons. L'identification est réalisée en amont par les équipes métier ou les outils internes de la mutuelle.

Connexion multi-sources

Script Python connecté simultanément à la GED, Cegedim, Zendesk, Azure SQL Database et toutes les bases de données de la mutuelle.

Fusion automatisée cross-systèmes

Pour chaque doublon identifié, le script propage automatiquement la fusion dans l'ensemble des systèmes connectés : mise à jour des références, consolidation des historiques, suppression des fiches redondantes.

Traçabilité complète

Chaque opération de fusion est journalisée avec un rapport détaillé : fiches source, fiche cible, systèmes impactés, données consolidées. Un historique complet pour audit et conformité.

-85%
doublons éliminés
3 mois
du cadrage à la production
5
sources connectées
100%
automatisé
De 5 sources de données à une base unifiée

À partir d'un listing de doublons identifiés en amont, le script Python se connecte à l'ensemble des systèmes et propage la fusion pour produire une base propre et réconciliée.

GEDDocuments
CegedimGestion santé
ZendeskSupport client
Azure SQLBase de données
AutresSources internes
▼ ▼ ▼ ▼ ▼
Moteur de Fusion — PythonListing doublons en entrée · Connexion multi-sources · Fusion automatisée · Traçabilité
▼ ▼ ▼
Base unifiéeVue unique personne
Rapports de fusionFiches fusionnées · Historique
Journaux d'auditTraçabilité complète
Python Python
Microsoft Azure Azure
Zendesk Zendesk
Cegedim Cegedim
Comment fonctionne la fusion

À partir d'un listing de doublons identifiés en amont, le traitement propage automatiquement la fusion dans l'ensemble des systèmes connectés.

Pipeline automatisé

Du listing de doublons à la base unifiée

Le traitement reçoit en entrée un listing de personnes identifiées comme doublons par les équipes métier. Il se connecte ensuite à l'ensemble des systèmes de la mutuelle pour propager la fusion : mise à jour des références, consolidation des historiques et suppression des fiches redondantes.

  • Ingestion du listing — lecture du fichier de doublons identifiés en amont, validation du format et des identifiants
  • Connexion multi-sources — accès simultané à la GED, Cegedim, Zendesk, Azure SQL et toutes les bases de la mutuelle
  • Fusion cross-systèmes — pour chaque doublon, propagation de la fusion dans tous les systèmes : consolidation des données, mise à jour des références croisées
  • Traçabilité et rapports — journal détaillé de chaque fusion réalisée, rapport de synthèse pour audit et conformité
1
Réception du listing

Ingestion du fichier de doublons identifiés en amont

Entrée
2
Connexion aux systèmes

Accès simultané aux 5 sources de données

Auto
3
Résolution des références

Identification des fiches liées dans chaque système

ETL
4
Fusion cross-systèmes

Consolidation des données, suppression des fiches redondantes

Auto
5
Rapport et traçabilité

Journal de chaque fusion, rapport de synthèse

Audit
Retour sur investissement concret

Comparaison avant/après sur la qualité des données d'une mutuelle nationale.

Ce qui change avec le dédoublonnage automatisé

Indicateur
Avant
Avec BiDev
Doublons dans la base
Milliers de doublons non détectés
-85% des doublons éliminés
Réconciliation manuelle
2-3 jours / mois par équipe
Automatique et continu
Vue client unique
Inexistante
Base unifiée cross-sources
Risque RGPD
Élevé (données dupliquées)
Conforme par construction
Détection nouveaux doublons
À posteriori, aléatoire
En temps réel, alerte automatique

Ce que nos clients nous demandent

Comment fonctionne le processus de dédoublonnage ?

L'identification des doublons est réalisée en amont par les équipes métier ou les outils internes de la mutuelle. Notre traitement reçoit en entrée ce listing de personnes en doublon, puis se connecte à l'ensemble des systèmes (GED, Cegedim, Zendesk, Azure SQL) pour propager automatiquement la fusion dans chaque source de données.

Quelles sources de données pouvez-vous connecter ?

Le script Python se connecte à toute source exposant une API, une base de données SQL, des fichiers (CSV, Excel, XML) ou un protocole standard. Pour cette mutuelle : GED (API REST), Cegedim (base SQL), Zendesk (API REST), Azure SQL Database, et des extractions fichiers de systèmes legacy.

Le traitement est-il conforme RGPD ?

Oui. Le dédoublonnage contribue à la conformité RGPD en réduisant les données personnelles redondantes. Le traitement est réalisé sur l'infrastructure du client (Azure), les données ne quittent jamais le périmètre de la mutuelle. Un registre de traitement est maintenu conformément à l'article 30 du RGPD.

Le traitement peut-il être relancé régulièrement ?

Oui. À chaque nouveau listing de doublons identifiés, le script peut être relancé pour propager les fusions dans tous les systèmes. Le processus est conçu pour être exécuté de manière récurrente au fil de l'identification de nouveaux doublons.

Combien de temps pour mettre en place le système ?

Le projet a été réalisé en 3 mois : 1 mois d'analyse des sources et des règles métier, 1 mois de développement du script de fusion multi-sources, 1 mois de tests, ajustements et mise en production. Le nettoyage initial de la base existante a été réalisé durant la phase de recette.

Un besoin identifié ?

Diagnostic gratuit de 30 minutes — sans engagement, confidentiel.