Étude de cas

DédupData

Q: Quelles sources de données pouvez-vous connecter ?

Le moteur Python se connecte à toute source exposant une API, une base de données SQL, des fichiers CSV/Excel/XML ou un protocole standard. Pour cette mutuelle : GED, Cegedim, Zendesk, Azure SQL Database.

Script Python automatisé de dédoublonnage de personnes, connectant l'ensemble des sources de données d'une mutuelle nationale.

Assurance / Mutuelle Qualité données Python 3 mois Référence anonymisée

Le client

Mutuelle nationale

Mutuelle de santé d'envergure nationale, comptant plusieurs centaines de milliers d'adhérents et gérant des flux de données provenant de multiples systèmes : GED, logiciel de gestion Cegedim, plateforme support Zendesk, bases de données Azure. Au fil des années, des milliers de doublons de personnes s'étaient accumulés dans le système d'information, créés par erreur humaine par les équipes de gestion.

Sources de données

100K+

Enregistrements traités

Python

Script de fusion

Azure

Infrastructure cloud

Constats terrain

Des milliers de doublons à une base de données unifiée

Les équipes de gestion créaient involontairement des doublons de personnes dans le SI. Ces doublons s'accumulaient depuis des années, dispersés dans de multiples systèmes sans possibilité de fusion automatisée.

Ce que l'on observait

Doublons créés par erreur humaine

Les gestionnaires créaient de nouvelles fiches au lieu de retrouver les existantes. Variantes de noms, fautes de frappe, formats d'adresse différents.

Données silotées

GED, Cegedim, Zendesk, base Azure : chaque système avait sa propre copie des personnes, sans synchronisation ni réconciliation.

Pas de vue unique personne

Impossible de reconstituer l'historique complet d'un adhérent. Les informations étaient fragmentées entre plusieurs fiches.

Risque RGPD

Les doublons multipliaient les données personnelles stockées sans raison légitime, augmentant l'exposition au risque de non-conformité RGPD.

Notre réponse

Un traitement automatisé de fusion cross-systèmes

Listing de doublons en entrée

Le traitement reçoit en entrée un listing de personnes identifiées comme doublons. L'identification est réalisée en amont par les équipes métier ou les outils internes de la mutuelle.

Connexion multi-sources

Script Python connecté simultanément à la GED, Cegedim, Zendesk, Azure SQL Database et toutes les bases de données de la mutuelle.

Fusion automatisée cross-systèmes

Pour chaque doublon identifié, le script propage automatiquement la fusion dans l'ensemble des systèmes connectés : mise à jour des références, consolidation des historiques, suppression des fiches redondantes.

Traçabilité complète

Chaque opération de fusion est journalisée avec un rapport détaillé : fiches source, fiche cible, systèmes impactés, données consolidées. Un historique complet pour audit et conformité.

-85%

doublons éliminés

3 mois

du cadrage à la production

sources connectées

100%

automatisé

Architecture

De 5 sources de données à une base unifiée

À partir d'un listing de doublons identifiés en amont, le script Python se connecte à l'ensemble des systèmes et propage la fusion pour produire une base propre et réconciliée.

GEDDocuments

CegedimGestion santé

ZendeskSupport client

Azure SQLBase de données

AutresSources internes

▼ ▼ ▼ ▼ ▼

Moteur de Fusion — PythonListing doublons en entrée · Connexion multi-sources · Fusion automatisée · Traçabilité

▼ ▼ ▼

Base unifiéeVue unique personne

Rapports de fusionFiches fusionnées · Historique

Journaux d'auditTraçabilité complète

Python

Azure

Zendesk

Cegedim

Processus

Comment fonctionne la fusion

À partir d'un listing de doublons identifiés en amont, le traitement propage automatiquement la fusion dans l'ensemble des systèmes connectés.

Pipeline automatisé

Du listing de doublons à la base unifiée

Le traitement reçoit en entrée un listing de personnes identifiées comme doublons par les équipes métier. Il se connecte ensuite à l'ensemble des systèmes de la mutuelle pour propager la fusion : mise à jour des références, consolidation des historiques et suppression des fiches redondantes.

Ingestion du listing — lecture du fichier de doublons identifiés en amont, validation du format et des identifiants
Connexion multi-sources — accès simultané à la GED, Cegedim, Zendesk, Azure SQL et toutes les bases de la mutuelle
Fusion cross-systèmes — pour chaque doublon, propagation de la fusion dans tous les systèmes : consolidation des données, mise à jour des références croisées
Traçabilité et rapports — journal détaillé de chaque fusion réalisée, rapport de synthèse pour audit et conformité

Réception du listing

Ingestion du fichier de doublons identifiés en amont

Entrée

Connexion aux systèmes

Accès simultané aux 5 sources de données

Auto

Résolution des références

Identification des fiches liées dans chaque système

ETL

Fusion cross-systèmes

Consolidation des données, suppression des fiches redondantes

Auto

Rapport et traçabilité

Journal de chaque fusion, rapport de synthèse

Audit

Impact mesurable

Retour sur investissement concret

Comparaison avant/après sur la qualité des données d'une mutuelle nationale.

Ce qui change avec le dédoublonnage automatisé

Indicateur

Avant

Avec BiDev

Doublons dans la base

Milliers de doublons non détectés

-85% des doublons éliminés

Réconciliation manuelle

2-3 jours / mois par équipe

Automatique et continu

Vue client unique

Inexistante

Base unifiée cross-sources

Risque RGPD

Élevé (données dupliquées)

Conforme par construction

Détection nouveaux doublons

À posteriori, aléatoire

En temps réel, alerte automatique

Questions fréquentes

Ce que nos clients nous demandent

Comment fonctionne le processus de dédoublonnage ?

L'identification des doublons est réalisée en amont par les équipes métier ou les outils internes de la mutuelle. Notre traitement reçoit en entrée ce listing de personnes en doublon, puis se connecte à l'ensemble des systèmes (GED, Cegedim, Zendesk, Azure SQL) pour propager automatiquement la fusion dans chaque source de données.

Quelles sources de données pouvez-vous connecter ?

Le script Python se connecte à toute source exposant une API, une base de données SQL, des fichiers (CSV, Excel, XML) ou un protocole standard. Pour cette mutuelle : GED (API REST), Cegedim (base SQL), Zendesk (API REST), Azure SQL Database, et des extractions fichiers de systèmes legacy.

Le traitement est-il conforme RGPD ?

Oui. Le dédoublonnage contribue à la conformité RGPD en réduisant les données personnelles redondantes. Le traitement est réalisé sur l'infrastructure du client (Azure), les données ne quittent jamais le périmètre de la mutuelle. Un registre de traitement est maintenu conformément à l'article 30 du RGPD.

Le traitement peut-il être relancé régulièrement ?

Oui. À chaque nouveau listing de doublons identifiés, le script peut être relancé pour propager les fusions dans tous les systèmes. Le processus est conçu pour être exécuté de manière récurrente au fil de l'identification de nouveaux doublons.

Combien de temps pour mettre en place le système ?

Le projet a été réalisé en 3 mois : 1 mois d'analyse des sources et des règles métier, 1 mois de développement du script de fusion multi-sources, 1 mois de tests, ajustements et mise en production. Le nettoyage initial de la base existante a été réalisé durant la phase de recette.

Un besoin identifié ?

Diagnostic gratuit de 30 minutes — sans engagement, confidentiel.

Demander un diagnostic → Voir toutes les références