Aller au contenu

Extraction des données

Note: Le contenu de cette section s’appuie sur les documents de présentation existants du FASTR et est susceptible d’être révisé.

Cette section décrit la raison d’être, les exigences et les pratiques recommandées pour l’extraction des données sur la prestation des services de routine du DHIS2 en vue de leur utilisation dans le pipeline analytique de la FASTR.

Ajustement de la qualité des données

L’approche FASTR donne la priorité à l’ajustement systématique de la qualité des données afin de permettre une utilisation plus rigoureuse des données de routine du DHIS2 et de générer des estimations analytiquement robustes et pertinentes pour les politiques. La méthodologie comprend des procédures standardisées pour :

  • Identifier et corriger les valeurs aberrantes
  • Ajuster les rapports incomplets
  • Appliquer des mesures de qualité des données cohérentes entre les indicateurs et les établissements

Ces procédures nécessitent un traitement des données et des opérations statistiques qui ne peuvent être mis en œuvre dans l’environnement analytique natif de DHIS2.

Complexité de l’analyse

FASTR applique des méthodes analytiques - notamment des techniques de régression - qui vont au-delà de l’analyse descriptive des tendances disponible dans DHIS2. Alors que DHIS2 permet de visualiser les tendances brutes de la prestation de services, FASTR offre des capacités analytiques supplémentaires, notamment :

  • L’identification d’augmentations ou de diminutions statistiquement significatives des volumes de services
  • L’ajustement des limites de la qualité des données
  • La prise en compte explicite des variations saisonnières attendues
  • La comparaison de la prestation de services sur des périodes clés, par exemple avant et après des réformes politiques, des chocs ou des perturbations

Le choix entre l’utilisation exclusive des données analytiques du DHIS2 et l’application de l’approche FASTR doit être guidé par l’objectif analytique visé. L’approche FASTR est conçue pour les analyses qui nécessitent une plus grande rigueur statistique, une comparabilité dans le temps et une cohérence entre les différents niveaux géographiques.

!!! warning “Extraire des volumes, pas des pourcentages”

Le pipeline FASTR exige des **volumes bruts de services** — le nombre réel d'événements déclarés par chaque établissement chaque mois (par exemple, *« 152 enfants ont reçu Penta1 dans cet établissement en mars 2024 »*). Il **n'accepte pas** de pourcentages, de proportions, de taux ou de chiffres de couverture pré-calculés.
**Pourquoi cela compte :**
- **La détection des valeurs aberrantes repose sur l'ampleur.** Un établissement déclarant 850 visites CPN1 alors que sa fourchette habituelle est de 100 à 200 est manifestement aberrant. Le même établissement déclarant *« 92 % de couverture »* ne nous apprend rien — le pourcentage est plafonné à 100, masque le volume sous-jacent et efface le signal qui sert à détecter les erreurs de déclaration.
- **On peut additionner des volumes entre établissements ; pas des pourcentages.** Pour obtenir un total régional ou national, la plateforme additionne les volumes des établissements. Faire une moyenne des pourcentages entre établissements de tailles différentes donne le mauvais résultat (un hôpital de 100 lits et un poste de santé de 5 lits pèseraient à parts égales).
- **La plateforme construit elle-même le dénominateur.** Le module 5 dérive la population cible (femmes enceintes, nourrissons, etc.) à partir des données SIGS, des enquêtes et des projections de l'ONU. Le module 6 calcule ensuite la couverture comme `volume ÷ dénominateur`. Si vous fournissez directement un % de couverture, il n'y a plus de volume à diviser ni de comparaison à faire.
- **L'ajustement impute des volumes.** Les modules 1 et 2 détectent les valeurs aberrantes au moyen de seuils statistiques sur les valeurs brutes et comblent les mois manquants par moyennes mobiles des volumes passés. Ces deux méthodes sont statistiquement dénuées de sens sur des pourcentages.
**Que faut-il extraire :** uniquement le numérateur — nombre de services rendus, doses administrées, visites enregistrées, décès déclarés, etc. La plateforme se charge de l'agrégation, de l'ajustement et du calcul de la couverture.
**Pièges courants à éviter :**
- Les *« data elements »* DHIS2 qui stockent directement la couverture en % (par exemple `Taux de couverture CPN1`) — extraire plutôt le volume sous-jacent (par exemple `Visites CPN1 — premier contact`).
- Les indicateurs pré-agrégés par mois ou par trimestre au niveau du district — extraire plutôt des lignes établissement-mois.
- Les indicateurs calculés comme *« % d'enfants complètement vaccinés »* — fournir séparément les composants sous-jacents (BCG, Penta1, Rougeole 1, etc.).

Les données doivent être extraites pour chaque indicateur d’intérêt, au niveau de l’établissement, et à un pas de temps mensuel pour la période d’analyse.

  • Les données doivent être stockées au format long, avec une ligne par observation
  • Les données doivent être enregistrées au format .csv
  • Les données peuvent être stockées dans un seul fichier ou réparties dans plusieurs fichiers, qui peuvent être combinés lors du téléchargement vers la plateforme d’analyse

Pourquoi des données mensuelles au niveau de l’établissement ?

L’utilisation des données les plus granulaires disponibles permet une évaluation plus précise des modèles de déclaration et des problèmes de qualité des données. Les données mensuelles au niveau de l’établissement permettent un ajustement solide de l’exhaustivité de la déclaration, l’identification des anomalies spécifiques à l’établissement et l’estimation des tendances dans le temps tout en tenant compte des variations saisonnières. Ce niveau de granularité permet une mise en œuvre complète de la méthodologie FASTR.

L’ensemble de données extraites doit comprendre au minimum les variables suivantes :

ÉlémentDescription
Unités org.Identifiant de l’unité organisationnelle
PériodePériode de l’observation
Nom de l’indicateurNom de l’indicateur
Total / compteValeur agrégée de l’indicateur

Termes de l’unité organisationnelle

TermeDescription
orgunitlevel1Niveau administratif le plus élevé (par exemple, pays)
orgunitlevel2Niveau administratif intermédiaire (par exemple, état ou province)
orgunitlevel3District ou équivalent
orgunitlevel4Sous-district ou établissement de santé
orgunitlevel5Unité ou département au sein d’un établissement
organisationunitidIdentifiant DHIS2 unique pour l’unité organisationnelle
organisationunitnameNom de l’unité organisationnelle
organisationunitcodeCode normalisé de l’unité organisationnelle
organisationunitdescriptionDescription de l’unité organisationnelle

Termes de la période

TermeDescription
periodidIdentifiant unique pour la période de déclaration
periodnameLibellé de la période lisible (par exemple, janvier 2024, T1 2024)
periodcodeCode de période normalisé (par exemple, 202401)
perioddescriptionDescription incluant les dates de début et de fin de la période

Termes de l’élément de données

TermeDescription
dataidIdentifiant unique de l’élément de données
datanameNom de l’élément de données
datacodeCode normalisé de l’élément de données
datadescriptionDescription de l’élément de données

Autres termes

TermeDescription
totalValeur agrégée de l’élément de données par unité organisationnelle et période
date_downloadedDate d’extraction des données, pour audit et contrôle de version

Analyse FASTR initiale

Pour la mise en œuvre initiale, il est généralement recommandé d’extraire environ cinq ans de données historiques. La fenêtre temporelle appropriée doit être déterminée en fonction de :

  • La disponibilité et l’exhaustivité des données
  • La cohérence des définitions des indicateurs dans le temps
  • Les caractéristiques du système national de données de routine

Une série chronologique pluriannuelle améliore la fiabilité de l’estimation des tendances et de la correction des variations saisonnières.

Mise à jour régulière de l’analyse FASTR

Pour les mises à jour de routine (par exemple, mise en œuvre trimestrielle) :

  • Commencez par la base de données FASTR existante et extrayez les données pour les mois les plus récents non encore inclus (généralement une période de trois mois)
  • Extraire à nouveau les trois mois précédents pour tenir compte des déclarations tardives ou des révisions des données récentes
  • Si l’on soupçonne des révisions substantielles des données historiques, envisager d’extraire à nouveau une période historique plus longue

Le contenu de la documentation complète doit être développé.

Cette section couvrira :

  • Les options d’exportation des données DHIS2
  • Les méthodes d’extraction basées sur l’API
  • Les exigences en matière de transformation des données
  • Les contrôles d’assurance qualité des données extraites

w:120

Extrayez-vous régulièrement des données du DHIS2 ?

Si oui, quelles en sont les principales raisons ?

Pourquoi extraire des données du DHIS2 ? Pourquoi ne pas simplement faire l’analyse dans DHIS2 ?

Section intitulée « Pourquoi extraire des données du DHIS2 ? Pourquoi ne pas simplement faire l’analyse dans DHIS2 ? »

Ajustement de la qualité des données

L’approche FASTR se concentre sur les ajustements de la qualité des données afin d’élargir les analyses que les pays peuvent effectuer avec les données DHIS2 et de générer des estimations plus robustes.

Complexité de l’analyse

L’approche FASTR utilise des méthodes statistiques plus avancées, telles que l’analyse de régression, qui ne sont pas disponibles dans DHIS2. Alors que DHIS2 permet de tracer des tendances dans le temps à partir de données brutes, FASTR peut aller plus loin en identifiant les augmentations ou diminutions significatives du volume de services, en ajustant les problèmes de qualité des données, en tenant compte des variations saisonnières attendues et en comparant des périodes clés, par exemple avant et après une réforme.

Le choix entre DHIS2 et l’approche FASTR doit être guidé par l’objectif spécifique de votre analyse. Sélectionnez l’outil qui correspond le mieux à vos besoins analytiques !

FASTR analyse des volumes bruts de services — le nombre réel de services déclarés par chaque établissement chaque mois. Il n’accepte pas de pourcentages, de proportions ou de chiffres de couverture pré-calculés.

À extraireÀ ne pas extraire
Nombre de visites CPN1 par établissement et par moisTaux de couverture CPN1 (%)
Nombre de doses Penta1 administréesProportion de couverture vaccinale
Nombre d’accouchements en établissementIndicateurs de couverture pré-calculés

Pourquoi ?

  • On ne peut pas détecter une valeur aberrante sur un pourcentage — il est plafonné à 100 et masque le volume sous-jacent de l’établissement.
  • On ne peut pas additionner des pourcentages entre établissements de tailles différentes pour obtenir un total régional.
  • La plateforme calcule elle-même la couverture en divisant les volumes par les dénominateurs de population dans les modules 5 et 6.
  • Les ajustements pour valeurs aberrantes et complétude (modules 1 et 2) sont des méthodes statistiques qui exigent des volumes bruts.

h:200 Data format wide

  • Les données doivent être téléchargées pour chaque indicateur d’intérêt, au niveau de l’établissement, et mensuellement pour la période d’intérêt
  • Les données doivent être sauvegardées en format long, ce qui signifie que chaque ligne représente une observation ou une mesure unique (voir l’exemple)
  • Les données doivent être enregistrées au format .csv et peuvent être enregistrées dans un seul fichier .csv ou dans plusieurs fichiers .csv qui seront combinés lors du téléchargement vers la plateforme d’analyse

Analyse FASTR initiale

  • Il est généralement recommandé de télécharger environ cinq ans de données historiques
  • Toutefois, la période exacte doit être déterminée en fonction de la disponibilité des données, de la cohérence des définitions des indicateurs dans le temps et des spécificités du système de données de routine d’un pays
  • Idéalement, l’utilisation d’au moins cinq ans de données historiques permet une évaluation approfondie des tendances dans le temps

Mise à jour régulière de l’analyse FASTR

  • Commencez par la base de données existante et téléchargez les nouvelles données couvrant les mois les plus récents non précédemment inclus - il s’agit généralement d’une période de trois mois lorsque l’analyse FASTR est mise en œuvre sur une base trimestrielle
  • De plus, incluez les trois mois précédant la nouvelle période de données, car ces données relativement récentes sont souvent sujettes à des changements en raison de rapports tardifs ou d’ajustements de la qualité des données
  • Si vous avez des raisons de croire qu’il y a eu des changements substantiels dans les données historiques, vous pouvez toujours choisir de retélécharger une période plus longue

Nous proposons deux outils pour l’extraction en masse des données DHIS2 : un Data Downloader convivial et une fonction d’importation directe au sein de la plateforme analytique FASTR.

Le Data Downloader fournit une interface simplifiée pour télécharger les données DHIS2. Cet outil est particulièrement utile pour explorer les métadonnées DHIS2 et télécharger des indicateurs nécessitant des dimensions désagrégées.

Le Data Downloader est disponible à l’adresse : https://github.com/worldbank/DHIS2-Downloader/releases/

Data Downloader h:380

La plateforme analytique FASTR contient une fonction d’importation directe pour importer automatiquement les données du DHIS2. C’est souvent l’approche la plus simple une fois que les indicateurs ont été identifiés pour inclusion dans la plateforme.

h:200 Direct import feature

h:200 Direct import interface

Le Data Downloader est une application de bureau permettant d’extraire des données du DHIS2.

Caractéristiques principales :

  • Connexion à n’importe quelle instance DHIS2
  • Parcourir et sélectionner les éléments de données et les indicateurs
  • Télécharger les données au niveau de l’établissement au format CSV
  • Conserver l’historique des téléchargements

Télécharger à partir de GitHub :

https://github.com/worldbank/DHIS2-Downloader/releases/

demo h:35 Le facilitateur fera une démonstration du Data Downloader

Écran de connexion Data Downloader h:450

Data Downloader overview h:380

Interface principale

  • Parcourir les éléments de données et les indicateurs disponibles
  • Sélectionner les périodes et les unités d’organisation
  • Configurer les options de téléchargement
  • Démarrer l’extraction des données

Data Downloader : Historique des téléchargements

Section intitulée « Data Downloader : Historique des téléchargements »

Data Downloader history h:380

Suivez vos téléchargements

  • Afficher toutes les sessions de téléchargement précédentes
  • Retélécharger les données avec les mêmes paramètres
  • Accéder aux journaux et à l’état des téléchargements
  • Gérer les fichiers téléchargés

Data Downloader dictionary h:380

Explorer les données disponibles

  • Parcourir tous les éléments de données de votre DHIS2
  • Rechercher par nom ou par code
  • Voir les métadonnées et les définitions
  • Identifier les indicateurs pour votre analyse

Data Downloader facility list h:380

Gestion des établissements

  • Voir la liste complète des établissements
  • Filtrer par niveau administratif
  • Rechercher par nom d’établissement
  • Exporter les données de l’établissement

Data Downloader facility map h:380

Visualisation géographique

  • Télécharger les fichiers de limites GeoJSON
  • Basculer les limites administratives par niveau (Niveau 1 = pays, Niveau 2 = régions, etc.)
  • Les niveaux supérieurs affichent les points d’établissement
  • Utile pour vérifier la structure géographique

Dernière mise à jour : 06-05-2026 Contact : fastr@worldbank.org