Nous démontrons ici comment R peut être utilisé pour rendre les données infranationales de Covid-19 plus utilisables pour certains pays africains.
Article de blog en collaboration avec Laura Jonnard, fondatrice de HERA et Andy South, Afrimapr. Nous démontrons ici comment R peut être utilisé pour rendre plus utilisables les données infranationales de Covid-19 pour des pays africains sélectionnés. Dans le cadre du projet afrimapr, nous avons créé un package R africovid et une visionneuse de démonstration africovid qui contient actuellement 65 000 lignes de données. Chaque ligne représente les cas de Covid-19, les décès et les guérisons dans une région sous-nationale pour un jour, ventilés par sexe lorsque cela est possible. Il s'agit d'un travail en cours, que nous partageons ici au cas où il serait utile à d'autres et qu'ils souhaiteraient contribuer à l'améliorer.
Des efforts internationaux bien connus ont permis de rassembler des données Covid-19 au niveau national. Cependant, les données Covid-19 pour les pays africains à une résolution géographique plus fine, sous-nationale, ne sont pas très répandues. Certaines données sont publiées par les ministères de la santé sur des sites web ou des flux de médias sociaux dans différents formats, mais elles ne sont généralement pas faciles à traiter.
C'est ce qui a incité l'ONG française Humanitarian Emergency Response Africa (HERA) à lancer un projet de données Covid-19 en mars 2020. HERA a rassemblé manuellement les données disponibles auprès de sources gouvernementales grâce à une équipe de bénévoles. Ces données ont été mises à disposition sur le Humanitarian Data Exchange, HDX, la plateforme de données humanitaires de l'UNOCHA (Bureau des Nations Unies pour la coordination des affaires humanitaires). L'analyse de données désagrégées sur Covid-19 peut conduire à une réponse plus proactive à la pandémie au niveau local pour les autorités nationales, les acteurs de la santé publique et les organisations internationales et locales. HERA est convaincu que les acteurs locaux doivent disposer d'informations fiables pour répondre de manière plus efficace et plus appropriée à la crise.
Chez afrimapr, nous sommes d'accord. Nous avons vu ces données et avons saisi l'opportunité de les rendre plus utilisables, en particulier pour les utilisateurs de R. Les ensembles de données peuvent être téléchargés sous forme de fichiers CSV par pays et sont régulièrement mis à jour. Nous avons réalisé que nous pouvions lire ces données dans R et les rendre disponibles dans un package afin que d'autres n'aient pas à passer par les étapes de l'importation et du nettoyage des données et de la jonction avec d'autres sources de données utiles. Cela s'inscrit dans la stratégie d'afrimapr qui consiste à créer des "blocs de construction" que d'autres peuvent utiliser pour élaborer leurs propres solutions. Cela peut permettre à d'autres de consacrer plus de temps à la mise en œuvre effective des données.
Les données infranationales peuvent être téléchargées manuellement à partir de la page Humanitarian Data Exchange de HERA ou du site web de HERA. L'accès automatisé, c'est-à-dire directement à partir d'un script de code, peut être beaucoup plus efficace étant donné qu'il y a un certain nombre de pays et que les données sont mises à jour régulièrement. Heureusement, le package R rhdx développé par notre collaborateur Ahmadou Dicko permet de télécharger directement les données HDX à partir de R.
Nous avons créé le package R africovid qui fournit
l'accès aux versions collationnées et nettoyées des données infranationales de Covid-19,
des fonctions pour commencer à visualiser les données, y compris une application brillante
une fonction pour nous aider à mettre à jour les données
Quelques détails techniques sur le fonctionnement du package. Africovid dispose d'une fonction update_data() qui utilise rhdx pour rechercher dans HDX en ligne les ensembles de données contenant les termes "hera subnational". Nous procédons ensuite à une vérification manuelle des ensembles de données à inclure. La recherche simple renvoie également des ensembles de données pour Ebola et les niveaux nationaux que HERA a également collectés et dont nous n'avons pas besoin à ce stade. La fonction update_data() parcourt en boucle tous les ensembles de données souhaités, les lit et les rassemble en un seul cadre de données après avoir corrigé quelques incohérences et formaté les dates et les valeurs numériques. HERA met également à disposition des données au niveau de la ville qui pourraient être incorporées ultérieurement.
Pour pouvoir visualiser les données de chaque pays, nous avons choisi une carte thermique, et non une carte spatiale au sens conventionnel, qui permet une vue claire de tous les jours et de toutes les régions à la fois.
Nos cartes thermiques ont été inspirées par l'excellent travail de Colin Angus sur la visualisation des données Covid-19 du Royaume-Uni (quand je dis inspiré, je veux dire que j'ai commencé par copier des parties de son code ggplot, merci Colin !) Ces graphiques ont également l'avantage de ne pas nécessiter de jointure avec d'autres ensembles de données, ils fonctionnent donc avec n'importe quel nom de région.
Nous voulions également être en mesure de visualiser des modèles spatiaux sur une carte plus conventionnelle. Pour cela, nous avons développé une fonction (afcov_map()) pour créer des cartes choroplèthes. Cela implique la difficulté supplémentaire de s'assurer que les noms de région des données Covid-19 correspondent à une source de limites spatiales. Pour les limites administratives spatiales, nous nous appuyons sur notre propre paquetage afriadmin qui, à son tour, s'appuie sur rgeoboundaries pour l'accès automatisé aux limites de l'excellent site geoboundaries.org. Le processus d'association des données aux limites administratives est traité dans les didacticiels interactifs en ligne d'afrimapr.
Les fonctions " heatmap" et "map" acceptent toutes deux des arguments facultatifs pour les dates et les intervalles de temps à additionner, afin que les utilisateurs puissent explorer les données en toute flexibilité. Par exemple, le code suivant peut être utilisé pour créer le graphique hebdomadaire ci-dessous.
Nous incluons également africovidviewer (une brillante application web interactive) dans le paquet africovid, permettant aux utilisateurs de sélectionner un pays et de voir quelles données sont disponibles.
L'excellent package R covidregionaldata rassemble des données similaires pour le monde entier, mais ne contient pas encore ces pays africains, il est donc possible de les y ajouter.
Si vous remarquez quelque chose de particulier qui vous rendrait ces données plus utiles, n'hésitez pas à nous contacter à afrimapr ou HERA. Ensemble, nous pouvons rendre ces données plus utilisables pour aider à informer la réponse locale de Covid-19.
Comments