Federating distributed and heterogeneous biomedical data and knowledge

Face aux problèmes de l’accroissement continu du volume des données acquises et de la saturation des moyens de calcul traditionnels, la majorité des communautés scientifiques n’ont d’autre choix que de recourir à la distribution des entrepôts de données et des calculs au moyen de technologies de Grille ou de Cloud.

Dans le domaine médical, la centralisation des données, qui simplifie la mise en œuvre et la gestion cohérente des cohortes, a souvent été privilégiée (ADNI, CATI, OFSEP…). Mais cette centralisation pose des problèmes de saturation des ressources hébergeant l’entrepôt (stockage et réseau), de vulnérabilité aux malveillances intentionnelles et aux accidents, ou encore de standardisation des données importées. La distribution des données est nécessaire, au vu des quantités de données exploitées. La distribution des calculs s’ensuit naturellement, au vu des quantités de données à analyser. En outre, l’accessibilité croissante à des sources de données différentes mais complémentaires ouvre de nombreuses perspectives d’analyse.

Ce projet s’inscrit donc dans une vision où les entrepôts de données médicales se trouveront de plus en plus systématiquement distribués, et où la capacité à fédérer ces entrepôts pour constituer, enrichir et traiter l’information prendra une importance croissante au cours des décennies à venir. La fédération de données dans ce sens recouvre :

La fusion (virtuelle) d’entrepôts physiquement distribués mais devant apparaître pour leurs exploitants comme une entité unique et cohérente.
L’alignement sémantique de sources de données hétérogènes, qui n’ont souvent pas été conçues conjointement.
La description d’ensembles de données distribuées, définis par l’intermédiaire de requêtes qui peuvent s’appliquer sur l’ensemble de la fédération.
La description duale d’ensembles de données transformées (résultats d’analyse) ou des processus qui permettent leur transformation, par l’intermédiaire de langages pilotés par les données, permettant ainsi la reproductibilité des expériences ou la substitution de données volumineuses par des flots de données équivalents.

Le plan de travail de cette action intègre donc les moyens d’aligner des entrepôts de données hétérogènes (médiation) de les unifier (fédération), notamment à travers des outils d’interrogation (requêtes distribuées), et de les analyser (flots de données) sur des infrastructures de calcul distribuées (Grilles, Clouds).