Face aux problèmes de l’accroissement continu du volume des données acquises et de la saturation des moyens de calcul traditionnels, la majorité des communautés scientifiques n’ont d’autre choix que de recourir à la distribution des entrepôts de données et des calculs au moyen de technologies de Grille ou de Cloud.
Dans le domaine médical, la centralisation des données, qui simplifie la mise en œuvre et la gestion cohérente des cohortes, a souvent été privilégiée (ADNI, CATI, OFSEP…). Mais cette centralisation pose des problèmes de saturation des ressources hébergeant l’entrepôt (stockage et réseau), de vulnérabilité aux malveillances intentionnelles et aux accidents, ou encore de standardisation des données importées. La distribution des données est nécessaire, au vu des quantités de données exploitées. La distribution des calculs s’ensuit naturellement, au vu des quantités de données à analyser. En outre, l’accessibilité croissante à des sources de données différentes mais complémentaires ouvre de nombreuses perspectives d’analyse.
Ce projet s’inscrit donc dans une vision où les entrepôts de données médicales se trouveront de plus en plus systématiquement distribués, et où la capacité à fédérer ces entrepôts pour constituer, enrichir et traiter l’information prendra une importance croissante au cours des décennies à venir. La fédération de données dans ce sens recouvre :
Le plan de travail de cette action intègre donc les moyens d’aligner des entrepôts de données hétérogènes (médiation) de les unifier (fédération), notamment à travers des outils d’interrogation (requêtes distribuées), et de les analyser (flots de données) sur des infrastructures de calcul distribuées (Grilles, Clouds).