UNITÉ TECHNOLOGIQUE : MANAGEMENT ET ANALYSE DES DONNÉES

Performance de l’infrastructure, originalité des approches transversales et innovation des traitements des données de haute dimension au profit de la bioinformatique translationnelle.

Technology innovation UTEC Data management data science

LES ENJEUX

Les énormes quantités de données générées par les analyses haut-débit, NGS, multi-omiques ou l’imagerie ont fait passer depuis longtemps la biologie à l’ère du big data. En retour, elles ont contribué à l’avènement d’une nouvelle discipline : la « science des données » qui doit composer avec la complexité d’organisation des systèmes biologiques.

Les données ainsi produites sont très disparates (séquence d’ADN, profil métabolique, biomarqueurs immunologiques, métadonnées d’essais cliniques…) ce qui impose de redéfinir les processus et les méthodes qui permettent de les stocker, analyser ou visualiser. Reste un véritable défi consistant à réussir l’intégration transversale de l’ensemble de ces données et d’en restituer la synthèse à des équipes interdisciplinaires.

La gestion et l’analyse des données issues de cette nouvelle approche systémique et intégrative nécessitent le déploiement de ressources informatiques puissantes, adaptables et performantes. Ces caractéristiques sont similaires aux besoins en infrastructure de stockage, de calcul et de transfert d’industries tout autres (e.g. « Tech giants ») qui recourent à la flexibilité de la virtualisation, d’architectures de services et d’implémentations dans des Cloud.

OBJECTIFS

L’Unité Technologique «Management et analyse de données » collecte, analyse, croise, sécurise et partage les données issues des différentes unités technologiques de BIOASTER et des projets de collaboration menés avec ses partenaires. Elle permet ainsi aux scientifiques de convertir les données brutes en informations et en connaissances. Elle bénéficie pour cela de la puissance de calcul, des capacités de stockage de masse et des réseaux à haut débit du CC-IN2P3 ( http://cc.in2p3.fr ), partenaire stratégique de BIOASTER.

Pour remplir ses missions et proposer une approche originale dans la chaîne de valeurs du management et analyse de données, l’Unité est structurée en 3 thématiques adossées à des éléments de charpente du système d’information scientifique ( ou « Core Services » ) :

Thématique 1 : Data Management

Besoins Métiers (données & utilisateurs), Ergonomie & Support

Mise à disposition d’un portfolio de solutions, plateformes collaboratives et de référentiels de données scientifiques en support aux projets de BIOASTER et des partenaires, ce sous forme de Services.

Il s’agit de la mise en place de :

  • plateformes de collecte de données omiques, phénotypiques ou cliniques (LIMS, eCRF…), de meta-données (BIOSPECIMENS https://biospecimens.bioaster.org),
  • de solutions d’analyses automatisées et de visualisation (workflow management, type Galaxy) déployées sur notre infrastructure de calcul
  • plateformes d’intégration de données cliniques enrichies de données multi-omiques  (tranSMART eTRIKS).

Thématique 2 : Cloud-based Computing Management

Performance & Disponibilité

Déploiement d’une infrastructure Cloud évolutive et de très haute performance dédiée à la gestion et analyse multi-dimensionnelle de données massives, hétérogènes et potentiellement sensibles.

Pour les aspects d’administration des systèmes et de maintien en conditions opérationnelles, nous nous appuyons sur les ressources et expertises du CC-IN2P3 ainsi que du service informatique de l’IRT (IS/IT).

Thématique 3 : Knowledge Management

Innovation & Transversalité

Constitution d’un Système de Gestion de la Connaissance dédié à l’Analytique translationnelle & Support scientifique aux Projets

Afin d’accompagner l’approche translationnelle ciblée par BIOASTER, l’unité ambitionne d’élaborer un  système de gestion globale de la connaissance réussissant l’intégration et l’analyse croisée de nos données produites in vivoin vitro et in silico, recentrées sur l’Homme (patient), le modèle animal, le pathogène, le microbiote, la maladie ou le traitement. Suivant l’axe de recoupement choisi, ce système doit permettre de répondre aux différents défis que constituent la découverte de nouveaux biomarqueurs, la caractérisation de modes d’action ou de rendre certains modèles plus complets, efficaces (in vitro) ou prédictifs (in vivo).

Il s’agit aussi d’accompagner et de pérenniser les travaux réalisés par la communauté des bioinformaticiens, bio-mathématiciens/-modélisateurs et (bio)statisticiens répartis au sein des Unités Technologiques et œuvrant comme autant de pôles d’expertises et de postes avancés au service des activités les plus précoces et exploratoires des projets.

Core Services

Mutualisation & Echanges – Pérennité & Sécurité

Il s’agit de développer des services centraux ou mutualisés (e.g. identification/authentification, Data Life Cycle Management System, transfert fiable de fichiers massifs…) ainsi que des composants réutilisables permettant l’échange de données (e.g. ETL, Web-services,…) ou d’interfacer et d’inter-opérer nos solutions et plateformes de manière transparente, sécure et ergonomique pour les utilisateurs.

PROPOSITION DE VALEURS

Savoir-faire, Equipements, Technologies

Un partenaire stratégique : Le CC-IN2P3

Pour parfaire le stockage et l’analyse de ces données, l’unité s’appuie sur le Centre de Calcul de l’Institut National de Physique Nucléaire et de Physique des Particules (CC-IN2P3). Ce dernier met ainsi à la disposition des programmes de R&D de BIOASTER la puissance de calcul, les capacités de stockage de masse et les réseaux à haut débit de la physique subatomique et de l’astrophysique.

Pensée dès l’origine pour être évolutive et flexible, cette architecture peut être très rapidement redimensionnée pour s’adapter et s’ajuster aux besoins en ressources émanant des projets présents et futurs de l’Institut.

L’unité compte dans ses rangs un panel rare de compétences et expertises pluridisciplinaires œuvrant tout le long de la chaîne de valeurs qui mène des données brutes aux données raffinées, de la connaissance à de l’information actionnable.

Ainsi, les savoir-faire présents ou futurs des femmes et des hommes représentés dans l’Unité se répartissent suivant plusieurs axes :

  • Bioinformatique–Statistiques– Data Sciences : modélisation, bases de données de référence, outils open-source, principes de curation et annotations…
  • Applicatifs & plateformes : Architecture en Services
  • Ingénierie logicielle : software development, assembling/packaging, modélisation, Web-app (frameworks)…
  • Administration & opérations : gestionnaires de déploiement, d’intégration continue, monitoring, KPI
  • Contextes : OS mixtes, virtualisation, Cloud, HPC…
  • Méthodologies et standards – contraintes réglementaires, légales – référentiels qualité
Schema Utec6

RÉSEAUX & PARTENAIRES

Logo Bcom
Logo Ccin2p3
Logo CNRS
Logo Etriks
Logo Institut Pasteur
Logo Transmart
Logo Vmware

HIGHLIGHTS & ACTUALITÉS

  • 3 postes d’Ingénieurs à pourvoir (cf. rubrique Rejoignez-nous)

A venir