L’apprentissage automatique ou machine learning, est une méthode d’intelligence artificielle qui consiste à créer des modèles mathématiques capables d’améliorer leurs performances en « s’entraînant » sur des données, en « apprenant » progressivement et en ajustant le modèle en fonction des réponses. L’approche démontre son potentiel en sciences du vivant, notamment pour l’exploitation des données massives et complexes issues du séquençage des génomes et autres données moléculaires.
La recherche appliquée en apprentissage automatique progresse donc plus rapidement lorsqu’un jeu de données exploitables est disponible et prêt à l’emploi.
De nombreux jeux de données standardisés ont été construits au cours du temps, pour la classification d’images, la reconnaissance vocale, et plus récemment pour la prédiction de structure des protéines. En revanche pour la prédiction in silico de structures d’ARN, les données sont dispersées entre différentes bases de données publiques, selon l’échelle d’intérêt : séquence, structure secondaire, ou structure tridimensionnelle.
Pour accélérer les progrès en apprentissage dans ce domaine, il était nécessaire de construire un jeu de données intégrant toutes sortes d’informations et d’annotations à différentes échelles, pour éviter ce travail aux chercheurs en IA. L’équipe AROB@S (Algorithmique, Recherche Opérationnelle, Bioinformatique et Apprentissage Statistique) du laboratoire IBISC propose le premier jeu de données standardisé de structures d’ARN non codants, construit automatiquement à partir des données publiques. Il combine des séquences d’ARN, des informations d’homologie entre séquences (alignements, fréquences des mutations, appartenance à une famille de molécules), et des informations disponibles sur les structures 3D (contacts entre nucléotides distants, descripteurs géométriques de la chaîne de nucléotides).
Le jeu de données est utilisable dans différentes applications bioinformatiques d’apprentissage et de « data mining », comme l’entraînement de modèles statistiques pour prédire les structures des ARN non codants, les interactions avec d’autres macromolécules, la classification en familles d’ARN, ou la construction de bibliothèque de motifs structuraux.
Le jeu de données est automatiquement mis à jour une fois par mois sous une forme directement exploitable par la communauté scientifique, sur le site de la plateforme EvryRNA** : https://evryrna.ibisc.univ-evry.fr/evryrna/rnanet.
Ces travaux de recherche participent à la construction de la filière de Génomique numérique à Genopole.