Development of new algorithms to advance on the discovery of microRNAs

Carol Moraga Quinteros

Résumé

MicroRNAs (miRNAs) are small RNA molecules, shorter than 25 base pairs, which have been identified as key regulators of gene expression at the post-transcriptional level. They are involved in a wide range of biological processes including cell cycle, differentiation, apoptosis and disease pathogenesis. It is important to understand how miRNAs interact and regulate the expression at genome level, but first to all it is essential to identify them accurately. Accurate prediction of known and novel miRNAs along with their targets is however essential for increasing our understanding of the miRNA biology. Nowadays, a common experimental practice is to identify miRNAs and their expression patterns using next generation sequencing technologies (NGS). Such sequencing experiments generate million of sRNA-seq reads, thus promoting the development of algorithms to transform such big data into useful biological insights. Currently, many bioinformatics tools have been developed to analyze and identify miRNAs, but most of them rely on conservation information and reference genomes not allowing the identification of novel or the specie-specific miRNAs. When we do not have a high quality reference genome or in a lack of this, our possibilities are considerable reduced. Firstly, I present experimental and bioinformatic analyses of dual miRNA-seq and mRNA-seq data obtained by profiling the interaction of Sus scrofa and its host-pathogen bacteria Mycoplasma hyopneumoniae. The aim of this work was to unravel the gene miRNA regulatory network orchestrating such interaction. My contribution to this project was to perform the computational analyses to first identify, quantify and annotate miRNA genes as well as to build a workflow to create in-silico miRNA-mRNA regulatory networks at genome scale. These results were published in Scientific Reports journal (https://www.nature.com/articles/s41598-020-70040-y). The "on hand" experience with current state-of-the-art tools for miRNA discovery and miRNA target prediction was essential to identify the weakness of current tools and therefore potential algorithmic lines of research, which turned-out to be related to the first step of miRNA analysis, namely the identification of miRNA genes. This led to the development of BrumiR algorithm, which is the main contribution of the current PhD thesis. BrumiR is a new algorithm that can discover miRNA genes without a reference genome. I also developed the tool miRsim, that simulate sRNA-seq data and was key to develop and benchmark BrumiR with synthetic dataset where the ground-truth is controlled. Although, predicting miRNA genes without a reference genome is useful for non-model species, when a reference or draft genome is available it should be integrated into the miRNA discovery. In this regard, I have also developed BrumiR2Reference tool that can integrate a reference genome to further refine the BrumiR miRNA predictions. Additionally, we present a benchmark of the performance the BrumiR} using real public data from plant and animal species. Moreover, we demonstrate the effectiveness of the BrumiR toolkit for discovering novel miRNAs using sRNA-seq data generated from Arabidopsis thaliana roots. These results are described on a manuscript already submitted to a journal, where I am the first author. Additionally, we have deposited our manuscript in the BioRxiv repository (https://doi.org/10.1101/2020.08.07.240689) and all the code of the BrumiR toolkit is freely available in GitHub (https://github.com/camoragaq)

Les miARNs sont de petites molécules d’ARN, plus courtes que 25 nucléotides, qui ont été identifiées comme étant des régulateurs clés de l’expression génétique au niveau post-transcriptionnel. Les miARNs sont impliqués dans un large éventail de processus biologiques, y compris le cycle cellulaire, la différenciation, l’apoptose et la pathogenèse de maladies. Il est très important de comprendre comment les miARNs communiquent et régulent l’expression au niveau du génome, mais tout d’abord, il est nécessaire de les identifier. De nos jours, une pratique expérimentale courante consiste à capturer la séquence et l’expression des miARNs en utilisant les technologies de séquençage de nouvelle génération (NGS). De telles expériences de séquençage génèrent des millions de lectures de sARN-seq, nécessitant ainsi le développement d’algorithmes pour transformer de telles données en grande quantité en connaissances biologiques utiles. Actuellement, de nombreux outils bioinformatiques ont été développés pour analyser et identifier les miARNs mais la plupart d’entre eux s’appuient sur les informations de conservation au niveau de la séquence et sur des génomes de référence qui ne permettent pas l’identification de nouveaux miARNs et qui sont spécifiques d’une espèce. Lorsque nous n’avons pas de génome de référence de haute qualité ou pas de génome du tout, nos possibilités sont ainsi considérablement réduites. D’abord, je présente des analyses expérimentales et bioinformatiques de données doubles sRNA-seq et mRNA-seq obtenues en profilant l’interaction hôte-pathogène de Sus scrofa et de la bactérie Mycoplasma hyopneumoniae. L’objectif de ce travail était de démêler le réseau de régulation des miARNs orchestrant une telle interaction. J'ai performé les analyses computationnelles pour d’abord identifier, quantifier et annoter les miARNs ainsi qu’établir un pipeline permettant l’inférence in silico de réseaux de régulation miARN-ARNm à l’échelle du génome. Ces résultats ont été publiés dans la revue Scientific Reports https://www.nature.com/articles/s41598-020-70040-y). L’expérience que j’ai acquise dans ce travail avec les outils de pointe actuels pour la découverte de miARNs et la prédiction de leurs cibles a été essentielle pour identifier la faiblesse de ces outils et donc des lignes de recherche algorithmiques potentielles, qui se sont avérées être liées à la première étape de l’analyse des miARNs, à savoir leur identification. Cela a conduit à l’élaboration de l’algorithme BrumiR qui est la principale contribution de cette thèse. BrumiR permet de découvrir des miARNs sans génome de référence. J’ai aussi élaboré l’outil miRsim qui permet de simuler des données de sRNA-seq et a été essentiel pour évaluer BrumiR. Bien que la prédiction de miARNs sans génome de référence soit utile pour les espèces non modèles, lorsqu’un génome de référence ou un projet de génome est disponible, il doit être intégré dans la découverte des miARNs. À ce propos, j’ai également développé l’outil BrumiR2Reference qui peut intégrer un génome de référence pour affiner davantage les prédictions de BrumiR. De plus, Je présente également dans cette thèse un benchmark de la performance de BrumiR utilisant des données publiques provenant d’espèces végétales et animales. Par ailleurs, nous montrons l’efficacité de la boîte à outils BrumiR pour découvrir de nouveaux miARNs en utilisant des données de sRNA-seq générées à partir de racines de la plante Arabidopsis thaliana. Ces résultats sont décrits dans un manuscrit déjà soumis à une revue dont je suis le premier auteur. De plus, nous avons déposé notre manuscrit dans le référentiel BioRxiv (https://doi.org/10.1101/2020.08.07.240689) et tout le code de la boîte à outils BrumiR est disponible gratuitement dans GitHub (https://github.com/camoragaq)

Development of new algorithms to advance on the discovery of microRNAs

Développement de nouveaux algorithmes pour avancer dans la découverte des microARNs

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager