Cours BIF7002 (Séminaire de Bioinformatique)

 

Hiver 2018



Informations pratiques

Enseignant : Vladimir Makarenkov (Local PK-4815, tel 3870).

Locaux et horaires : mardi de 17h30 à 20h30 au PK-4323 (local de séminaire du LaCIM au pavillon Président Kennedy de l’UQAM).

Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.

Courriel : makarenkov.vladimir(at)uqam.ca



Fonctionnement du cours

Ce cours sera basé sur des conférences données par des chercheurs dans les disciplines touchant à la bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance d'exposés par les étudiants.



Évaluation

L'évaluation comportera trois parties : une note de présence et de participation (20%), un rapport sur une conférence (40%) et un exposé (40%).

La note de présence et de participation sera basée sur l'assiduité au cours et sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour 20% de la note finale.

Après chaque conférence, une équipe d'étudiants désignée sera chargée de préparer un rapport d'une dizaine de pages, à remettre au plus tard trois semaines après la conférence. Ce rapport, qui devra aussi être remis sous la forme d'une page Web, sera évalué à la base des critères suivants : la qualité de la rédaction, la maîtrise des aspects scientifiques du problème, l'apport original (approfondissement des questions soulevées lors des conférences notamment, présentation et critiques de résultats expérimentaux, etc...). Il comptera pour 40% de la note finale.

Lors de la dernière séance de la session, chaque équipe d'étudiants effectuera une présentation orale, d'une vingtaine de minutes, de son rapport, qui comptera pour 40% de la note finale. Les principaux aspects pris en compte dans la notation seront la qualité pédagogique et scientifique de l'exposé.

Vous prouves consulter des exemples des rapports sur la page web suivante :

http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.

 

Calendrier

Mardi 9 janvier

Présentation du cours BIF7002, sélection des conférences.

 

Mardi 16 janvier

Vladimir Makarenkov (Professeur, Département d'informatique, UQAM)

Titre : Le criblage à haut débit : détection et élimination efficaces du biais systématique

Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technologie moderne de recherche de nouveaux médicaments. La procédure de criblage doit être largement automatisée pour pouvoir être applicable (plus de 100 000 composés chimiques sont souvent analysés par jour). La qualité des mesures est primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à des erreurs de manipulation, à des capteurs défectueux, au vieillissement des composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le biais systématique pour diminuer son impact sur les mesures expérimentales. Nous avons crée le logiciel HTS Corrector qui implémente ces méthodes et présente les résultats de manière chiffrée et graphique pour mieux visualiser les effets de biais systématiques. Divers essais des méthodes proposées ont été réalisés sur des données réelles et simulées en vue de prouver leur efficacité.

Présentation de V. Makarenkov

Article de Malo et al. 2006 (Nature Biotechnology)

Article de Caraus et. 2015 (Briefings in Bioinformatics)

Le logiciel HTS Corrector (Makarenkov et al. 2006, Bioinformatics)

Rapport de Ludovic Malet et Gratien Adoumandjali

 

Mardi 23 janvier - cours annulé à cause des conditions climatiques

 

Mardi 30 janvier - au PK-4610

Robert Nadon (Professeur, Human Genetics, McGill University)

Titre : Reproducibility Crisis in the Life Sciences, Open Science, and Bioinformatics Practice

Résumé : John Tukey once remarked that one of the great things about being a statistician is that you get to play in everyone's backyard. The same could be said of bioinformatics. The current era of high-throughput biotechnologies has led scientists from diverse quantitative fields to the backyards of the life sciences. I will share my experiences in this multidisciplinary work. I will discuss collaborating with life science colleagues, peer review, publishing, and the reproducibility crisis in life sciences research. I will try to make the case that bioinformatics must incorporate statistical principles in both algorithm/methods development and data analysis. This requires deeper high-level knowledge of statistics, including design of experiments (DOE), than has traditionally been the case. I will also discuss the Open Science movement and its implications for bioinformatics practice. The talk is especially aimed at graduate students who are contemplating careers in bioinformatics.

 

Mardi 6 février

Alix Boc (PhD, analyste senior chez CODE3, Montréal, Canada)

Titre : Les méthodes efficaces pour la détection de transferts latéraux de gènes complets et partiels

Résumé : Le transfert latéral de gènes (TLG) est un mécanisme évolutif qui permet à des organismes de s'échanger du patrimoine génétique. Premièrement, nous avons développé une méthode permettant de détecter ce phénomène. Cette méthode compare deux phylogénies, une d'espèces et une du gène étudié (pour le même groupe d'espèces) et en déduit un scénario de TLG complet. Lors de cette présentation, je décrirai d'abord le mécanisme du transfert latéral de gènes, puis, je présenterai la première méthode développée. Deuxièmement, je présenterai une méthode plus générale permettant d’identifier les transferts partiels. Cette méthode se base directement sur les séquences et peut s'appliquer à l’analyse des génomes entiers. Je présenterai également les différentes applications de ces méthodes.

Présentation de A. Boc

Rapport de Caroline Grou et Wissam El Khouloud Remita

 

Mardi 13 février

Julien Tremblay (Research Officer, Bioinformatics, National Research Council Canada) - au PK-4610

 

Titre : Systematic processing of microbiome genomics sequencing data

Résumé :

Background:

Over the past several years, the throughput of modern sequencing instruments has dramatically increased. This rapid increase in data production has put massive pressure on existing computing and storage infrastructure. High Performance Computing (HPC) material is expensive and challenging to maintain. Many biotech businesses and governmental departments are willing to incorporate nucleic acid sequencing technology into their R&D pipelines, but can be discouraged and overwhelmed by the high costs of computing infrastructure and data analysis. Processing contemporary microbiome genomics sequencing data is particularly challenging because of the lack of existing references in databases, the inherent complexity (highly diverse nucleic acid combinations) of this type of data and because data analysis has to occur on a high performance computing (HPC) environment. Many established open-source bioinformatics/biostatistics packages can efficiently handle specific tasks, such as sequence alignments, assembly, clustering, sorting, etc. However, linking these packages together as a coherent whole in a generic automated context is challenging, mainly because some of these algorithms require enormous amounts of RAM and because a large number of steps/jobs executed in a specific order are required for appropriate data processing.

Results:

Here we present our efforts in developing HPC-integrated computational pipelines geared toward processing various types of microbiome genomics data: 1) 16S/ITS ribosomal RNA marker gene, 2) shotgun metagenomics, and 3) shotgun metatranscriptomics. Pipelines were developed using a Python wrapper module which generates bash scripts containing lists of PBS jobs including their dependency network and computational requirements. These jobs can then be submitted to a job scheduler and executed accordingly. Not only did we put emphasis on reliability and robustness in raw sequencing data processing, but also on generating finely tuned statistical analyses based on metadata and experimental design files provided as inputs. Published pipelines for environmental genomics data processing often skip resource intensive tasks such as sequence assembly and clustering which results in poor resolution for biological interpretation. As HPC access is getting increasingly accessible, resource intensive tasks were implemented as needed.

Conclusions:

Our computational pipelines provide an efficient generic bioinformatics infrastructure for processing high throughput DNA/RNA environmental genomics sequencing data. We routinely run these pipelines with a per project average of 20 GBytes of raw data for the rRNA marker gene pipeline and 0.2 to 1 TBytes of raw data for shotgun metagenomics/metatranscriptomics pipelines. A key feature of our pipelines is the ability to process raw data into a selected few KByte/MByte-scale key spreadsheets, tables and plots, intelligibly summarizing end results for biological interpretation.

Présentation de Julien Tremblay

Rapport de Mohamed Said Abada, Laurent Fontaine et Henry Xing

 

Mardi 20 février

Etienne Lord (PhD, Chercheur post-doctoral, Sciences biologiques, Université de Montréal)

Titre : Application des flux de travaux en bioinformatique

Résumé : L’analyse de grands jeux de données bioinformatiques est fréquemment effectuée à l'aide de langages de programmation, tels que R ou Python, ou directement à partir de la ligne de commande. Galaxy, Taverna et Armadillo sont des systèmes de gestion de flux de travaux (ou workflows) couramment utilisés en bioinformatique. Ces systèmes présentent des interfaces utilisateur permettant de créer des patrons de tâches qui peuvent être répétées, permettant ainsi la transmission et la reproduction de simulations in silico. Récemment, Galaxy est devenu le système de gestion de workflows le plus populaire, principalement du à ses extensions et sa facilité d’utilisation, bien que le système de gestion Armadillo, développé à l’UQAM, présente plus d’outils phylogénétiques. Premièrement, une vue d’ensemble des systèmes de workflows en bioinformatique sera présentée. Deuxièmement, une stratégie de regroupement et de comparaison de flux de travaux à l’aide des algorithmes des k-moyennes et k-médoïdes sera introduite. Finalement, les défis futurs des systèmes de gestion de flux de travaux seront abordés.

Présentation d'Etienne Lord

 

Lien vers le logiciel Armadillo

 

Article sur Armadillo

 

Rapport de Jocelyn Bédard et Farzaneh Rahmdani

 

Mardi 27 février

La semaine de relâche !

 

Mardi 6 mars

Valérie Hay (Senior data analyst at Caprion Biosciences, Montreal, Canada)

Titre : L’analyse des lncRNA de la cohorte de patients Québécois CARTaGENE

Résumé : Les ARN longs non-codants (long non-coding RNA ou lncRNA) sont des ARN nouvellement identifiés, qui sont étudiés de plus en plus profondément dans différentes sphères de la biologie, de même qu'en cardiologie et cancérologie [1]. Une revue de la littérature sur ces ARN sera présentée afin de comprendre l’origine, les caractéristiques et les différentes fonctions des lncRNA. Certaines bases de données et algorithmes traitant des lncRNA feront partie de cette revue. De plus, la cohorte de patients Québécois, CARTaGENE [2], sera présentée. L’outil WGCNA (Weighted Gene Co-Expression Network Analysis), faisant partie d'un package R, sera également exposé. Finalement, des résultats obtenus pour les lncRNA des échantillons de la cohorte CARTaGENE seront présentés.

Références

1. Mercer, T.R., M.E. Dinger, and J.S. Mattick, Long non-coding RNAs: insights into functions. Nat Rev Genet, 2009. 10(3): p. 155-9.

2. CARTaGENE [cited 2018 Janvier]; Available from: https://www.cartagene.qc.ca/fr.

 

Présentation de Valérie Hay

 

Mardi 13 mars

Matthieu Willems (PhD, Département d'informatique, UQAM)

Titre : Nouveaux algorithmes pour l'inférence de réseaux phylogénétiques

Résumé : La théorie de l'évolution de Darwin, puis la découverte de l'ADN (acide désoxyribonucléique) dans les années 1950 ont donné naissance à la phylogénie moléculaire, dont le but principal est de construire des arbres d'espèces à partir de données moléculaires (essentiellement de l'ADN ou des protéines). De nombreux algorithmes ont été développés dans ce contexte. Les méthodes de distances sont les plus rapides, tandis que les méthodes basées sur les caractères donnent généralement de meilleurs résultats mais nécessitent des temps de calcul beaucoup plus importants.

Par ailleurs, plusieurs phénomènes évolutifs fondamentaux, comme l'hybridation, ne peuvent pas être représentés par un arbre phylogénétique. Il faut alors considérer des réseaux phylogénétiques. Plusieurs méthodes d'inférence de tels réseaux ont été introduites depuis une vingtaine d'années. La plupart d'entre elles produisent des réseaux implicites, qui peuvent s'avérer très difficiles à interpréter.

Je présenterai deux nouveaux algorithmes pour inférer un réseau d'hybridation explicite. Le premier prend en entrée une matrice de distances entre un certain nombre d'espèces, tandis que le second prend en entrée une séquence binaire (correspondant, par exemple, à la présence ou l'absence de certains gènes) pour chaque espèce considérée. Des simulations et des tests sur des données réelles ont permis de mettre en lumière l'efficacité de mes deux nouveaux algorithmes. La seconde méthode donne de meilleurs résultats même si les temps de calculs sont généralement plus longs.

J’ai appliqué ma méthode de distances dans le cadre de la biolinguistique. L'évolution des langues peut en effet être représentée sous la forme d'un arbre ou d'un réseau, et plusieurs études ont démontré la pertinence d'appliquer des méthodes d'inférence phylogénétique à des données linguistiques. J’ai ainsi reconstruit un réseau d'hybridation explicite représentant l'histoire de 84 langues indo-européennes, et j’ai comparé ce réseau à ceux obtenus à partir d'autres méthodes.

Article de Willems al. 2016 (BMC Evolutionary Biology)

Présentation de Matthieu Willems

 

Mardi 20 mars

Nadia Tahiri (Département d'informatique, UQAM)

Titre : Algorithmes bioinformatiques pour la reconstruction d'arbres consensus et de super-arbres multiples

Résumé : Les arbres phylogénétiques contiennent des informations importantes caractérisant l'évolution spécifique des familles de gènes étudiées. Cependant, un arbre consensus d'espèces fiable ne peut pas être inféré à partir d'un alignement de séquences multiples d'une famille de gènes unique ou de la concaténation des alignements correspondant à des familles de gènes ayant des histoires évolutives différentes. Ces histoires évolutives peuvent différer, par exemple, à cause des transferts horizontaux subis par certains gènes ou à cause de l'ancienne duplication génique qui provoque l'émergence de paralogues dans un génome. De nombreuses méthodes ont été proposées pour déduire un arbre consensus unique pour un ensemble d'arbres phylogénétiques donné. L'application de ces méthodes classiques peut donc conduire à la perte d’information sur les histoires évolutives spécifiques qui caractérisent certaines familles de gènes ou certains groupes de familles de gènes. Ainsi, la problématique d'inférence des arbres consensus multiples devient pertinente.

Nous proposons un nouvel algorithme permettant d’affiner l’inférence d’arbres consensus et de super-arbres obtenus par regroupement d’arbres phylogénétiques. L’avantage de notre algorithme par rapport à l’approche classique est que notre algorithme propose comme solution un ou plusieurs arbres, dépendamment des topologies d’arbres fournies en entrée. Nous utiliserons l’algorithme des k-moyennes pour obtenir le partitionnement optimal de l’ensemble d'arbres considérés. Dans un premier temps, nous validerons notre algorithme sur de nombreux jeux de données simulées. Enfin, nous appliquerons l'algorithme proposé pour analyser des jeux de données réelles (biologiques et linguistiques).

Présentation de Nadia Tahiri

 

Mardi 27 mars - au PK-4605 (laboratoire de bioinformatique) de 13:30 à 17:00

Atelier: Programmation en R intermédiaire - organisé avec Calcul Québec

Description

Cet atelier sera donné en français par Daniel Stubbs et Pier-Luc St-Onge, analystes en calcul scientifique avec Calcul Québec (Université de Montréal et McGill, respectivement).

Résumé

Cette formation traite des aspects plus avancés de la programmation en R comme l'interaction avec l'environnement Linux, les éléments « fonctionnels » de la programmation R, la vectorisation, la parallélisation, le débogage et optimisation et la création de diagrammes.

Prérequis

Connaissances de base en R.

Plan de cours

• Création des diagrammes

• Interaction avec l'environnement Linux

• Programmation fonctionnelle

• Parallélisation et vectorisation

• Débogage, profilage et optimisation

• Autres sujets

 

Mardi 3 avril

Golrokh Kiani (Département des sciences biologiques, UQAM)

Titre : In silico approach to identify evolutionary breakpoints and their associations with cancer rearrangements in human genome

Résumé : Several genomic regions have been associated to synteny breaks during genome evolution (evolutionary breakpoints or EBRs). Cancer breakpoints (CBRs) data overlap with EBRs. Hence, there is a need for a systematic method to predict CBRs affinities for EBRs. In this study, given the human 44-way alignment of ENCODE project and the corresponding species tree, we developed an original LCA predictor for EBRs and a statistical framework to predict enriched genomic region for CBRs. We identified syntenic regions along human genome. One-third of these regions are concentrated on chromosomes 1, 2, 3 and 4. We predicted 261,391 human lineage-specific EBRs with different ancestral origins, covering more than 50% of the human genome. Then, we collected 73,252 CBRs from previously published studies. With a statistical framework, we assessed the affinity of CBRs for EBRs. To this end, we designed a generative model for CBRs within the human genome, and performed 1000 simulations with an empiric CBR size distribution model. These EBRs are associated with genes such as DPYD, RYR1 and PCDH15. Further analyses will be performed to classify the different types of EBRs and CBRs associations and their functional annotations.

 

Mardi 17-25 avril

Les exposés des étudiants