Cours BIF7002 (Séminaire de Bioinformatique)

 

Hiver 2020



Informations pratiques

Enseignant : Abdoulaye Baniré Diallo et Vladimir Makarenkov.

Locaux et horaires : mardi de 17h30 à 20h30 au PK-4323 ou PK-4610 (4ème étage du pavillon Président Kennedy de l’UQAM).

Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.

Courriel : diallo.abdoulaye(at)uqam.ca et makarenkov.vladimir(at)uqam.ca



Fonctionnement du cours

Ce cours sera basé sur des conférences données par des chercheurs dans les disciplines touchant à la bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance d'exposés par les étudiants.



Évaluation

L'évaluation comportera trois parties : une note de présence et de participation (20%), un rapport sur une conférence (40%) et un exposé (40%).

La note de présence et de participation sera basée sur l'assiduité au cours et sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour 20% de la note finale.

Après chaque conférence, une équipe d'étudiants désignée sera chargée de préparer un rapport d'une dizaine de pages, à remettre au plus tard trois semaines après la conférence. Ce rapport, qui devra aussi être remis sous la forme d'une page Web, sera évalué à la base des critères suivants : la qualité de la rédaction, la maîtrise des aspects scientifiques du problème, l'apport original (approfondissement des questions soulevées lors des conférences notamment, présentation et critiques de résultats expérimentaux, etc). Il comptera pour 40% de la note finale.

Lors de la dernière séance de la session, chaque équipe d'étudiants effectuera une présentation orale, d'une vingtaine de minutes, de son rapport, qui comptera pour 40% de la note finale. Les principaux aspects pris en compte dans la notation seront la qualité pédagogique et scientifique de l'exposé.

Vous prouves consulter des exemples des rapports sur la page web suivante :

http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.

 

Calendrier

Mardi 7 janvier

Présentation du cours BIF7002, sélection des conférences.

 

Mardi 14 janvier

1) Présentation sur les stages du DESS par l’agent de stages

2) Henry Xing (Département d'informatique, UQAM)

Titre : Quelques mesures pertinentes pour calculer la distance entre les communautés d'espèces dans des réseaux de similarité de séquences

Résumé : L’utilisation de réseaux de similarité de séquences pour analyser des communautés d'espèces est souvent préférable à l'utilisation d'arbres phylogénétiques (arbres additifs ou X-arbres). À la différence des arbres qui montrent un lien de parenté unique, passant par l'ancêtre commun le plus proche, entre les espèces, les réseaux de similarité de séquences peuvent représenter des mécanismes évolutifs complexes, tels que le transfert horizontal de gènes et la recombinaison homologue au niveau génomique ou génique. Dans cet exposé, nous présenterons cinq nouvelles mesures de distances entre les différentes communautés d'espèces présentes dans un réseau de similarité donné, dont une adaptation de la distance UniFrac, originellement définie pour les arbres phylogénétiques. Les quatre autres distances sont basées sur le calcul des plus courts chemins entres les nœuds du réseau. Leur capacité de discrimination sera étudiée.

Présentation de Henry Xing

Article publié dans Bioinformatcs (2020)

Article de conférence court (en français) publié en 2018

Programme de calcul des distances en langage R

Rapport de Gabrielle Boudreau et Stéphane Samson

 

Mardi 21 janvier

Abdoulaye Baniré Diallo (Professeur, Département d'informatique, UQAM)

Titre : Bioinformatics and AI, Perspectives

Résumé : Avec les séquençages massifs des génomes, l’informatique à travers différents algorithmes et l’intelligence artificielle, les bases de données jouent un rôle inestimable. L’informatique nous aide également à comprendre les mécanismes de fonctionnement des génomes et leurs interactions avec l’environnement. Un nouveau développement apparaît avec l’usage de la bioinformatique et l’intelligence artificielle pour délivrer des services en santé, agriculture et environnement, etc. Au cours de cette présentation, je vous présenterai les principaux enjeux et problèmes, les techniques utilisés pour les résoudre plusieurs approches dans l’analyse de données massives et l’extraction de connaissance. Je présenterai aussi les voies qui se mettent en place au Québec pour supporter la médecine personnalisée et exploiter les données massives.

Présentation d'Abdoulaye Diallo

Rapport de Douja Meftah et Latifa Mohammadi

 

Mardi 28 janvier

Zahia Aouabed (Bioinformaticienne, Institut universitaire en santé mentale Douglas, Montréal)

Titre : Métagénomique et la bioinformatique des séquences.

Résumé : La métagénomique étudie le contenu génomique des micro-organismes extraits directement de leur milieu naturel (eau, sol, flore intestinale …). Ainsi, contrairement à la génomique, qui se base sur un seul génome, la métagénomique concerne l’étude de plusieurs génomes prélevés d’un même environnement. Cette discipline, assez récente, est rendue possible grâce à l’évolution des technologies de séquençage haut débit et à la bioinformatique des séquences. Les projets métagénomiques de grande envergure n’ont pas pour but d’analyser un seul milieu mais de comparer la biodiversité de différentes conditions environnementales. Ainsi, un projet métagénomique typique peut générer des centaines de jeux de données, contenant chacun des dizaines de millions de courtes séquences d’ADN. Avec ces masses de données et la complexité des milieux métagénomiques, il est essentiel de développer des structures de données intelligentes et de concevoir des algorithmes affinés et dédiés aux séquences. Le domaine a besoin de solutions rapides, évolutives et fiables. Je présenterai les défis informatiques posés par la métagénomique, ainsi que les principales solutions proposées pour y répondre.

Présentation de Zahia Aouabed

Rapport d'Abdellatif El Ghizi et Nicolas de Montigny

Mardi 4 février

Maxime Radmacher (Ingénieur de recherche, Département d'Informatique, UQAM)

Titre : Learning from genomics and production to leverage predictive models for dairy producers.

Résumé : Life-time profitability is a leading factor in the decision to keep a cow in a herd, or sell it, that a dairy farmers face regularly. A cow’s profit is a function of the quantity and quality of its milk production, health and herd management costs, which in turn may depend on factors as diverse as cow genetics and weather. Improving the decision making process, e.g. by providing guidance and recommendation to farmers, would therefore require predictive models capable of estimating profitability based on uncertainties and risk of the other involved factors. Existing statistical models cover only partially the set of relevant variables while merely targeting milk yield. We are designing dairy representation learning including genome, phenome and environment. This aims to design yield extensive predictive models reflecting a wider range of factors, whose core is derived from Recurrent Neural Networks. The first models we developed uses the time series of individual features corresponding to earlier stages of cow’s life to estimate target values at following lactation and profit stages. The training data for the model was drawn from a dataset captured and preprocessed for about a million cows from more than 6000 different herds with different weather, environment. At validation time, the model predicted monthly profit values for the fifth year of each cow (from data about the first four years) with a root mean squared error of 8.36 $/cow/month, thus outperforming the ARIMA statistical model by 68% (14.04 $/cow/month). Decision within the fifth year is crucial for farmers. The prediction we made from the first four years, gives a coherent decision yield by the farmer at the end of the fifth with accuracy higher 92%. This attempt paves the way of learning livestock representation to better manage the farming sector. The developed methodology allows for extending the models with attention and initializing mechanisms exploiting precise information about cows, e.g. genomics, global herd influence, and meteorological effects in the farm location.

Rapport d'Étienne Ossona de Mendez et Wanlin

Mardi 11 février – le séminaire est reporté au 7 avril 2020

Mickael Camus (CTO, My Intelligent Machines)

Titre : Les systèmes multi-agents pour les sciences de la vie.

Résumé :

 

Mardi 18 février

Josette Landry (CEO, StreamlineGenomics)

Titre : Bridging the gap between genomics and clinical practice in leukemia.

Résumé : Large-scale research initiatives using genomic sequencing have uncovered an exceedingly large number of clinically relevant genetic alterations in tumours that are critical for diagnosis, treatment and disease monitoring. Despite the technological availability and potential, integration of next-generation sequencing (NGS) into clinical context has been slow. Key factors that have delayed the routine implementation of NGS include the complexity of bioinformatics analysis and variant prioritization tools for non-experts. In this presentation we will discuss these challenges and describe how Streamline Genomics addresses these integration bottlenecks.

Rapport de Marie-Michelle Simon et Anne-Marie Roy

 

Mardi 25 février

La semaine de relâche !

 

Mardi 3 mars

Vladimir Reinharz (Professeur, Département d'informatique, UQAM)

Titre : Conservation of structural long-range modules in RNAs

Résumé : RNA molecules fulfill a large amount of fundamental tasks in every living organism. To achieve this vast array of functions, from transmitting information to biological sensors, they rely on complex three-dimensional structures. A low level representation that only considers canonical base pairs, called the secondary structure, has mathematical properties making it suitable for study under a Boltzmann ensemble framework. Dynamic programming algorithms have shown to be particularly adept to understand the link between secondary structure and sequence in that framework. Yet this is not enough to fully grasp fine networks of interactions, critical to the function, that are not captured by the secondary structure. The Leontis-Westhof annotations of non-canonical interactions classify all interactions beyond those in the secondary structure. This ontology allows to represent RNA molecules in much more details, and can then be described as directed graph with labelled edges. The discovery of conserved sub-structures can be transposed to the problem of maximal edge sub-isomorphismes. While classically NP-hard, we can take advantage of structural properties to restrain the ensemble of admissible graphs. In this talk, I will present the algorithms we developed for that case and interesting results that where obtained [1]. I will show utilities we offer to the community to analyze known and new structures, through our website carnaval.lri.fr. In particular, I will highlight the hierarchical organization of sub-structures, and how they are spread over vastly different functions. I will then speculate briefly over the role of chemical-modifications and future work.

[1] Reinharz, Soule, Westhof, Waldispuhl and Denise (2018), Mining for recurrent long-range interactions in RNA structures reveals embedded hierarchies in network families. Nucleic Acids Research.

Présentation de Vladimir Reinharz

Rapport de Yasmine Khelil et Soumia Melek

 

Mardi 10 mars

Bogdan Mazoure (Chercheur en Intelligence Artificielle, Laboratoire MILA et McGill University)

Titre : Introduction to Markov decision processes and applications

Résumé : Since their invention, Markov chains have played a fundamental role in stochastic process analysis and applications to statistical modeling like weather, stock markets, and more recently even text generation. One not widely known class of Markov chains incorporates an additional component, called “actions”, which allows the Markov decision processes to solve complex sequential decision making problem such as game playing. This lecture will first cover fundamental concepts of Markov chains, then show how they can be easily generalized by an MDP (Markov Decision Process) framework. Finally, applications of MDPs in the field of bioinformatics will be presented.

Présentation de Bogdan Mazoure

Rapport de Mathieu Lemieux et Pascal Tremblay-Dauphinais

 

Mardi 17 mars

Vladimir Makarenkov (Professeur, Département d'informatique, UQAM)

Titre : Le criblage à haut débit : détection et élimination efficaces du biais systématique

Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technologie moderne de recherche de nouveaux médicaments. La procédure de criblage doit être largement automatisée pour pouvoir être applicable (plus de 100 000 composés chimiques sont souvent analysés par jour). La qualité des mesures est primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à des erreurs de manipulation, à des capteurs défectueux, au vieillissement des composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le biais systématique pour diminuer son impact sur les mesures expérimentales. Nous avons crée le logiciel HTS Corrector qui implémente ces méthodes et présente les résultats de manière chiffrée et graphique pour mieux visualiser les effets de biais systématiques. Divers essais des méthodes proposées ont été réalisés sur des données réelles et simulées en vue de prouver leur efficacité.

Présentation de Vladimir Makarenkov

Article de Malo et al. 2006 (Nature Biotechnology)

Article de Caraus et. 2015 (Briefings in Bioinformatics)

Le logiciel HTS Corrector (Makarenkov et al. 2006, Bioinformatics)

 

Mardi 24 mars

Alix Boc (PhD, Analyste programmeur senior, CODE 3, Montréal)

Titre : Les méthodes efficaces pour la détection de transferts latéraux de gènes complets et partiels

Résumé : Le transfert latéral de gènes (TLG) est un mécanisme évolutif qui permet à des organismes de s'échanger du patrimoine génétique. Premièrement, nous avons développé une méthode permettant de détecter ce phénomène. Cette méthode compare deux phylogénies, une d'espèces et une du gène étudié (pour le même groupe d'espèces) et en déduit un scénario de TLG complet. Lors de cette présentation, je décrirai d'abord le mécanisme du transfert latéral de gènes, puis, je présenterai la première méthode développée. Deuxièmement, je présenterai une méthode plus générale permettant d’identifier les transferts partiels. Cette méthode se base directement sur les séquences et peut s'appliquer à l’analyse des génomes entiers. Je présenterai également les différentes applications de ces méthodes.

Présentation de A. Boc

Rapport d’Émilia Aïsha Coleman et Mélanie Dominique

 

Mardi 31 mars

Karim Oualkacha (Professeur, Département de mathématiques, UQAM)

Titre : A novel statistical method for modeling covariate effects in bisulfite sequencing derived measures of DNA methylation

Résumé : Identifying disease-associated changes in DNA methylation can help us gain a better understanding of disease etiology. Bisulfite sequencing allows the generation of highthroughput methylation profiles at single-base resolution of DNA. However, optimally modeling and analyzing these sparse and discrete sequencing data is still very challenging due to variable read depth, missing data patterns, long-range correlations, data errors, and confounding from cell type mixtures. We propose a regression-based hierarchical model that allows covariate effects to vary smoothly along genomic positions and we have built a specialized EM algorithm which explicitly allows for experimental errors and cell type mixtures, to make inference about smooth covariate effects in the model. Simulations show that the proposed method provides accurate estimates of covariate effects and captures the major underlying methylation patterns with excellent power. We also apply the proposed method to analyze data from rheumatoid arthritis patients and controls. The method has been implemented in R package SOMNiBUS.

 

Mardi 7 avril

Aida Ouangraoua (Professeur, Département d'informatique, Université de Sherbrooke)

Titre : Genomic rearrangements

Résumé :

 

Mardi 14-21 avril

Les exposés des étudiants