Cours BIF7002 (Séminaire de Bioinformatique)

 

Hiver 2021



Informations pratiques

Enseignant : Vladimir Makarenkov.

Locaux et horaires : mardi de 17h30 à 20h30 sur Zoom (en ligne).

Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.

Courriel : makarenkov.vladimir(at)uqam.ca



Fonctionnement du cours

Ce cours sera basé sur des conférences données par des chercheurs dans les disciplines touchant à la bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance d'exposés par les étudiants.



Évaluation

L'évaluation comportera trois parties : une note de présence et de participation (20%), un rapport sur une conférence (40%) et un exposé (40%).

La note de présence et de participation sera basée sur l'assiduité au cours et sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour 20% de la note finale.

Après chaque conférence, une équipe d'étudiants désignée sera chargée de préparer un rapport d'une dizaine de pages, à remettre au plus tard trois semaines après la conférence. Ce rapport, qui devra aussi être remis sous la forme d'une page Web, sera évalué à la base des critères suivants : la qualité de la rédaction, la maîtrise des aspects scientifiques du problème, l'apport original (approfondissement des questions soulevées lors des conférences notamment, présentation et critiques de résultats expérimentaux, etc). Il comptera pour 40% de la note finale.

Lors de la dernière séance de la session, chaque équipe d'étudiants effectuera une présentation orale, d'une vingtaine de minutes, de son rapport, qui comptera pour 40% de la note finale. Les principaux aspects pris en compte dans la notation seront la qualité pédagogique et scientifique de l'exposé.

Vous pouvez consulter des exemples des rapports sur la page web suivante :

http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.

 

Calendrier

Mardi 19 janvier

Présentation du cours BIF7002, sélection des conférences.

 

Mardi 26 janvier

1) Présentation sur les stages du DESS par l’agent de stages

2) Vladimir Makarenkov (Professeur, Département d'informatique, UQAM)

Titre : Le criblage à haut débit : détection et élimination efficaces du biais systématique

Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technologie moderne de recherche de nouveaux médicaments. La procédure de criblage doit être largement automatisée pour pouvoir être applicable (plus de 100 000 composés chimiques sont souvent analysés par jour). La qualité des mesures est primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à des erreurs de manipulation, à des capteurs défectueux, au vieillissement des composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le biais systématique pour diminuer son impact sur les mesures expérimentales. Nous avons créé le logiciel HTS Corrector qui implémente ces méthodes et présente les résultats de manière chiffrée et graphique pour mieux visualiser les effets de biais systématiques. Divers essais des méthodes proposées ont été réalisés sur des données réelles et simulées en vue de prouver leur efficacité.

Présentation de Vladimir Makarenkov

Article de Malo et al. 2006 (Nature Biotechnology)

Article de Caraus et. 2015 (Briefings in Bioinformatics)

Le logiciel HTS Corrector (Makarenkov et al. 2006, Bioinformatics)

 

Mardi 2 février

Jeremy Charlier (AI specialist, Banque Nationale du Canada)

Titre : Novel Encoding of sgRNA-DNA Sequences for Effective Off-Target Prediction in Gene Editing with Deep Learning

Résumé : Off-target predictions are crucial in gene editing research to improve existing prediction methods. Recently, significant progress has been achieved in the field of prediction of off-target mutations, particularly with CRISPR-Cas9 data, thanks to the use of deep learning. CRISPR-Cas9 is a precise gene editing technique allowing manipulations of DNA fragments. The encoding of sgRNA-DNA sequences for deep neural networks is a complex process, which impacts significantly the prediction accuracy. In this context, we propose a novel encoding of sgRNADNA sequences that is capable to aggregate the involved sequence data without any loss of information. In our experiments, we compare our novel encoding with the state-of-the-art sgRNADNA encoding. We demonstrate the superior accuracy of our approach in our simulations involving Feedforward Neural Networks (FFN) and Convolutional Neural Networks (CNN). We highlight the universality of our results by building several FFNs and CNNs with various layer depths and performing predictions on two popular public gene editing data sets, the CRISPOR data set and the GUIDE-seq data set. In all our experiments, the new encoding led to more accurate off-target prediction results, providing an improvement of the AUC of ROC curve metrics up to 35%.

 

Mardi 9 février

Etienne Lord (Chercheur en Agronomie Numérique, Agriculture et Agroalimentaire Canada, St-Jean-sur-Richelieu)

Titre : L'utilisation de l'apprentissage profond dans l'analyse des séquences génomiques

Résumé :

 

Mardi 16 février

Henry Xing (Bioinformaticien, CHU Sainte-Justine Research Centre)

Titre : Présentation sur nanopore

Résumé :

 

Mardi 23 février

Mathieu Lemieux (Département d'informatique, UQAM)

Titre :

Résumé :

 

Mardi 2 mars

La semaine de relâche !

 

Mardi 9 mars

Bogdan Mazoure (Chercheur en Intelligence Artificielle, Laboratoire MILA et McGill University)

Titre : Introduction to Markov decision processes and applications

Résumé : Since their invention, Markov chains have played a fundamental role in stochastic process analysis and applications to statistical modeling like weather, stock markets, and more recently even text generation. One not widely known class of Markov chains incorporates an additional component, called “actions”, which allows the Markov decision processes to solve complex sequential decision making problem such as game playing. This lecture will first cover fundamental concepts of Markov chains, then show how they can be easily generalized by an MDP (Markov Decision Process) framework. Finally, applications of MDPs in the field of bioinformatics will be presented.

Présentation de Bogdan Mazoure

 

Mardi 16 mars

Stéphane Samson (Département d'informatique, UQAM)

Titre :

Résumé :

 

Mardi 23 mars

Alix Boc (PhD, Analyste programmeur senior, CODE 3, Montréal)

Titre : Les méthodes efficaces pour la détection de transferts latéraux de gènes complets et partiels

Résumé : Le transfert latéral de gènes (TLG) est un mécanisme évolutif qui permet à des organismes de s'échanger du patrimoine génétique. Premièrement, nous avons développé une méthode permettant de détecter ce phénomène. Cette méthode compare deux phylogénies, une d'espèces et une du gène étudié (pour le même groupe d'espèces) et en déduit un scénario de TLG complet. Lors de cette présentation, je décrirai d'abord le mécanisme du transfert latéral de gènes, puis, je présenterai la première méthode développée. Deuxièmement, je présenterai une méthode plus générale permettant d’identifier les transferts partiels. Cette méthode se base directement sur les séquences et peut s'appliquer à l’analyse des génomes entiers. Je présenterai également les différentes applications de ces méthodes.

Présentation de A. Boc

 

Mardi 30 mars

Matthieu Willems (Département d'informatique, UQAM)

Titre : Nouveaux algorithmes pour l'inférence de réseaux phylogénétiquesé

Résumé : La théorie de l'évolution de Darwin, puis la découverte de l'ADN (acide désoxyribonucléique) dans les années 1950 ont donné naissance à la phylogénie moléculaire, dont le but principal est de construire des arbres d'espèces à partir de données moléculaires (essentiellement de l'ADN ou des protéines). De nombreux algorithmes ont été développés dans ce contexte. Les méthodes de distances sont les plus rapides, tandis que les méthodes basées sur les caractères donnent généralement de meilleurs résultats mais nécessitent des temps de calcul beaucoup plus importants.

Par ailleurs, plusieurs phénomènes évolutifs fondamentaux, comme l'hybridation, ne peuvent pas être représentés par un arbre phylogénétique. Il faut alors considérer des réseaux phylogénétiques. Plusieurs méthodes d'inférence de tels réseaux ont été introduites depuis une vingtaine d'années. La plupart d'entre elles produisent des réseaux implicites, qui peuvent s'avérer très difficiles à interpréter.

Je présenterai deux nouveaux algorithmes pour inférer un réseau d'hybridation explicite. Le premier prend en entrée une matrice de distances entre un certain nombre d'espèces, tandis que le second prend en entrée une séquence binaire (correspondant, par exemple, à la présence ou l'absence de certains gènes) pour chaque espèce considérée. Des simulations et des tests sur des données réelles ont permis de mettre en lumière l'efficacité de mes deux nouveaux algorithmes. La seconde méthode donne de meilleurs résultats même si les temps de calculs sont généralement plus longs.

J’ai appliqué ma méthode de distances dans le cadre de la biolinguistique. L'évolution des langues peut en effet être représentée sous la forme d'un arbre ou d'un réseau, et plusieurs études ont démontré la pertinence d'appliquer des méthodes d'inférence phylogénétique à des données linguistiques. J’ai ainsi reconstruit un réseau d'hybridation explicite représentant l'histoire de 84 langues indo-européennes, et j’ai comparé ce réseau à ceux obtenus à partir d'autres méthodes.

Article de Willems al. 2016 (BMC Evolutionary Biology)

Présentation de Matthieu Willems

 

Mardi 6 avril

Moloud Abdar (Institute for Intelligent Systems Research and Innovation, Deakin University, Australie)

Titre :

Résumé : In recent decades, an emerging phenomenon has entered the field of applied sciences called artificial intelligence (AI). In a very short time, the extraordinary powers of AI to solve various problems were revealed to everyone. Among the AI-based systems, machine learning (ML) and deep learning (DL) have been able to show extraordinary performance. These methods have been tested on different data such as videos, images, texts, signals, speech and many more. Among these, the application of these intelligent methods on bioinformatics and medical data has attracted a lot of attention by researchers around the world. In this talk, I will first briefly introduce artificial intelligence (AI) and its relationship with ML and DL. Afterwards, I will give an example of some non-medical applications. Finally, I will present some of the work we have done on medical data.

 

Mardi 20-27 avril

Les exposés des étudiants