Cours
BIF7002 (Séminaire de Bioinformatique)
Hiver
2021
Informations
pratiques
Enseignant :
Vladimir Makarenkov.
Locaux et horaires : mardi de
17h30 à 20h30 sur
Zoom (en ligne).
Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.
Courriel : makarenkov.vladimir(at)uqam.ca
Fonctionnement
du cours
Ce cours sera basé
sur des conférences données par des chercheurs dans les disciplines touchant à
la bioinformatique : informatique, mathématiques,
biologie et biochimie. Le cours comprendra les conférences (voir le calendrier
ci-dessous) suivies d’une séance d'exposés par les étudiants.
Évaluation
L'évaluation
comportera trois parties : une note de présence et de participation (20%), un
rapport sur une conférence (40%) et un exposé (40%).
La note de présence et de
participation sera basée sur l'assiduité au cours et
sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour
20% de la note finale.
Après chaque conférence, une
équipe d'étudiants désignée sera chargée de préparer un rapport d'une dizaine
de pages, à remettre au plus tard trois semaines après la conférence. Ce
rapport, qui devra aussi être remis sous la forme d'une page Web, sera
évalué à la base des critères suivants : la qualité de la rédaction, la
maîtrise des aspects scientifiques du problème, l'apport original
(approfondissement des questions soulevées lors des conférences notamment,
présentation et critiques de résultats expérimentaux, etc).
Il comptera pour 40% de la note finale.
Lors de la dernière séance de
la session, chaque équipe d'étudiants effectuera une présentation orale, d'une
vingtaine de minutes, de son rapport, qui comptera pour 40% de la note finale.
Les principaux aspects pris en compte dans la notation seront la qualité
pédagogique et scientifique de l'exposé.
Vous
pouvez consulter des exemples des rapports sur la page web suivante :
http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.
Calendrier
Mardi 19 janvier
Présentation du
cours BIF7002, sélection des conférences.
Mardi 26 janvier
1) Présentation sur
les stages du DESS par l’agent de stages
2) Vladimir
Makarenkov (Professeur, Département d'informatique, UQAM)
Titre : Le criblage à haut débit :
détection et élimination efficaces du biais systématique
Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technologie
moderne de recherche de nouveaux médicaments. La procédure de criblage doit
être largement automatisée pour pouvoir être applicable (plus de 100 000
composés chimiques sont souvent analysés par jour). La qualité des mesures est
primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels
pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs
biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à
des erreurs de manipulation, à des capteurs défectueux, au vieillissement des
composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le
biais systématique pour diminuer son impact sur les mesures expérimentales.
Nous avons créé le logiciel HTS Corrector
qui implémente ces méthodes et présente les résultats de manière chiffrée et
graphique pour mieux visualiser les effets de biais systématiques. Divers
essais des méthodes proposées ont été réalisés sur des données réelles et
simulées en vue de prouver leur efficacité.
Mardi 2 février
Jeremy Charlier (AI specialist, Banque Nationale
du Canada)
Titre : Novel Encoding of sgRNA-DNA
Sequences for Effective Off-Target Prediction in Gene Editing with Deep
Learning
Résumé :
Off-target predictions are crucial in gene editing research to improve existing
prediction methods. Recently, significant progress has been achieved in the
field of prediction of off-target mutations, particularly with CRISPR-Cas9
data, thanks to the use of deep learning. CRISPR-Cas9 is a precise gene editing
technique allowing manipulations of DNA fragments. The encoding of sgRNA-DNA
sequences for deep neural networks is a complex process, which impacts
significantly the prediction accuracy. In this context, we propose a novel
encoding of sgRNADNA sequences that is capable to
aggregate the involved sequence data without any loss of information. In our
experiments, we compare our novel encoding with the state-of-the-art sgRNADNA encoding. We demonstrate the superior accuracy of
our approach in our simulations involving Feedforward Neural Networks (FFN) and
Convolutional Neural Networks (CNN). We highlight the universality of our
results by building several FFNs and CNNs with various layer depths and performing
predictions on two popular public gene editing data sets, the CRISPOR data set
and the GUIDE-seq data set. In all our experiments, the new encoding led to
more accurate off-target prediction results, providing an improvement of the
AUC of ROC curve metrics up to 35%.
Mardi 9 février
Etienne Lord (Chercheur
en Agronomie Numérique, Agriculture et Agroalimentaire Canada,
St-Jean-sur-Richelieu)
Titre : L'utilisation de l'apprentissage profond dans
l'analyse des séquences génomiques
Résumé :
Mardi 16 février
Henry Xing (Bioinformaticien, CHU Sainte-Justine
Research Centre)
Titre : Présentation
sur nanopore
Résumé :
Mardi 23 février
Mathieu Lemieux (Département d'informatique, UQAM)
Titre :
Résumé :
Mardi 2 mars
La semaine de relâche !
Mardi 9 mars
Bogdan Mazoure (Chercheur en Intelligence
Artificielle, Laboratoire MILA et McGill University)
Titre : Introduction to Markov
decision processes and applications
Résumé :
Since their invention, Markov chains have
played a fundamental role in stochastic process analysis and applications to
statistical modeling like weather, stock markets, and more recently even text
generation. One not widely known class of Markov chains incorporates an
additional component, called “actions”, which allows the Markov decision
processes to solve complex sequential decision making problem such as game
playing. This lecture will first cover fundamental concepts of Markov chains,
then show how they can be easily generalized by an MDP (Markov Decision
Process) framework. Finally, applications of MDPs in the field of
bioinformatics will be presented.
Mardi 16 mars
Stéphane Samson (Département d'informatique, UQAM)
Titre :
Résumé :
Mardi 23 mars
Alix
Boc (PhD, Analyste programmeur senior, CODE 3, Montréal)
Titre : Les méthodes efficaces pour la
détection de transferts latéraux de gènes complets et partiels
Résumé : Le transfert latéral de gènes (TLG) est un
mécanisme évolutif qui permet à des organismes de s'échanger du patrimoine
génétique. Premièrement, nous avons développé une méthode permettant de
détecter ce phénomène. Cette méthode compare deux phylogénies, une d'espèces et
une du gène étudié (pour le même groupe d'espèces) et en déduit un scénario de
TLG complet. Lors de cette présentation, je décrirai d'abord le mécanisme du
transfert latéral de gènes, puis, je présenterai la première méthode
développée. Deuxièmement, je présenterai une méthode plus générale permettant
d’identifier les transferts partiels. Cette méthode se base directement sur les
séquences et peut s'appliquer à l’analyse des génomes entiers. Je présenterai
également les différentes applications de ces méthodes.
Mardi 30 mars
Matthieu
Willems (Département d'informatique, UQAM)
Titre : Nouveaux algorithmes pour
l'inférence de réseaux phylogénétiquesé
Résumé : La théorie de l'évolution de Darwin, puis la découverte de l'ADN (acide désoxyribonucléique)
dans les années 1950 ont donné naissance à la phylogénie moléculaire, dont le
but principal est de construire des arbres d'espèces à partir de données
moléculaires (essentiellement de l'ADN ou des protéines). De nombreux
algorithmes ont été développés dans ce contexte. Les méthodes de distances sont
les plus rapides, tandis que les méthodes basées sur les caractères donnent
généralement de meilleurs résultats mais nécessitent des temps de calcul
beaucoup plus importants.
Par ailleurs, plusieurs
phénomènes évolutifs fondamentaux, comme l'hybridation, ne peuvent pas être
représentés par un arbre phylogénétique. Il faut alors considérer des réseaux
phylogénétiques. Plusieurs méthodes d'inférence de tels réseaux ont été
introduites depuis une vingtaine d'années. La plupart d'entre elles produisent
des réseaux implicites, qui peuvent s'avérer très difficiles à interpréter.
Je présenterai deux nouveaux
algorithmes pour inférer un réseau d'hybridation explicite. Le premier prend en
entrée une matrice de distances entre un certain nombre d'espèces, tandis que
le second prend en entrée une séquence binaire (correspondant, par exemple, à
la présence ou l'absence de certains gènes) pour chaque espèce considérée. Des
simulations et des tests sur des données réelles ont permis de mettre en
lumière l'efficacité de mes deux nouveaux algorithmes. La seconde méthode donne
de meilleurs résultats même si les temps de calculs sont généralement plus
longs.
J’ai appliqué ma méthode de
distances dans le cadre de la biolinguistique.
L'évolution des langues peut en effet être représentée sous la forme d'un arbre
ou d'un réseau, et plusieurs études ont démontré la pertinence d'appliquer des
méthodes d'inférence phylogénétique à des données linguistiques. J’ai ainsi reconstruit
un réseau d'hybridation explicite représentant l'histoire de 84 langues
indo-européennes, et j’ai comparé ce réseau à ceux obtenus à partir d'autres
méthodes.
Article de Willems al. 2016 (BMC
Evolutionary Biology)
Présentation
de Matthieu Willems
Mardi 6 avril
Moloud Abdar
(Institute for Intelligent Systems Research and Innovation, Deakin
University, Australie)
Titre :
Résumé :
In recent decades, an emerging phenomenon has entered the field of applied
sciences called artificial intelligence (AI). In a very short time, the
extraordinary powers of AI to solve various problems were revealed to everyone.
Among the AI-based systems, machine learning (ML) and deep learning (DL) have
been able to show extraordinary performance. These methods have been tested on
different data such as videos, images, texts, signals, speech and many more.
Among these, the application of these intelligent methods on bioinformatics and
medical data has attracted a lot of attention by researchers around the world.
In this talk, I will first briefly introduce artificial intelligence (AI) and
its relationship with ML and DL. Afterwards, I will give an example of some
non-medical applications. Finally, I will present some of the work we have done
on medical data.
Mardi 20-27
avril
Les exposés des étudiants