Cours
BIF7002 (Séminaire de Bioinformatique)
Hiver
2020
Informations pratiques
Enseignant : Abdoulaye
Baniré Diallo et Vladimir Makarenkov.
Locaux et horaires : mardi de 17h30 à 20h30 au
PK-4323 ou PK-4610 (4ème étage du pavillon Président Kennedy de
l’UQAM).
Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.
Courriel : diallo.abdoulaye(at)uqam.ca
et makarenkov.vladimir(at)uqam.ca
Fonctionnement du cours
Ce cours sera basé sur des
conférences données par des chercheurs dans les disciplines touchant à la
bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours
comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance
d'exposés par les étudiants.
Évaluation
L'évaluation comportera
trois parties : une note de présence et de participation (20%), un rapport sur
une conférence (40%) et un exposé (40%).
La note de présence et de participation sera
basée sur l'assiduité au cours et sur l'animation (questions ou discussions
pertinentes, ...). Elle comptera pour 20% de la note finale.
Après chaque conférence, une équipe
d'étudiants désignée sera chargée de préparer un rapport d'une dizaine de
pages, à remettre au plus tard trois semaines après la conférence. Ce rapport,
qui devra aussi être remis sous la forme d'une page Web, sera évalué à
la base des critères suivants : la qualité de la rédaction, la maîtrise des
aspects scientifiques du problème, l'apport original (approfondissement des
questions soulevées lors des conférences notamment, présentation et critiques
de résultats expérimentaux, etc). Il comptera pour 40% de la note finale.
Lors de la dernière séance de la session,
chaque équipe d'étudiants effectuera une présentation orale, d'une vingtaine de
minutes, de son rapport, qui comptera pour 40% de la note finale. Les
principaux aspects pris en compte dans la notation seront la qualité
pédagogique et scientifique de l'exposé.
Vous
prouves consulter des exemples des rapports sur la page web suivante :
http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.
Calendrier
Mardi 7 janvier
Présentation du cours
BIF7002, sélection des conférences.
Mardi 14 janvier
1) Présentation sur les stages du
DESS par l’agent de stages
2) Henry Xing (Département d'informatique, UQAM)
Titre :
Quelques mesures pertinentes pour calculer la distance entre les communautés
d'espèces dans des réseaux de similarité de séquences
Résumé :
L’utilisation de réseaux de similarité de séquences pour analyser des
communautés d'espèces est souvent préférable à l'utilisation d'arbres
phylogénétiques (arbres additifs ou X-arbres). À la différence des arbres qui
montrent un lien de parenté unique, passant par l'ancêtre commun le plus
proche, entre les espèces, les réseaux de similarité de séquences peuvent représenter
des mécanismes évolutifs complexes, tels que le transfert horizontal de gènes
et la recombinaison homologue au niveau génomique ou génique. Dans cet exposé,
nous présenterons cinq nouvelles mesures de distances entre les différentes
communautés d'espèces présentes dans un réseau de similarité donné, dont une
adaptation de la distance UniFrac, originellement définie pour les arbres
phylogénétiques. Les quatre autres distances sont basées sur le calcul des plus
courts chemins entres les nœuds du réseau. Leur capacité de discrimination sera
étudiée.
Mardi 21 janvier
Abdoulaye Baniré Diallo (Professeur, Département d'informatique, UQAM)
Titre : Bioinformatics and AI,
Perspectives
Résumé :
Avec les séquençages massifs des génomes, l’informatique à travers différents
algorithmes et l’intelligence artificielle, les bases de données jouent un rôle
inestimable. L’informatique nous aide également à comprendre les mécanismes de
fonctionnement des génomes et leurs interactions avec l’environnement. Un
nouveau développement apparaît avec l’usage de la bioinformatique et
l’intelligence artificielle pour délivrer des services en santé, agriculture et
environnement, etc. Au cours de cette présentation, je vous présenterai les
principaux enjeux et problèmes, les techniques utilisés pour les résoudre
plusieurs approches dans l’analyse de données massives et l’extraction de
connaissance. Je présenterai aussi les voies qui se mettent en place au Québec
pour supporter la médecine personnalisée et exploiter les données massives.
Mardi 28 janvier
Zahia Aouabed (Bioinformaticienne, Institut universitaire en santé
mentale Douglas, Montréal)
Titre : Métagénomique et la
bioinformatique des séquences.
Résumé :
La métagénomique étudie le contenu génomique des micro-organismes extraits
directement de leur milieu naturel (eau, sol, flore intestinale …). Ainsi,
contrairement à la génomique, qui se base sur un seul génome, la métagénomique
concerne l’étude de plusieurs génomes prélevés d’un même environnement. Cette
discipline, assez récente, est rendue possible grâce à l’évolution des
technologies de séquençage haut débit et à la bioinformatique des séquences.
Les projets métagénomiques de grande envergure n’ont pas pour but d’analyser un
seul milieu mais de comparer la biodiversité de différentes conditions
environnementales. Ainsi, un projet métagénomique typique peut générer des
centaines de jeux de données, contenant chacun des dizaines de millions de
courtes séquences d’ADN. Avec ces masses de données et la complexité des
milieux métagénomiques, il est essentiel de développer des structures de
données intelligentes et de concevoir des algorithmes affinés et dédiés aux
séquences. Le domaine a besoin de solutions rapides, évolutives et fiables. Je
présenterai les défis informatiques posés par la métagénomique, ainsi que les
principales solutions proposées pour y répondre.
Mardi 4 février
Maxime Radmacher (Ingénieur de recherche, Département d'Informatique,
UQAM)
Titre :
Learning from genomics and production to leverage predictive models for dairy
producers.
Résumé : Life-time
profitability is a leading factor in the decision to keep a cow in a herd, or
sell it, that a dairy farmers face regularly. A cow’s profit is a function of
the quantity and quality of its milk production, health and herd management
costs, which in turn may depend on factors as diverse as cow genetics and
weather. Improving the decision making process, e.g. by providing guidance and
recommendation to farmers, would therefore require predictive models capable of
estimating profitability based on uncertainties and risk of the other involved
factors. Existing statistical models cover only partially the set of relevant
variables while merely targeting milk yield. We are designing dairy
representation learning including genome, phenome and environment. This aims to
design yield extensive predictive models reflecting a wider range of factors,
whose core is derived from Recurrent Neural Networks. The first models we
developed uses the time series of individual features corresponding to earlier
stages of cow’s life to estimate target values at following lactation and
profit stages. The training data for the model was drawn from a dataset
captured and preprocessed for about a million cows from more than 6000
different herds with different weather, environment. At validation time, the
model predicted monthly profit values for the fifth year of each cow (from data
about the first four years) with a root mean squared error of 8.36 $/cow/month,
thus outperforming the ARIMA statistical model by 68% (14.04 $/cow/month).
Decision within the fifth year is crucial for farmers. The prediction we made
from the first four years, gives a coherent decision yield by the farmer at the
end of the fifth with accuracy higher 92%. This attempt paves the way of
learning livestock representation to better manage the farming sector. The
developed methodology allows for extending the models with attention and
initializing mechanisms exploiting precise information about cows, e.g.
genomics, global herd influence, and meteorological effects in the farm
location.
Mardi 11 février –
le séminaire est reporté au 7 avril 2020
Mickael Camus (CTO, My
Intelligent Machines)
Titre : Les systèmes multi-agents
pour les sciences de la vie.
Résumé :
Mardi 18 février
Josette Landry (CEO, StreamlineGenomics)
Titre :
Bridging the gap between genomics and clinical practice in leukemia.
Résumé :
Large-scale research initiatives using genomic sequencing have uncovered an exceedingly
large number of clinically relevant genetic alterations in tumours that are
critical for diagnosis, treatment and disease monitoring. Despite the
technological availability and potential, integration of next-generation
sequencing (NGS) into clinical context has been slow. Key factors that have
delayed the routine implementation of NGS include the complexity of
bioinformatics analysis and variant prioritization tools for non-experts. In
this presentation we will discuss these challenges and describe how Streamline
Genomics addresses these integration bottlenecks.
Mardi
25 février
La semaine de relâche !
Mardi 3 mars
Vladimir Reinharz (Professeur, Département
d'informatique, UQAM)
Titre :
Conservation of structural long-range modules in RNAs
Résumé :
RNA molecules fulfill a large amount of fundamental tasks in every living
organism. To achieve this vast array of functions, from transmitting
information to biological sensors, they rely on complex three-dimensional
structures. A low level representation that only considers canonical base
pairs, called the secondary structure, has mathematical properties making it
suitable for study under a Boltzmann ensemble framework. Dynamic programming
algorithms have shown to be particularly adept to understand the link between
secondary structure and sequence in that framework. Yet this is not enough to
fully grasp fine networks of interactions, critical to the function, that are
not captured by the secondary structure. The Leontis-Westhof annotations of
non-canonical interactions classify all interactions beyond those in the
secondary structure. This ontology allows to represent RNA molecules in much
more details, and can then be described as directed graph with labelled edges.
The discovery of conserved sub-structures can be transposed to the problem of
maximal edge sub-isomorphismes. While classically NP-hard, we can take
advantage of structural properties to restrain the ensemble of admissible
graphs. In this talk, I will present the algorithms we developed for that case
and interesting results that where obtained [1]. I will show utilities we offer
to the community to analyze known and new structures, through our website
carnaval.lri.fr. In particular, I will highlight the hierarchical organization
of sub-structures, and how they are spread over vastly different functions. I
will then speculate briefly over the role of chemical-modifications and future
work.
[1] Reinharz, Soule, Westhof,
Waldispuhl and Denise (2018), Mining for recurrent long-range interactions in
RNA structures reveals embedded hierarchies in network families. Nucleic Acids Research.
Mardi 10 mars
Bogdan Mazoure (Chercheur en
Intelligence Artificielle, Laboratoire MILA et McGill University)
Titre :
Introduction to Markov decision processes and applications
Résumé : Since their invention, Markov chains have played a
fundamental role in stochastic process analysis and applications to statistical
modeling like weather, stock markets, and more recently even text generation.
One not widely known class of Markov chains incorporates an additional
component, called “actions”, which allows the Markov decision processes to
solve complex sequential decision making problem such as game playing. This
lecture will first cover fundamental concepts of Markov chains, then show how
they can be easily generalized by an MDP (Markov Decision Process) framework.
Finally, applications of MDPs in the field of bioinformatics will be presented.
Mardi 17 mars
Vladimir
Makarenkov (Professeur, Département d'informatique, UQAM)
Titre : Le
criblage à haut débit : détection et élimination efficaces du biais
systématique
Résumé :
Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est
une technologie moderne de recherche de nouveaux médicaments. La procédure de
criblage doit être largement automatisée pour pouvoir être applicable (plus de
100 000 composés chimiques sont souvent analysés par jour). La qualité des
mesures est primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels
pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs
biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à
des erreurs de manipulation, à des capteurs défectueux, au vieillissement des
composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le
biais systématique pour diminuer son impact sur les mesures expérimentales.
Nous avons crée le logiciel HTS Corrector
qui implémente ces méthodes et présente les résultats de manière chiffrée et
graphique pour mieux visualiser les effets de biais systématiques. Divers
essais des méthodes proposées ont été réalisés sur des données réelles et
simulées en vue de prouver leur efficacité.
Mardi 24 mars
Alix Boc (PhD,
Analyste programmeur senior, CODE 3, Montréal)
Titre : Les
méthodes efficaces pour la détection de transferts latéraux de gènes complets
et partiels
Résumé : Le transfert latéral de gènes (TLG) est un
mécanisme évolutif qui permet à des organismes de s'échanger du patrimoine
génétique. Premièrement, nous avons développé une méthode permettant de
détecter ce phénomène. Cette méthode compare deux phylogénies, une d'espèces et
une du gène étudié (pour le même groupe d'espèces) et en déduit un scénario de
TLG complet. Lors de cette présentation, je décrirai d'abord le mécanisme du
transfert latéral de gènes, puis, je présenterai la première méthode
développée. Deuxièmement, je présenterai une méthode plus générale permettant
d’identifier les transferts partiels. Cette méthode se base directement sur les
séquences et peut s'appliquer à l’analyse des génomes entiers. Je présenterai
également les différentes applications de ces méthodes.
Mardi 31 mars
Karim Oualkacha
(Professeur, Département de mathématiques, UQAM)
Titre : A novel statistical method for modeling covariate
effects in bisulfite sequencing derived measures of DNA methylation
Résumé :
Identifying disease-associated changes in DNA methylation can help us gain a
better understanding of disease etiology. Bisulfite sequencing allows the
generation of highthroughput methylation profiles at single-base resolution of
DNA. However, optimally modeling and analyzing these sparse and discrete
sequencing data is still very challenging due to variable read depth, missing
data patterns, long-range correlations, data errors, and confounding from cell
type mixtures. We propose a regression-based hierarchical model that allows
covariate effects to vary smoothly along genomic positions and we have built a
specialized EM algorithm which explicitly allows for experimental errors and
cell type mixtures, to make inference about smooth covariate effects in the
model. Simulations show that the proposed method provides accurate estimates of
covariate effects and captures the major underlying methylation patterns with
excellent power. We also apply the proposed method to analyze data from
rheumatoid arthritis patients and controls. The method has been implemented in
R package SOMNiBUS.
Mardi 7 avril
Aida Ouangraoua (Professeur,
Département d'informatique, Université de Sherbrooke)
Titre : Genomic rearrangements
Résumé :
Mardi 14-21 avril
Les exposés des étudiants