Cours
BIF7002 (Séminaire de Bioinformatique)
Hiver
2019
Informations pratiques
Enseignant : Abdoulaye Baniré
Diallo et Vladimir Makarenkov!
Locaux et horaires : mardi de 17h30 à 20h30 au
PK-4323 (local de séminaire du LaCIM au pavillon Président Kennedy de l’UQAM).
Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.
Courriel : diallo.abdoulaye(at)uqam.ca
et makarenkov.vladimir(at)uqam.ca
Fonctionnement du cours
Ce cours sera basé sur des
conférences données par des chercheurs dans les disciplines touchant à la
bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours
comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance
d'exposés par les étudiants.
Évaluation
L'évaluation comportera
trois parties : une note de présence et de participation (20%), un rapport sur
une conférence (40%) et un exposé (40%).
La note de présence et de participation sera
basée sur l'assiduité au cours et sur l'animation (questions ou discussions
pertinentes, ...). Elle comptera pour 20% de la note finale.
Après chaque conférence, une équipe
d'étudiants désignée sera chargée de préparer un rapport d'une dizaine de
pages, à remettre au plus tard trois semaines après la conférence. Ce rapport,
qui devra aussi être remis sous la forme d'une page Web, sera évalué à
la base des critères suivants : la qualité de la rédaction, la maîtrise des
aspects scientifiques du problème, l'apport original (approfondissement des
questions soulevées lors des conférences notamment, présentation et critiques
de résultats expérimentaux, etc). Il comptera pour 40% de la note finale.
Lors de la dernière séance de la session,
chaque équipe d'étudiants effectuera une présentation orale, d'une vingtaine de
minutes, de son rapport, qui comptera pour 40% de la note finale. Les
principaux aspects pris en compte dans la notation seront la qualité
pédagogique et scientifique de l'exposé.
Vous
prouves consulter des exemples des rapports sur la page web suivante :
http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.
Calendrier
Mardi 8 janvier
Présentation du cours
BIF7002, sélection des conférences.
Mardi 15 janvier
Valérie Hay (Senior data analyst at Caprion Biosciences,
Montréal, Canada)
Titre : Détection des transferts linguistiques
à l’aide des outils bioinformatiques
Résumé : La phylogénie et la
linguistique sont des domaines apparemment opposés, mais plusieurs auteurs ont
établi le parallèle entre ces deux sciences : l’évolution des gènes et des
langues. L’évolution des gènes, autant que des langues, peut être représentée
par des arbres phylogénétiques et leurs histoires évolutives expliquées par des
transferts, des hybridations ou des changements ponctuels. La phylogénie et la
reconstruction des évènements génétiques menant aux espèces contemporaines est
toujours d’actualité, surtout avec le travail colossal de la construction de
l’histoire phylogénétique de toutes les espèces du projet ‘Arbre de vie’ (Tree of Life) et la publication de la
version 3 du site web associé à ce projet.
Dans la littérature, plusieurs
outils bioinformatiques développés pour la phylogénie ont été adaptés pour leur
utilisation dans la reconstruction de l’histoire des langues. Un des premiers
exemples fut la reconstitution de l’arbre des langues Indo-Européennes par Gray
et Atkinson en 2003. Dans le but de développer un nouvel outil informatique
pour l’étude des langues, mon projet de maîtrise est l’adaptation de
l’algorithme développé par Boc et ses collaborateurs et publié en 2010.
D’après l’article de Boc,
l’algorithme a été conçu afin d’identifier les transferts latéraux de séquences
génétiques d’une espèce bactérienne à une autre. L’identification de séquences
transférées peut être conceptualisée comme le transfert de mots d’une langue
vers une autre langue. Nous avons donc construit un jeu de données de
transferts positifs et déterminé les paramètres optimaux pour la détection des
transferts de mots. En combinant les paramètres optimaux et l’algorithme de
Boc, nous espérons pouvoir confirmer les transferts de mots déjà identifiés et
faire de nouvelles associations pour l’identification de nouveaux transferts
linguistiques.
Mardi 22 janvier
Nadia Tahiri (PhD, Département d'informatique, UQAM)
Titre : Algorithmes bioinformatiques
pour la reconstruction d'arbres consensus et de super-arbres multiples
Résumé : Les arbres phylogénétiques
contiennent des informations importantes caractérisant l'évolution spécifique
des familles de gènes étudiées. Cependant, un arbre consensus d'espèces fiable
ne peut pas être inféré à partir d'un alignement de séquences multiples d'une
famille de gènes unique ou de la concaténation des alignements correspondant à
des familles de gènes ayant des histoires évolutives différentes. Ces histoires
évolutives peuvent différer, par exemple, à cause des transferts horizontaux
subis par certains gènes ou à cause de l'ancienne duplication génique qui
provoque l'émergence de paralogues dans un génome. De nombreuses méthodes ont
été proposées pour déduire un arbre consensus unique pour un ensemble d'arbres
phylogénétiques donné. L'application de ces méthodes classiques peut donc
conduire à la perte d’information sur les histoires évolutives spécifiques qui
caractérisent certaines familles de gènes ou certains groupes de familles de
gènes. Ainsi, la problématique d'inférence des arbres consensus multiples
devient pertinente.
Nous proposons un nouvel
algorithme permettant d’affiner l’inférence d’arbres consensus et de
super-arbres obtenus par regroupement d’arbres phylogénétiques. L’avantage de
notre algorithme par rapport à l’approche classique est que notre algorithme
propose comme solution un ou plusieurs arbres, dépendamment des topologies
d’arbres fournies en entrée. Nous utiliserons l’algorithme des k-moyennes pour
obtenir le partitionnement optimal de l’ensemble d'arbres considérés. Dans un
premier temps, nous validerons notre algorithme sur de nombreux jeux de données
simulées. Enfin, nous appliquerons l'algorithme proposé pour analyser des jeux
de données réelles (biologiques et linguistiques).
Mardi 29 janvier
Henry Xing (Département d'informatique, UQAM)
Titre : Quelques mesures
pertinentes pour calculer la distance entre les communautés d'espèces dans des
réseaux de similarité de séquences
Résumé : L’utilisation de réseaux
de similarité de séquences pour analyser des communautés d'espèces est souvent
préférable à l'utilisation d'arbres phylogénétiques (arbres additifs ou
X-arbres). À la différence des arbres qui montrent un lien de parenté unique,
passant par l'ancêtre commun le plus proche, entre les espèces, les réseaux de
similarité de séquences peuvent représenter des mécanismes évolutifs complexes,
tels que le transfert horizontal de gènes et la recombinaison homologue au
niveau génomique ou génique. Dans cet exposé, nous présenterons cinq nouvelles
mesures de distances entre les différentes communautés d'espèces présentes dans
un réseau de similarité donné, dont une adaptation de la distance UniFrac,
originellement définie pour les arbres phylogénétiques. Les quatre autres
distances sont basées sur le calcul des plus courts chemins entres les nœuds du
réseau. Leur capacité de discrimination sera étudiée.
Mardi 5 février - à 18h au PK-1140 !
Guillaume
Bourque (Professeur, McGill University and Director of Bioinformatics at the McGill University
& Genome Quebec Innovation Center
(MUGQIC))
Titre :
Scalable methods for genomic analyses and the McGill initiative
in Computational Medicine
Résumé :
High-throughput technologies, and in particular next-generation sequencing
(NGS), have been revolutionizing biomedical research by enabling the
characterization of the genetic and epigenetic components of the molecular
processes of the cell with unprecedented resolution. Although these
developments promise to have a significant impact on life sciences and health
care, an immediate challenge is that the current computing infrastructure and
techniques to store, process, analyze and share the vast volumes of data
generated by these platforms frequently represents a major bottleneck. In this
presentation, we will present various components of the scalable
high-performance computing environment that we have put in place to support the
processing of these large datasets. We will also describe some of the software
solutions that we have developed to facilitate large-scale data analysis such
as the Genetics and genomics Analysis Platform (GenAP, www.genap.ca), which
includes open-source data analysis pipelines for whole-genome sequencing, exome
sequencing, transcriptome sequencing, metagenomics. We will also present the
IHEC Data Portal, which collects data for the International Human Epigenome
Consortium (IHEC) and can be used to explore more than 10,000 reference epigenomics
maps. Finally, we will describe a new initiative in Computational Medicine at
McGill.
Mardi 12 février
Jerome Waldispuhl
(Professeur, Department of Computer Science, McGill University)
Titre :
Titre : Des jeux vidéos pour accélérer l'analyse des génomes
Résumé : Avec plus de 2 milliards
d’utilisateurs sur la planète passant en moyenne près de 6 heures par semaine à
jouer, les jeux vidéo attirent une quantité significative de l’activité humaine
et forment un formidable réservoir de productivité. Le développement de jeux
permettant à leurs utilisateurs de contribuer à la résolution de tâches
difficilement réalisables par des ordinateurs a ainsi le potentiel de
révolutionner la capacité mais aussi la compréhension du public du processus de
la recherche scientifique. Je présenterai au cours de cet exposé les
différentes réalisations de mon groupe de recherche dans ce domaine et leçons
que nous avons tirées de ces expériences. En particulier, je présenterai «
Phylo » un puzzle en ligne qui, depuis 2010, a permis à plus de 300 000 internautes de
contribuer à la recherche en génomique en analysant plus de 700 gènes de
manière ludique. Je discuterai ensuite des projets plus récents tels que «
Colony B », un jeu mobile permettant de contribuer à l’analyse des données du
microbiome, mais aussi « Ribo », une extension de « Phylo » dédiée à l’analyse
comparative de séquences d’ARNs.
Mardi 19 février
Mathieu Lavallée-Adam
(Professeur, Institut de Biologie des Systèmes d’Ottawa, Université d’Ottawa)
Titre :
Getting more out of mass spectrometry-based proteomics using supervised
learning approaches and on-the-fly data analysis
Résumé :
Mass spectrometry-based proteomics is widely used to identify proteins in
complex biological samples. Current proteomics approaches generate hundreds of
thousands of mass spectra, yet, on average, only 25% of the mass spectra
acquired in a mass spectrometry experiment are computationally matched to protein
sequences. Furthermore, since this computational matching typically takes place
after mass spectrometry data acquisition, many abundant proteins are analyzed
in excess than what is necessary for a confident identification, leaving little
mass spectrometry time for the analysis of lower abundance proteins. Increasing
protein identification sensitivity is critical to provide a comprehensive
understanding of the underlying biology of complex samples. Protein-protein
interactions contain information that can improve protein identification rate
in mass spectrometry; information that is not used by most current algorithms.
We therefore propose a novel machine learning algorithm that assesses the
confidence of protein identifications using mass spectrometry data features and
confidence scores along with protein-protein interaction data. Our approach is
based on the hypothesis that the confidence of the identification of a given
protein P in a sample increases when proteins interacting with P are also
observed in the same sample. Upon benchmarking against a state-of-the-art
approach, our algorithm identifies more spectra, peptides and proteins at low
false discovery rates. Also, to improve identification sensitivity of low
abundance proteins, we designed a machine learning classifier that evaluates
the reliability of protein identifications on the fly, as mass spectra are
acquired. Proteins that are deemed confidently identified are excluded from
further analysis in real-time, saving mass spectrometry resources for lower
abundance proteins. We show in silico that our approach can identify a similar
number of proteins using significantly less mass spectrometry time than a
traditional proteomics analysis, thereby freeing resources for more protein
identifications. Finally, our algorithms improve our ability to identify
proteins in complex samples and will provide a more comprehensive understanding
of the biological mechanisms of the cell.
Mardi 26
février
La semaine de relâche !
Mardi 5 mars
Golrokh Kiani
(Bioinformaticienne de la platefome CERMO-FC, UQAM)
Titre : In silico approach to identify
evolutionary breakpoints and their associations with cancer rearrangements on
human genome
Résumé :
Genome rearrangement is among major forces that drive the process of evolution,
speciation, population diversity and development of diseases such as in
inherited diseases and cancers. It happens when the DNA breaks in two or more
positions (breakpoints) and reassembles in a way that is different from the
original structure of the genome. In the case where these modifications arrive
in the germinal cells, they can pass to the next generation. If these modifications
are in favor of the individual survival, they will be fixed in the genome and
will be present in a group of contemporary genomes. On the other hand, if these
changes happen in somatic cells they can affect only the individual, which
happens in cases of diseases such as cancer. Many studies indicate an
enrichment of some non-random genomic regions for these types of modifications.
Some regions are more likely to be affected by genomic rearrangements (fragile
regions or breakpoint hot-spots) than others in both cases of evolution and
cancer. Similar characteristics of hot-spots of cancer and evolutionary
breakpoints, as well as previously reported overlaps between evolutionary and
cancer breakpoints raised the following question: Do cancer rearrangements have
a significantly high affinity for evolutionary fragile regions?" So far,
no systematic study has investigated the affinity of cancer rearrangements to
evolutionary breakpoint hot-spots. To answer this question, and to identify
specific characteristics of regions susceptible to rearrangements, a
comparative study is designed based on the method that I have previously
developed during my master's thesis. The pipeline consists of the following
steps: 1) identifying fragile regions, 2) identifying common fragile regions
between the two groups of region, 3) performing a functional profiling study
for each fragile region group and 4) defining a metric that can represent the
affinity of different regions to genomic rearrangements and annotate the genome
of human by this metric.
Mardi 12 mars – séminaire reporté
!!!
Mohamed Ibrahim (Chercheur
post-doctoral, LaCIM, UQAM)
Titre :
Artificial Intelligence (AI) to increase genomic based dairy production
management
Résumé : à venir
Mardi 19 mars
Abdoulaye Baniré Diallo
(Chercheur post-doctoral, LaCIM, UQAM)
Titre :
Bioinformatique et intelligence artificielle : translation vers les services
(un peu de biologie, d’algos, d’apprentissage machine, de classification et
d’IA)
Résumé : Avec les séquençages
massifs des génomes, l’informatique à travers différents algorithmes et
l’intelligence artificielle, les bases de données jouent un rôle inestimable.
L’informatique nous aide également à comprendre les mécanismes de
fonctionnement des génomes et leurs interactions avec l’environnement. Un
nouveau développement apparaît avec l’usage de la bioinformatique et
l’intelligence artificielle pour délivrer des services en santé, agriculture et
environnement, etc. Au cours de cette présentation, je vous présenterai les
principaux enjeux et problèmes, les techniques utilisés pour les résoudre
plusieurs approches dans l’analyse de données massives et l’extraction de
connaissance. Je présenterai aussi les voies qui se mettent en place au Québec
pour supporter la médecine personnalisée et exploiter les données massives.
Mardi 26 mars
Engelbert Mephu Nguifo (Professeur, Blaise Pascal
University, Clermont-Ferrand, France)
Titre : A Novel Computational Approach for Global Alignment
for Multiple Biological Networks
Résumé : Due to the rapid progress of biological networks for modeling biological
systems, a lot of biomolecular networks have been producing more and more
protein-protein interaction (PPI) data. Analyzing protein-protein interaction
(PPI) networks aims to find regions of topological and functional
(dis)similarities between molecular networks of different species. The study of
PPI networks has the potential to teach us as much about life process and
diseases at the molecular level. Although few methods have been developed for
multiple PPI network alignment and thus, new network alignment methods are of a
compelling need. In this talk, I will present a novel algorithm for a global
alignment of multiple protein-protein interaction (PPI) networks called MAPPIN.
The latter relies on information available for the proteins in the networks,
such as sequence, function and network topology. I will also discuss
experimental results of MAPPIN on a real data in terms of coverage and runtime,
compared to the pioneering PPI methods.
Mardi 2 avril
Vladimir Makarenkov (Professeur, Département
d'informatique, UQAM)
Titre : Le
criblage à haut débit : détection et élimination efficaces du biais systématique
Résumé : Le criblage à haut débit
(HTS - High-Throughput Screening, en anglais) est une technologie
moderne de recherche de nouveaux médicaments. La procédure de criblage doit
être largement automatisée pour pouvoir être applicable (plus de 100 000
composés chimiques sont souvent analysés par jour). La qualité des mesures est
primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels
pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs
biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à
des erreurs de manipulation, à des capteurs défectueux, au vieillissement des
composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le
biais systématique pour diminuer son impact sur les mesures expérimentales.
Nous avons crée le logiciel HTS Corrector
qui implémente ces méthodes et présente les résultats de manière chiffrée et
graphique pour mieux visualiser les effets de biais systématiques. Divers
essais des méthodes proposées ont été réalisés sur des données réelles et
simulées en vue de prouver leur efficacité.
Mardi 9 avril
Ahmed Halioui
(Responsable d'ingénierie des connaissances, My Intelligent Machines, MIMs)
Titre :
Extraction de flux de travaux abstraits à partir des textes : application à la
bioinformatique
Résumé : Dans des domaines
techniques comme la bioinformatique, ou la phylogénie, le problème d’acquisition
de connaissances est sujet à plusieurs défis liés au domaine d’application et
aux outils utilisés. Par ailleurs, l’augmentation dramatique de données
génomiques ainsi que la grande diversité des méthodes et modèles informatiques
utilisés lors de l’interface phylogénétique, rendent la tâche de résolution du
problème d’analyse phylogénétique de plus en plus compliquée. Plusieurs
solutions en ligne fournissent des pipelines d’analyses (Phylogeny.fr,
Bioextract.org) semi-automatiques, mais aucune d’elles ne définit de «pratiques
standards» de résolution de problème. Nous proposons un système de fouille de
motifs de flux de travaux phylogénétiques. Ce système est basé sur une
ontologie factologique et processuelle extraite à partir des textes scientifiques
représentant la littérature de l’analyse phylogénétique. La tâche d’acquisition
de l’information phylogénétique en concepts, relations et flux de travaux
servira à enrichir un schéma d’une ontologie. Une fouille de flux de travaux
généralisée est basée sur une telle ontologie décrivant des modèles abstraits
de flux de travaux. Ces modèles serviront à définir une base de connaissances
de «meilleurs» pratiques phylogénétiques dans un système de recommandation.
Mardi 16-23 avril
Les exposés des étudiants