Cours BIF7002 (Séminaire de Bioinformatique)

Hiver 2019

Informations pratiques

Enseignant : Abdoulaye Baniré Diallo et Vladimir Makarenkov!

Locaux et horaires : mardi de 17h30 à 20h30 au PK-4323 (local de séminaire du LaCIM au pavillon Président Kennedy de l’UQAM).

Page web du cours : http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002.html.

Courriel : diallo.abdoulaye(at)uqam.ca et makarenkov.vladimir(at)uqam.ca

Fonctionnement du cours

Ce cours sera basé sur des conférences données par des chercheurs dans les disciplines touchant à la bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance d'exposés par les étudiants.

Évaluation

L'évaluation comportera trois parties : une note de présence et de participation (20%), un rapport sur une conférence (40%) et un exposé (40%).

La note de présence et de participation sera basée sur l'assiduité au cours et sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour 20% de la note finale.

Après chaque conférence, une équipe d'étudiants désignée sera chargée de préparer un rapport d'une dizaine de pages, à remettre au plus tard trois semaines après la conférence. Ce rapport, qui devra aussi être remis sous la forme d'une page Web, sera évalué à la base des critères suivants : la qualité de la rédaction, la maîtrise des aspects scientifiques du problème, l'apport original (approfondissement des questions soulevées lors des conférences notamment, présentation et critiques de résultats expérimentaux, etc). Il comptera pour 40% de la note finale.

Lors de la dernière séance de la session, chaque équipe d'étudiants effectuera une présentation orale, d'une vingtaine de minutes, de son rapport, qui comptera pour 40% de la note finale. Les principaux aspects pris en compte dans la notation seront la qualité pédagogique et scientifique de l'exposé.

Vous prouves consulter des exemples des rapports sur la page web suivante :

http://www.info2.uqam.ca/~makarenkov_v/BIF7002/BIF7002_exemples_rapports.html.

Calendrier

Mardi 8 janvier

Présentation du cours BIF7002, sélection des conférences.

Mardi 15 janvier

Valérie Hay (Senior data analyst at Caprion Biosciences, Montréal, Canada)

Titre : Détection des transferts linguistiques à l’aide des outils bioinformatiques

Résumé : La phylogénie et la linguistique sont des domaines apparemment opposés, mais plusieurs auteurs ont établi le parallèle entre ces deux sciences : l’évolution des gènes et des langues. L’évolution des gènes, autant que des langues, peut être représentée par des arbres phylogénétiques et leurs histoires évolutives expliquées par des transferts, des hybridations ou des changements ponctuels. La phylogénie et la reconstruction des évènements génétiques menant aux espèces contemporaines est toujours d’actualité, surtout avec le travail colossal de la construction de l’histoire phylogénétique de toutes les espèces du projet ‘Arbre de vie’ (Tree of Life) et la publication de la version 3 du site web associé à ce projet.

Dans la littérature, plusieurs outils bioinformatiques développés pour la phylogénie ont été adaptés pour leur utilisation dans la reconstruction de l’histoire des langues. Un des premiers exemples fut la reconstitution de l’arbre des langues Indo-Européennes par Gray et Atkinson en 2003. Dans le but de développer un nouvel outil informatique pour l’étude des langues, mon projet de maîtrise est l’adaptation de l’algorithme développé par Boc et ses collaborateurs et publié en 2010.

D’après l’article de Boc, l’algorithme a été conçu afin d’identifier les transferts latéraux de séquences génétiques d’une espèce bactérienne à une autre. L’identification de séquences transférées peut être conceptualisée comme le transfert de mots d’une langue vers une autre langue. Nous avons donc construit un jeu de données de transferts positifs et déterminé les paramètres optimaux pour la détection des transferts de mots. En combinant les paramètres optimaux et l’algorithme de Boc, nous espérons pouvoir confirmer les transferts de mots déjà identifiés et faire de nouvelles associations pour l’identification de nouveaux transferts linguistiques.

Présentation de Valérie Hay

INDO-EUROPEAN LEXICAL COGNACY DATABASE

La base de données des transferts de mots sur T-Rex

Mardi 22 janvier

Nadia Tahiri (PhD, Département d'informatique, UQAM)

Titre : Algorithmes bioinformatiques pour la reconstruction d'arbres consensus et de super-arbres multiples

Résumé : Les arbres phylogénétiques contiennent des informations importantes caractérisant l'évolution spécifique des familles de gènes étudiées. Cependant, un arbre consensus d'espèces fiable ne peut pas être inféré à partir d'un alignement de séquences multiples d'une famille de gènes unique ou de la concaténation des alignements correspondant à des familles de gènes ayant des histoires évolutives différentes. Ces histoires évolutives peuvent différer, par exemple, à cause des transferts horizontaux subis par certains gènes ou à cause de l'ancienne duplication génique qui provoque l'émergence de paralogues dans un génome. De nombreuses méthodes ont été proposées pour déduire un arbre consensus unique pour un ensemble d'arbres phylogénétiques donné. L'application de ces méthodes classiques peut donc conduire à la perte d’information sur les histoires évolutives spécifiques qui caractérisent certaines familles de gènes ou certains groupes de familles de gènes. Ainsi, la problématique d'inférence des arbres consensus multiples devient pertinente.

Nous proposons un nouvel algorithme permettant d’affiner l’inférence d’arbres consensus et de super-arbres obtenus par regroupement d’arbres phylogénétiques. L’avantage de notre algorithme par rapport à l’approche classique est que notre algorithme propose comme solution un ou plusieurs arbres, dépendamment des topologies d’arbres fournies en entrée. Nous utiliserons l’algorithme des k-moyennes pour obtenir le partitionnement optimal de l’ensemble d'arbres considérés. Dans un premier temps, nous validerons notre algorithme sur de nombreux jeux de données simulées. Enfin, nous appliquerons l'algorithme proposé pour analyser des jeux de données réelles (biologiques et linguistiques).

Présentation de Nadia Tahiri

Article de Nadia Tahiri

Mardi 29 janvier

Henry Xing (Département d'informatique, UQAM)

Titre : Quelques mesures pertinentes pour calculer la distance entre les communautés d'espèces dans des réseaux de similarité de séquences

Résumé : L’utilisation de réseaux de similarité de séquences pour analyser des communautés d'espèces est souvent préférable à l'utilisation d'arbres phylogénétiques (arbres additifs ou X-arbres). À la différence des arbres qui montrent un lien de parenté unique, passant par l'ancêtre commun le plus proche, entre les espèces, les réseaux de similarité de séquences peuvent représenter des mécanismes évolutifs complexes, tels que le transfert horizontal de gènes et la recombinaison homologue au niveau génomique ou génique. Dans cet exposé, nous présenterons cinq nouvelles mesures de distances entre les différentes communautés d'espèces présentes dans un réseau de similarité donné, dont une adaptation de la distance UniFrac, originellement définie pour les arbres phylogénétiques. Les quatre autres distances sont basées sur le calcul des plus courts chemins entres les nœuds du réseau. Leur capacité de discrimination sera étudiée.

Présentation de Henry Xing

Mardi 5 février - à 18h au PK-1140 !

Guillaume Bourque (Professeur, McGill University and Director of Bioinformatics at the McGill University & Genome Quebec Innovation Center (MUGQIC))

Titre : Scalable methods for genomic analyses and the McGill initiative in Computational Medicine

Résumé : High-throughput technologies, and in particular next-generation sequencing (NGS), have been revolutionizing biomedical research by enabling the characterization of the genetic and epigenetic components of the molecular processes of the cell with unprecedented resolution. Although these developments promise to have a significant impact on life sciences and health care, an immediate challenge is that the current computing infrastructure and techniques to store, process, analyze and share the vast volumes of data generated by these platforms frequently represents a major bottleneck. In this presentation, we will present various components of the scalable high-performance computing environment that we have put in place to support the processing of these large datasets. We will also describe some of the software solutions that we have developed to facilitate large-scale data analysis such as the Genetics and genomics Analysis Platform (GenAP, www.genap.ca), which includes open-source data analysis pipelines for whole-genome sequencing, exome sequencing, transcriptome sequencing, metagenomics. We will also present the IHEC Data Portal, which collects data for the International Human Epigenome Consortium (IHEC) and can be used to explore more than 10,000 reference epigenomics maps. Finally, we will describe a new initiative in Computational Medicine at McGill.

Mardi 12 février

Jerome Waldispuhl (Professeur, Department of Computer Science, McGill University)

Titre : Titre : Des jeux vidéos pour accélérer l'analyse des génomes

Résumé : Avec plus de 2 milliards d’utilisateurs sur la planète passant en moyenne près de 6 heures par semaine à jouer, les jeux vidéo attirent une quantité significative de l’activité humaine et forment un formidable réservoir de productivité. Le développement de jeux permettant à leurs utilisateurs de contribuer à la résolution de tâches difficilement réalisables par des ordinateurs a ainsi le potentiel de révolutionner la capacité mais aussi la compréhension du public du processus de la recherche scientifique. Je présenterai au cours de cet exposé les différentes réalisations de mon groupe de recherche dans ce domaine et leçons que nous avons tirées de ces expériences. En particulier, je présenterai « Phylo » un puzzle en ligne qui, depuis 2010, a permis à plus de 300 000 internautes de contribuer à la recherche en génomique en analysant plus de 700 gènes de manière ludique. Je discuterai ensuite des projets plus récents tels que « Colony B », un jeu mobile permettant de contribuer à l’analyse des données du microbiome, mais aussi « Ribo », une extension de « Phylo » dédiée à l’analyse comparative de séquences d’ARNs.

Rapport de Robert Langlois

Mardi 19 février

Mathieu Lavallée-Adam (Professeur, Institut de Biologie des Systèmes d’Ottawa, Université d’Ottawa)

Titre : Getting more out of mass spectrometry-based proteomics using supervised learning approaches and on-the-fly data analysis

Résumé : Mass spectrometry-based proteomics is widely used to identify proteins in complex biological samples. Current proteomics approaches generate hundreds of thousands of mass spectra, yet, on average, only 25% of the mass spectra acquired in a mass spectrometry experiment are computationally matched to protein sequences. Furthermore, since this computational matching typically takes place after mass spectrometry data acquisition, many abundant proteins are analyzed in excess than what is necessary for a confident identification, leaving little mass spectrometry time for the analysis of lower abundance proteins. Increasing protein identification sensitivity is critical to provide a comprehensive understanding of the underlying biology of complex samples. Protein-protein interactions contain information that can improve protein identification rate in mass spectrometry; information that is not used by most current algorithms. We therefore propose a novel machine learning algorithm that assesses the confidence of protein identifications using mass spectrometry data features and confidence scores along with protein-protein interaction data. Our approach is based on the hypothesis that the confidence of the identification of a given protein P in a sample increases when proteins interacting with P are also observed in the same sample. Upon benchmarking against a state-of-the-art approach, our algorithm identifies more spectra, peptides and proteins at low false discovery rates. Also, to improve identification sensitivity of low abundance proteins, we designed a machine learning classifier that evaluates the reliability of protein identifications on the fly, as mass spectra are acquired. Proteins that are deemed confidently identified are excluded from further analysis in real-time, saving mass spectrometry resources for lower abundance proteins. We show in silico that our approach can identify a similar number of proteins using significantly less mass spectrometry time than a traditional proteomics analysis, thereby freeing resources for more protein identifications. Finally, our algorithms improve our ability to identify proteins in complex samples and will provide a more comprehensive understanding of the biological mechanisms of the cell.

Rapport de Bouchra Ouled Amar Bencheikh et Linda Tchombé Nwegang

Mardi 26 février

La semaine de relâche !

Mardi 5 mars

Golrokh Kiani (Bioinformaticienne de la platefome CERMO-FC, UQAM)

Titre : In silico approach to identify evolutionary breakpoints and their associations with cancer rearrangements on human genome

Résumé : Genome rearrangement is among major forces that drive the process of evolution, speciation, population diversity and development of diseases such as in inherited diseases and cancers. It happens when the DNA breaks in two or more positions (breakpoints) and reassembles in a way that is different from the original structure of the genome. In the case where these modifications arrive in the germinal cells, they can pass to the next generation. If these modifications are in favor of the individual survival, they will be fixed in the genome and will be present in a group of contemporary genomes. On the other hand, if these changes happen in somatic cells they can affect only the individual, which happens in cases of diseases such as cancer. Many studies indicate an enrichment of some non-random genomic regions for these types of modifications. Some regions are more likely to be affected by genomic rearrangements (fragile regions or breakpoint hot-spots) than others in both cases of evolution and cancer. Similar characteristics of hot-spots of cancer and evolutionary breakpoints, as well as previously reported overlaps between evolutionary and cancer breakpoints raised the following question: Do cancer rearrangements have a significantly high affinity for evolutionary fragile regions?" So far, no systematic study has investigated the affinity of cancer rearrangements to evolutionary breakpoint hot-spots. To answer this question, and to identify specific characteristics of regions susceptible to rearrangements, a comparative study is designed based on the method that I have previously developed during my master's thesis. The pipeline consists of the following steps: 1) identifying fragile regions, 2) identifying common fragile regions between the two groups of region, 3) performing a functional profiling study for each fragile region group and 4) defining a metric that can represent the affinity of different regions to genomic rearrangements and annotate the genome of human by this metric.

Présentation de Golrokh Kiani

Rapport de Meriem Chergui et Sonia Alexandra Tchogna

Mardi 12 mars – séminaire reporté !!!

Mohamed Ibrahim (Chercheur post-doctoral, LaCIM, UQAM)

Titre : Artificial Intelligence (AI) to increase genomic based dairy production management

Résumé : à venir

Mardi 19 mars

Abdoulaye Baniré Diallo (Chercheur post-doctoral, LaCIM, UQAM)

Titre : Bioinformatique et intelligence artificielle : translation vers les services (un peu de biologie, d’algos, d’apprentissage machine, de classification et d’IA)

Résumé : Avec les séquençages massifs des génomes, l’informatique à travers différents algorithmes et l’intelligence artificielle, les bases de données jouent un rôle inestimable. L’informatique nous aide également à comprendre les mécanismes de fonctionnement des génomes et leurs interactions avec l’environnement. Un nouveau développement apparaît avec l’usage de la bioinformatique et l’intelligence artificielle pour délivrer des services en santé, agriculture et environnement, etc. Au cours de cette présentation, je vous présenterai les principaux enjeux et problèmes, les techniques utilisés pour les résoudre plusieurs approches dans l’analyse de données massives et l’extraction de connaissance. Je présenterai aussi les voies qui se mettent en place au Québec pour supporter la médecine personnalisée et exploiter les données massives.

Rapport de Rafik Madjdi Chemli

Mardi 26 mars

Engelbert Mephu Nguifo (Professeur, Blaise Pascal University, Clermont-Ferrand, France)

Titre : A Novel Computational Approach for Global Alignment for Multiple Biological Networks

Résumé : Due to the rapid progress of biological networks for modeling biological systems, a lot of biomolecular networks have been producing more and more protein-protein interaction (PPI) data. Analyzing protein-protein interaction (PPI) networks aims to find regions of topological and functional (dis)similarities between molecular networks of different species. The study of PPI networks has the potential to teach us as much about life process and diseases at the molecular level. Although few methods have been developed for multiple PPI network alignment and thus, new network alignment methods are of a compelling need. In this talk, I will present a novel algorithm for a global alignment of multiple protein-protein interaction (PPI) networks called MAPPIN. The latter relies on information available for the proteins in the networks, such as sequence, function and network topology. I will also discuss experimental results of MAPPIN on a real data in terms of coverage and runtime, compared to the pioneering PPI methods.

Présentation d'Engelbert Mephu Nguifo

Mardi 2 avril

Vladimir Makarenkov (Professeur, Département d'informatique, UQAM)

Titre : Le criblage à haut débit : détection et élimination efficaces du biais systématique

Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technologie moderne de recherche de nouveaux médicaments. La procédure de criblage doit être largement automatisée pour pouvoir être applicable (plus de 100 000 composés chimiques sont souvent analysés par jour). La qualité des mesures est primordiale pour la recherche de composés prometteurs (i.e., hits), qui sont des candidats éventuels pour devenir de nouveaux médicaments. Lors de la prise des mesures, plusieurs biais, aléatoires ou systématiques, peuvent se produire. Ils peuvent être dus à des erreurs de manipulation, à des capteurs défectueux, au vieillissement des composés, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger le biais systématique pour diminuer son impact sur les mesures expérimentales. Nous avons crée le logiciel HTS Corrector qui implémente ces méthodes et présente les résultats de manière chiffrée et graphique pour mieux visualiser les effets de biais systématiques. Divers essais des méthodes proposées ont été réalisés sur des données réelles et simulées en vue de prouver leur efficacité.

Mardi 9 avril

Ahmed Halioui (Responsable d'ingénierie des connaissances, My Intelligent Machines, MIMs)

Titre : Extraction de flux de travaux abstraits à partir des textes : application à la bioinformatique

Résumé : Dans des domaines techniques comme la bioinformatique, ou la phylogénie, le problème d’acquisition de connaissances est sujet à plusieurs défis liés au domaine d’application et aux outils utilisés. Par ailleurs, l’augmentation dramatique de données génomiques ainsi que la grande diversité des méthodes et modèles informatiques utilisés lors de l’interface phylogénétique, rendent la tâche de résolution du problème d’analyse phylogénétique de plus en plus compliquée. Plusieurs solutions en ligne fournissent des pipelines d’analyses (Phylogeny.fr, Bioextract.org) semi-automatiques, mais aucune d’elles ne définit de «pratiques standards» de résolution de problème. Nous proposons un système de fouille de motifs de flux de travaux phylogénétiques. Ce système est basé sur une ontologie factologique et processuelle extraite à partir des textes scientifiques représentant la littérature de l’analyse phylogénétique. La tâche d’acquisition de l’information phylogénétique en concepts, relations et flux de travaux servira à enrichir un schéma d’une ontologie. Une fouille de flux de travaux généralisée est basée sur une telle ontologie décrivant des modèles abstraits de flux de travaux. Ces modèles serviront à définir une base de connaissances de «meilleurs» pratiques phylogénétiques dans un système de recommandation.

Mardi 16-23 avril

Les exposés des étudiants