Cours BIF7002 (Séminaire de Bioinformatique)

 

Hiver 2017



Informations pratiques

Enseignant : Vladimir Makarenkov (Local PK-4815, tel 3870).

Locaux et horaires : mardi de 17h30 à 20h30 au PK-4323 (local de séminaire du LaCIM au pavillon Président Kennedy de l’UQAM).

Page web du cours : http://www.info2.uqam.ca/~makarenv/BIF7002/BIF7002.html.

Courriel : makarenkov.vladimir(at)uqam.ca



Fonctionnement du cours

Ce cours sera basé sur des conférences données par des chercheurs dans les disciplines touchant à la bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance d'exposés par les étudiants.



Évaluation

L'évaluation comportera trois parties : une note de présence et de participation (20%), un rapport sur une conférence (40%) et un exposé (40%).

La note de présence et de participation sera basée sur l'assiduité au cours et sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour 20% de la note finale.

Lors de chaque conférence, un étudiant désigné sera chargé de préparer un rapport d'une dizaine de pages, à remettre au plus tard trois semaines après la conférence. Ce rapport, qui devra aussi être remis sous la forme d'une page Web, sera évalué à la base des critères suivants : qualité de la rédaction, maîtrise des aspects scientifiques du problème, apport original (approfondissement des questions soulevées lors des conférences notamment, présentation et critiques de résultats expérimentaux, ...). Il comptera pour 40% de la note finale.

Lors de la dernière séance de la session, chaque équipe d'étudiants effectuera une présentation orale d'une vingtaine de minutes de son rapport, qui comptera pour 40% de la note finale. Les principaux aspects pris en compte dans la notation seront la qualité pédagogique et scientifique de l'exposé.

Vous prouves consulter des exemples des rapports sur la page web suivante :

http://www.info2.uqam.ca/~makarenv/BIF7002/BIF7002_exemples_rapports.html.

 

Calendrier

Mardi 10 janvier

Présentation du cours BIF7002, sélection des conférences.

 

Mardi 17 janvier

Matthieu Willems (PhD, Département d'informatique, UQAM)

Titre : Applications des méthodes phylogénétiques en linguistique

Résumé : Depuis une dizaine d'années, les méthodes d'inférence phylogénétique ont été appliquées avec succès dans le domaine de la linguistique, dans le but de reconstituer l'histoire de l'évolution de certains groupes de langues. Je présenterai tout d'abord les types de données linguistiques utilisées dans ce contexte et les principaux résultats obtenus. Je décrirai ensuite un algorithme d'inférence de réseaux phylogénétiques et ses applications en linguistique.

Présentation de Matthieu Willems

Article de Willems al. 2016 (BMC Evolutionary Biology)

 

Mardi 24 janvier

Vladimir Makarenkov (Professeur, Département d'informatique, UQAM)

Titre : Le criblage à haut débit et les procédures pour détecter et éliminer le biais systématique additif des données de criblage

Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technique efficace pour la recherche de nouveaux médicaments. La procédure de criblage doit être largement automatisée pour pouvoir être applicable (plus de 100 000 composants sont souvent analysés par jour). La qualité des mesures en HTS est primordiale dans la recherche de composés prometteurs (i.e., hits en anglais) qui sont des candidats éventuels pour devenir de nouveaux médicaments. Lors des mesures des échantillons plusieurs erreurs, aléatoires ou systématiques, peuvent se produire. Elles peuvent être dues à des erreurs de manipulation, à des capteurs défectueux, au vieillissement des composants, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger les erreurs systématiques pour en diminuer l’impact sur les mesures, permettant ainsi l'utilisation de données de faible qualité. Pour faciliter l'utilisation de ces méthodes, nous avons crée le logiciel HTS Corrector qui implémente ces méthodes et qui présente les résultats de manière chiffrée ou graphique pour mieux visualiser les effets des erreurs systématiques. Divers essais des méthodes proposées ont été réalisés en vue de prouver leur efficacité sur des données réelles et simulées.

Présentation de V. Makarenkov

Article de Malo et al. 2006 (Nature Biotechnology)

Article de Caraus et. 2015 (Briefings in Bioinformatics)

Le logiciel HTS Corrector (Makarenkov et al. 2006, Bioinformatics)

Rapport de Amel Bouslimi

 

Mardi 31 janvier

Abdoulaye Baniré Diallo (Professeur, Département d'informatique, UQAM)

Titre : Towards bioinformatics as services and without programming

Résumé : In the recent years, several technological advances have been made to move different biological techniques and studies from wet lab to computer analyses and programming. We are observing the emergence of Next Generation Sequencing providing billions of DNA elements from short sequence (less than 50 base pair) to full genomes coverage. These advances paved the way to personalized medicine, single cell genomics, large metagenomic surveys, microbium studies, etc. In fact, astronomic data have been and will be produced from whole genome, expressed genes from genomes regarding to their implication to either experimental, environmental, geospatial, and/or disease related conditions. Researchers and students in different fields of biology, and biochemistry are now often required to exploit these data and technologies to fulfill their studies and training. Besides having good insight in omics data, those people are required to deal with data management, data analysis, simulation and visualization. To this end, they need to develop an expertise in 1) programming with languages such as Perl, Python; 2) in data management such as file formats extraction and transformation, database (myslq, sqlite); 3) in data analyses such as R, Matlab; and 4) in visualization such gplots, R packages, web interfaces, JavaScript, and others. Thus, modeling and performing biological studies through bioinformatics can be a very challenging task. However, the main objective of biologist researchers and trainees is not to be computer scientists but to be a strong biology analyst with a deep knowledge in the fields. To this end, bioinformatics should be a support of the biological study instead of being a challenging part of any biological study.

In this presentation, I will introduce the emerging platforms in bioinformatics as services and cloud computing methods. I will focus on the generalization of such platforms to the life science community by adding several recurrent concepts, integrating data and methods, proposing standard complex solutions through workflows. Unlike most automation tools that required a different level of programming language knowledge, the platforms intend to provide integrated workflows in a Mims platform. These workflows could be designed, run and reused by biologists without any programming background.

Présentation d'Abdoulaye Banire Diallo

 

Rapport de Maude Auger et Claudine Passo

Mardi 7 février

Etienne Lord (PhD, Chercheur post-doctoral, Sciences biologiques, Université de Montréal)

Titre : Application des flux de travaux en bioinformatique

Résumé : L’analyse de grands jeux de données bioinformatiques est fréquemment effectuée à l'aide de langages de programmation tels que R ou Python, ou directement à partir de la ligne de commande. Galaxy, Taverna et Armadillo sont des systèmes de gestion de flux de travaux (ou workflows) couramment utilisés en bioinformatique. Ces systèmes présentent des interfaces utilisateur permettant de créer des patrons de tâches qui peuvent être répétées, permettant la transmission et la reproduction de simulations in silico. Récemment, Galaxy est devenu le système de gestion de workflows le plus populaire, principalement du à ses extensions et sa facilité d’utilisation, bien que le système de gestion Armadillo, développé à l’UQAM, présente plus d’outils phylogénétiques. Premièrement, une vue d’ensemble des systèmes de workflows en bioinformatique sera présentée. Deuxièmement, une stratégie de regroupement et de comparaison de flux de travaux à l’aide des K-means et K-medoids sera introduite. Finalement, les défis futurs des systèmes de gestion de flux de travaux seront abordés.

Présentation de E. Lord

 

Mardi 14 février

Mohamed Amine Remita (Département d'informatique, UQAM)

Titre : Classification des séquences génomiques virales par une approche d’apprentissage automatique

Résumé : Les nouvelles technologies de clonage et de séquençage ont permis de séquencer les génomes de milliers de virus. La classification des séquences génomiques virales est importante pour la découverte des variabilités génomiques, des caractéristiques taxonomiques et des mécanismes pathologiques. Les méthodes de classification existantes sont souvent conçues pour une famille de virus bien étudiée. Ainsi, les études de génomique comparative virale pourraient bénéficier d'outils plus génériques, rapides et précis pour la classification et le typage de nouvelles souches séquencées de diverses familles de virus. Nous présentons, ici, CASTOR, une nouvelle plateforme de classification efficace et rapide des virus. CASTOR est basé sur l'apprentissage automatique supervisé et elle s'inspire de la technique du polymorphisme de longueur des fragments de restriction (RFLP) pour la construction des vecteurs d’attributs. Nous avons évalué CASTOR dans la classification du papillomavirus humain (VPH), du virus de l'hépatite B (VHB) et du virus de l'immunodéficience humaine de type 1 (VIH-1). Les résultats révèlent des taux de vrais positifs de 99%, 99% et 98% dans la classification des espèces Alpha du VPH, les génotypes du VHB et le sous-types du groupe M du VIH-1, respectivement. En outre, CASTOR montre une performance compétitive comparé aux prédicteurs dédiés à la classification du VIH (REGA et COMET). La plateforme CASTOR (http://castor.bioinfo.uqam.ca) est conçue pour faciliter la réutilisation, le partage et la reproductibilité des expériences de la classification.

Présentation de A. Remita

Rapport de Radia Benmiloud et Ehsan Seyed Javad

 

Mardi 21 février

Nadia Tahiri (Département d'informatique, UQAM)

Titre : Algorithmes bioinformatiques pour la reconstruction d'arbres consensus et de super-arbres multiples

Résumé : Un des enjeux actuels en biologie comparative est l'inférence d'un arbre phylogénétique (i.e. arbre additif ou X-arbre) de l'ensemble de toutes les espèces. L’implémentation d'un projet mondial nommé «Tree of Life» (ToF) visant à la reconstruction de l’arbre phylogénétique du vivant a nécessité la collaboration de plusieurs équipes de recherche à travers le monde. L’approche adoptée par ToF consiste à réduire récursivement le problème de reconstruction de l’Arbre de Vie en plusieurs sous-problèmes puis à fusionner les résultats aboutissant ainsi à l'inférence d'un arbre consensus ou d'un super-arbre. L'approche classique aboutit, dans tous les cas, à un arbre phylogénétique unique perdant ainsi des informations pertinentes. Nous proposons donc un nouvel algorithme permettant d’affiner l’inférence d’arbres consensus et de super-arbres obtenus par regroupement d’arbres phylogénétiques. L’avantage de notre approche par rapport à l’approche classique est que notre algorithme propose comme solution un ou plusieurs arbres dépendamment des topologies d’arbres fournies en entrée. Nous utilisons l’algorithme des k-moyennes pour obtenir le partitionnement optimal de l’ensemble des arbres considérés. Dans un premier temps, nous validerons la performance de notre stratégie sur de nombreux jeux de données simulées (i.e. en ayant une connaissance a priori des données). Enfin, nous appliquerons l'algorithme proposé pour analyser de nombreux jeux de données réelles (biologique et linguistique).

Présentation de Nadia Tahiri

Rapport de Hélène Dion-Phénix et Ilhem Meniaï

 

Mardi 28 février

La semaine de relâche !

 

Mardi 7 mars

Bogdan Mazoure (McGill University)

Titre : Detecting and removing spatial bias in high-throughput screening technologies

Résumé : Recently, considerable attention has been paid to improve data quality in modern screening technologies related with drug discovery process. The modern pharmaceutical industry has strong ties with high-throughput screening (HTS) and high-content screening (HCS) technologies. Data obtained using these screening techniques are exposed to several environmental and procedural biases. These biases introduce errors into the hit identification process. In the past decades, very effective error correction methods and software have been designed to minimize the influence of spatial bias in experimental HTS and HCS. However, high-throughput screening data can have bias of additive and multiplicative nature. It is therefore important to first identify the correct bias model (if any) in the data, and then remove the spatial bias with the appropriate technique. The talk will cover the spatial bias identification and correction methodologies, as applied to the ChemBank small-molecule data base.

Présentation de Bogdan Mazoure

 

Mardi 14 mars - au PK-4610

Virginie Calderon (PhD, Institut de recherches cliniques de Montréal, IRCM)

Titre : Analysis of viral variant spectra provides evidence for early in utero transmission of hepatitis C virus from mother to child

Résumé : HCV can be transmitted from mother to child during pregnancy and childbirth. However, timing of transmission and HCV quasispecies dynamics remain incompletely understood. HCV E2 envelope sequences were generated using NGS performed on serum samples obtained from 5 HCV-infected women (including 3 co-infected with HIV-1) and their HCV-infected children aged <1 year. Median joining networks (MJN) were computed for each of the mother-child pairs (Network v4.612) and Bayesian Markov chain Monte Carlo simulations (BEAST v2) were used to estimate the timing of transmission. MJN analysis of mother-child pairs revealed that at one year of life, the HCV quasispecies in the child had not significantly diverged from that of the mother (highly connected graphs). In co-infected mothers, transmission was estimated to have occurred between 15.8-37.0 weeks of gestation. Timing was 23.3-37.1 weeks in the case of mothers infected with HCV alone. These results yield new insight into quasispecies evolution in vertically-infected children, and provide direct evidence that in utero transmission of HCV from mother to child can occur comparatively early during pregnancy.

Présentation de Virginie Calderon

 

Mardi 21 mars

Alexandre Gondeau (Département d'informatique, UQAM)

Titre : K-moyennes, revue de détails et applications en bioinformatique

Résumé : Cette présentation sera l’occasion d’une introduction à l’algorithme des k-moyennes pour le partitionnement de données. Ainsi, nous verrons les implémentations standards, les variantes existantes et je vous présenterai une nouvelle approche basée sur la pondération des objets issue de mes présentes recherches. Pour finir, nous verrons les applications des k-moyennes dans le domaine de la bioinformatique et comment elles peuvent être utilisées, combinées avec les modèles de Markov cachés, pour la séparation de séquences biologiques.

 

Mardi 28 mars

Malick Diouara (PhD, Chercheur post-doctoral, Département d'informatique, UQAM)

Titre : Dynamique de l'épidémiologie moléculaire du VIH-1

Résumé : L’une des caractéristiques du virus de l’immunodéficience humaine (VIH) est sa grande variabilité génétique. Celle-ci a plusieurs implications clinico-biologiques et impacte directement divers aspects de la prise en charge de l’infection. Outre la distribution géographique hétérogène des sous-types viraux et même au sein des populations, l’épidémiologie moléculaire du VIH reste fortement associée aux facteurs sociodémographiques, migratoires et comportementaux. Par conséquent, une meilleure connaissance des flux de propagation ou dynamique spatiotemporelle des souches virales est d’un intérêt majeur pour la santé publique. Durant mon exposé, je passerai en revu la diversité génétique du VIH, les causes et implications. Dans un second temps, je présenterai l’épidémiologie moléculaire globale, puis une étude de cas de distribution géographique et de la dynamique des sous-types du VIH-1 sur 25 ans.

 

Mardi 4 avril

Golrokh Kiani (Département des sciences biologiques, UQAM)

Titre : In silico approach to identify evolutionary breakpoints and their associations with cancer rearrangements on human genome

Résumé : Several genomic regions have been associated to synteny breaks during genome evolution (evolutionary breakpoints or EBRs). Cancer breakpoints (CBRs) data overlap with EBRs. Hence, there is a need for a systematic method to predict CBRs affinities for EBRs. In this study, given the human 44-way alignment of ENCODE project and the corresponding species tree, we developed an original LCA predictor for EBRs and a statistical framework to predict enriched genomic region for CBRs. We identified syntenic regions along human genome. One-third of these regions are concentrated on only chromosomes 1, 2, 3 and 4. We predicted 261,391 human lineage-specific EBRs with different ancestral origins covering more than 50% of the human genome. Then, we collected 73,252 CBRs from previously published studies. With a statistical framework, we assessed the affinity of CBRs for EBRs. To this end, we designed a generative model for CBRs within the human genome, and performed 1000 simulations with an empiric CBR size distribution model. These EBRs are associated with genes such as DPYD, RYR1 and PCDH15. Further analyses will be performed to classify the different types of EBRs and CBRs association and their functional annotations.

 

Mardi 18-25 avril

Les exposés des étudiants