Cours BIF7002 (Séminaire de Bioinformatique)

 

Hiver 2016



Informations pratiques

Enseignant : Vladimir Makarenkov (Local PK-4815, tel 3870).

Locaux et horaires : mardi de 17h30 à 20h30 au PK-4323 (local de séminaire du LaCIM au pavillon Président Kennedy de l’UQAM).

Page web du cours : http://www.info2.uqam.ca/~makarenv/BIF7002/BIF7002.html.

Courriel : makarenkov.vladimir(at)uqam.ca



Fonctionnement du cours

Ce cours sera basé sur des conférences données par des chercheurs dans les disciplines touchant à la bioinformatique : informatique, mathématiques, biologie et biochimie. Le cours comprendra les conférences (voir le calendrier ci-dessous) suivies d’une séance d'exposés par les étudiants.



Évaluation

L'évaluation comportera trois parties : une note de présence et de participation (20%), un rapport sur une conférence (40%) et un exposé (40%).

La note de présence et de participation sera basée sur l'assiduité au cours et sur l'animation (questions ou discussions pertinentes, ...). Elle comptera pour 20% de la note finale.

Lors de chaque conférence, un étudiant désigné sera chargé de préparer un rapport d'une dizaine de pages, à remettre au plus tard trois semaines après la conférence. Ce rapport, qui devra aussi être remis sous la forme d'une page Web, sera évalué à la base des critères suivants : qualité de la rédaction, maîtrise des aspects scientifiques du problème, apport original (approfondissement des questions soulevées lors des conférences notamment, présentation et critiques de résultats expérimentaux, ...). Il comptera pour 40% de la note finale.

Lors de la dernière séance de la session, chaque équipe d'étudiants effectuera une présentation orale d'une vingtaine de minutes de son rapport, qui comptera pour 40% de la note finale. Les principaux aspects pris en compte dans la notation seront la qualité pédagogique et scientifique de l'exposé.

Vous prouves consulter des exemples des rapports sur la page web suivante :

http://www.info2.uqam.ca/~makarenv/BIF7002/BIF7002_exemples_rapports.html.

 

Calendrier

Mardi 12 janvier

Présentation du cours BIF7002, sélection des conférences.

Mardi 19 janvier

Vladimir Makarenkov (Professeur, Département d'informatique, UQAM)

Titre : Détection et élimination de l'erreur systématique lors du processus de criblage à haut débit

Résumé : Le criblage à haut débit (HTS - High-Throughput Screening, en anglais) est une technique efficace pour la recherche de nouveaux médicaments. La procédure de criblage doit être largement automatisée pour pouvoir être applicable (plus de 100 000 composants sont souvent analysés par jour). La qualité des mesures en HTS est primordiale dans la recherche de composés prometteurs (i.e., hits en anglais) qui sont des candidats éventuels pour devenir de nouveaux médicaments. Lors des mesures des échantillons plusieurs erreurs, aléatoires ou systématiques, peuvent se produire. Elles peuvent être dues à des erreurs de manipulation, à des capteurs défectueux, au vieillissement des composants, etc. Les méthodes que nous avons proposées, appelées Background correction et Well correction, cherchent à corriger les erreurs systématiques pour en diminuer l’impact sur les mesures, permettant ainsi l'utilisation de données de faible qualité. Pour faciliter l'utilisation de ces méthodes, nous avons crée le logiciel HTS Corrector qui implémente ces méthodes et qui présente les résultats de manière chiffrée ou graphique pour mieux visualiser les effets des erreurs systématiques. Divers essais des méthodes proposées ont été réalisés en vue de prouver leur efficacité sur des données réelles et simulées.

Présentation de V. Makarenkov

Article de Malo et al. 2006 (Nature Biotechnology)

Article de Caraus et. 2015 (Briefings in Bioinformatics)

Le logiciel HTS Corrector (Makarenkov et al. 2006, Bioinformatics)

Rapport d'Antoine Dallaire et Logan Schwartz

 

Mardi 26 janvier

Etienne Lord (Chercheur post-doctoral, Sciences biologiques, Université de Montréal)

Titre : Flux de travaux, leur classification et leurs applications en bioinformatique

Résumé : Cette présentation servira de modèle de démonstration de l’utilisation de flux de travaux (workflows) en bioinformatique. La plupart des études de grande envergure en sciences emploient des langages de programmation de type script pour leur réalisation. Cependant, l’utilisation d’une telle méthodologie limite la reproductibilité de ces études. Les flux de travaux consistent en des patrons de tâches pouvant être répétés, permettant ainsi une reproduction des conditions expérimentales pour les expériences in silico. Premièrement, nous présenterons une nouvelle plate-forme de flux de travaux, Armadillo, adaptée à l’analyse bioinformatique. Deuxièmement, une nouvelle stratégie de comparaison de flux de travaux et de leur classification à l’aide d’algorithmes de type k-means et k-medoids pondérés sera introduite. Un nouveau critère de support de chacun des flux de travaux dans cette classification sera aussi présenté. Troisièmement, une application de flux de travaux phylogénétiques conçus et exécutés à l’aide de la plate-forme Armadillo servira à illustrer l’utilité d’une telle plate-forme pour la recherche scientifique.

Présentation de E. Lord

Article sur le logiciel Armadillo (PLOS ONE)

Article sur la classification de flux de travaux en bioinformatique (BMC Bioinformatics)

Rapport d'Souad Bounahas et Mohamed El Bartouli

 

Mardi 2 février

Mohamed Amine Remita (Département d'informatique, UQAM)

Titre : CASTOR : Une approche originale pour la classification des séquences génomiques

Résumé : Le séquençage à haut débit a permis de séquencer les génomes de milliers de virus. Chaque souche virale nouvellement séquencée doit être classée et génotypée afin de déceler son pouvoir pathogène ou cancérigène. Les techniques de génotypage actuelles issues de la biologie moléculaire (hybridation, RFLP, PCR, etc.) ou de la bioinformatique (alignement de séquences et phylogénie, etc.) sont couteuses en termes d’argent, de temps et de ressources. Nous avons développé CASTOR, une approche efficace et rapide de classification des séquences génomiques basée sur l’apprentissage supervisé et sur la technique de biologie moléculaire RFLP. Cette approche est indépendante de la structure et de la fonction des séquences nucléotidiques. CASTOR est implémenté dans une plateforme web conçue pour faciliter la réutilisation, le partage et la reproductibilité des expériences de la classification.

Présentation de A. Remita

Le logiciel Castor

Rapport d'Alexandre Gondeau et Christopher Carmona

 

Mardi 9 février

Pierre Legendre (Professeur, Sciences biologiques, Université de Montréal)

Titre : Partitionner la diversité bêta en écologie et en génétique du paysage

Résumé : La diversité bêta est la variation de la composition en espèces entre les sites dans une région géographique donnée. On peut la mesurer de différentes façons. Parmi les équations disponibles, la variance totale du tableau de communauté Y estime correctement la diversité bêta des données. Nous montrerons que la variance totale de Y peut être calculée directement, ou encore à travers une matrice de dissimilarité écologique. Cette mesure peut être généralisée à toute forme de dissimilarité utilisée en écologie des communautés. Pour découvrir quelles fonctions de dissimilarité peuvent être utiles dans les études de diversité bêta, nous avons étudié 14 propriétés statistiques de 16 indices de dissimilarité couramment utilisés par les écologistes. Cette analyse montre l’existence de cinq groupes d’indices ; trois de ces groupes totalisant 11 indices sont adéquats pour les études de diversité bêta. La variance totale de Y relie le concept de diversité bêta aux analyses de données de communautés par les méthodes usuelles telles que l’ordination et l’analyse de variance. La diversité bêta peut être partitionnée en contributions des sites (les indices LCBD sont des indicateurs comparatifs de l’unicité des sites) et contribution des espèces à la diversité bêta (les indices SCBD mesurent la variance des espèces individuelles). Les indices LCBD peuvent être testés statistiquement. Des valeurs élevées de LCBD identifient les sites qui ont une composition spéciale en espèces et donc une forte valeur de conservation, ou des sites dégradés qui ont besoin d’être restaurés. La diversité bêta peut également être partitionnée en variation intragroupe et intergroupe par analyse de variance multivariable (MANOVA), en axes orthogonaux par ordination, en différentes échelles spatiales par analyse des vecteurs propres spatiaux, ou entre plusieurs tableaux de données explicatives par partition de la variation. Les indices LCBD peuvent aussi être calculés pour des données génétiques, par l’entremise des distances génétiques, dans les études de génétique du paysage. Des fonctions R pour le calcul des nouveaux indices sont disponibles sur la page Web http://adn.biol.umontreal.ca/~numericalecology/FonctionsR/.

Référence

Legendre, P. and M. De Cáceres. 2013. Beta diversity as the variance of community data: dissimilarity coefficients and partitioning. Ecology Letters 16: 951-963.

Mardi 16 février

Nadia Tahiri (Département d'informatique, UQAM)

Titre : Nouveaux algorithmes pour la reconstruction d'arbres consensus et de super-arbres multiples

Résumé : Nous présenterons de nouveaux algorithmes permettant d’affiner l’inférence d’arbres consensus et de super-arbres obtenus par regroupement d’arbres phylogénétiques (i.e., arbres additifs ou X-arbres). L’avantage de notre approche par rapport à l’approches classique, qui retournent toujours un arbre unique (i.e., arbre consensus ou super-arbre), est que nos algorithmes proposent comme solution un ou plusieurs arbres (i.e., arbre consensus ou super-arbre) dépendamment des topologies d’arbres fournies en entrée. Nous utilisons l’algorithme des k-moyennes pour obtenir le partitionnement optimal de l’ensemble des arbres considérés. Nous appliquerons les algorithmes proposés pour analyser de nombreux jeux de données réelles et simulées.

Présentation de N. Tahiri

L'article de Nadia Tahiri

 

Mardi 23 février - présentation reportée à mardi le 22 mars

Dunarel Badescu (PhD, Bioinformaticien at Genome Quebec Bioinformatics Centre, McGill University)

Titre : Détection des régions génomiques fonctionnels et des transferts horizontaux de gènes par la variabilité des séquences et l'analyse de regroupement: applications à l'étude de l'évolution des procaryotes et des virus

Résumé : La biologie évolutive est régie par des forces écologiques correspondant à des échelles géographiques et temporelles différentes. L’interrelation hôte-pathogène constitue une des principales forces évolutives, menant à la croissance de la variabilité génétique. Nous présenterons d'abord un nouveau modèle permettant de retrouver des régions génomiques fonctionnelles en se basant sur la variabilité des séquences ainsi que sur une analyse de regroupement d'espèces faite selon des critères booléens de pathogénicité. Les méthodes et les fonctions de regroupement qui en découlent ont été appliquées à des jeux de données réelles impliquant la carcinogénicité et l’invasivité des espèces. Ces méthodes et fonctions doivent varier dépendamment de la combinaison des mécanismes évolutionnaires (sélection positive et lignée spécifique) de même que des types de regroupement variés (monophylétique et polyphylétique). Nous utiliserons l’index de Rand ajusté pour valider les résultats. Par la suite, nous étudierons sur une plus grande échelle le phénomène du transfert horizontal de gènes, complet et partiel, chez les procaryotes. Cette analyse détaillée est effectuée sur plusieurs niveaux taxonomiques, génétiques et écologiques pour permettre d'estimer statistiquement l'ampleur de l’acquisition du matériel génétique tout au long de l’histoire évolutive des procaryotes.

Présentation de D. Badescu

Article de D. Badescu

Rapport de J. Eric Munganyiki, Anna Perez et Stéphanie Vu

 

Mardi 1 mars

La semaine de relâche !

Mardi 8 mars

Zahia Aouabed (Département d'informatique, UQAM)

Titre : Méthodes bioinformatiques pour l'analyse des mécanismes moléculaires conduisant à la résistance aux médicaments dans le cancer du sein

Résumé : Avec l'augmentation régulière des projets NGS et l'accumulation rapide des données Chip-Seq, un nombre croissant d'analyses comparatives entre des conditions ou des tissus est attendu. En effet, l'objet de nombreuses études ChIP-seq actuelles est la comparaison des profils de liaison des facteurs de transcription entre différentes conditions. La détection des changements dans les interactions ADN-protéines sous des conditions cellulaires distinctes est une étape cruciale dans la compréhension des réseaux de régulation derrière les processus biologiques tels que la différenciation cellulaire, l'activation des voies de signalisation et l'apparition de maladies. Ces études comparatives ont besoin d’approches informatiques appropriées. Cependant, peu de méthodes ont été proposées. En effet, les méthodes de peak calling largement utilisées sont basées sur l'analyse des signaux individuels et n'offrent aucune fonctionnalité pour comparer entre plusieurs expériences ChIP-seq. Ainsi, nous avons abordé ce problème en concevant et implantant une plateforme d'analyse intégrée accessible à partir de Calcul Québec. Cette plateforme, exploitant en partie des paquets présents dans MUGQIC de Génome Québec, constitue une approche originale et efficace pour traiter ce type de données. Elle a permis d'analyser les données ChIP-Seq du facteur de transcription ERalpha, un marqueur moléculaire important du cancer du sein, entre trois conditions cellulaires. Ces dernières correspondent à trois lignées cellulaires caractérisées par une différence dans leur niveau de sensibilité aux médicaments utilisés dans l'hormonothérapie du cancer du sein.

Présentation de Z. Aouabed

Rapport de Katia Smail, Valérie Hay et Naima Madi

 

Mardi 15 mars

Wajdi Dhifli (Chercheur post-doctoral, Département d'informatique, UQAM)

Titre : Une revue sur l'apprentissage automatique et la fouille de données complexes pour la bioinformatique

Résumé : La nouvelle génération des techniques de séquençage et d’acquisition de données génomiques donne lieu à la génération des quantités de données génomiques massives. Les analyses biologiques basées sur des méthodes manuelles sont devenues de plus en plus incapables de suivre cette augmentation rapide des quantités de données génomiques, associée à la grande diversité des espèces vivantes. De ce fait, l’utilisation des techniques computationnelles revêt une importance majeure pour la compréhension et la résolution des phénomènes et défis biologiques. Les techniques d’apprentissage automatique et de fouille de données complexes ont fait l’objet de nombreux travaux dans la littérature. Elles ont démontré un fort potentiel dans la résolution de problèmes de divers domaines d’application y compris la biologie moléculaire. Dans ce séminaire, nous allons faire un survol sur les techniques de fouilles de données complexes et d'apprentissage automatique et leurs utilités dans la bioinformatique via des contextes d'applications.

Présentation de Wajdi Dhifli

Rapport de David Beauchemin, Élodie Hip-Ki et Lionnel Lemogo

 

Mardi 22 mars

Matthieu Willems (PhD, Département d'informatique, UQAM)

Titre : Applications des méthodes phylogénétiques en linguistique

Résumé : Depuis une dizaine d'années, les méthodes d'inférence phylogénétique ont été appliquées avec succès dans le domaine de la linguistique, dans le but de reconstituer l'histoire de l'évolution de certains groupes de langues. Je présenterai tout d'abord les types de données linguistiques utilisées dans ce contexte et les principaux résultats obtenus. Je décrirai ensuite un algorithme d'inférence de réseaux phylogénétiques et ses applications en linguistique.

Présentation de Matthieu Willems

 

Mardi 29 mars à 17:00 (au PK-4610)

François-Joseph Lapointe (Professeur, Sciences biologiques, Université de Montréal)

Titre : La comparaison statistique de réseaux complexes par l’analyse des types de chemins

Résumé : Les réseaux de similarité sont fréquemment employés pour modéliser les relations écologiques et évolutionnaires complexes. Afin d’analyser la topologie de ces réseaux, je proposerai une nouvelle méthode qui distingue les différents types de chemins d’un réseau dynamique composé d’un nombre croissant de nœuds. Cette approche permet notamment de comparer des réseaux de gènes échantillonnés dans le temps ou dans l’espace, ou encore de tester l’ajout d’un nouveau type de nœuds à un réseau original. Je présenterai finalement, une application de la méthode pour la comparaison d’un réseau de gènes composé de bactéries, de virus et de plasmides

 

Mardi 12 avril à 17:30

Malick Diouara (Chercheur post-doctoral, Département d'informatique, UQAM)

Titre : Résistance du VIH aux antirétroviraux et études des réseaux de transmission

Résumé : La pandémie de l’infection à VIH/SIDA demeure encore un problème de santé publique avec son large éventail de conséquences socioéconomiques à l’échelle mondiale. Depuis la description des premiers cas, des efforts considérables et diversifiés sont entrain d’être entrepris par la communauté scientifique pour une meilleure prise en charge de ce fléau. C’est ainsi que la thérapie antirétrovirale a substantiellement changé et amélioré la qualité de vie des personnes atteintes tout en diminuant la mortalité et la morbidité liées à l’infection à VIH. Toutefois ces grandes avancées scientifiques se heurtent au phénomène de la résistance aux médicaments antirétroviraux et même ceux récemment mise en circulation. Plusieurs types des mutations génétiques, individuellement ou en association sont à l’origine de cette résistance. A cela s’ajoute la transmission de virus d’emblé résistants et la problématique des réseaux de transmission en particulier au sein des populations clés. En réponse à ces différentes problématiques, les approches et outils bioinformatiques occupent une place de choix, en ce sens qu’ils contribuent à l’analyse, la prédiction des mutations de résistance et la cartographie des réseaux de transmission afin de développer de nouvelles stratégies préventives adaptées au contexte actuel.

Présentation de Malick Diouara

Rapport de Robin Simard et Josiane Chagnon-Choquet

 

Mardi 12 avril à 18:15

Alix Boc (PhD, Développeur de logiciels sénior chez CODE3 et chargé de cours à l'UQAM)

Titre : Atelier de découverte d'une méthode bioinformatique

Résumé : Le tutoriel sur la détection des transferts horizontaux de gènes dans l’environnement T-REX sera présenté.

Présentation d'Alix Boc

 

Mardi 26 avril

Les exposés des étudiants