Séminaire interdisciplinaire de bioinformatique

BIF7002

 



Rapport de la conférence du 21 mars 2007

Par Mr. Pierre-Étienne Jacques

 


Exploitation des données de localisation génomique
(les puces à ADN)


 

 

 



Préparé par :
Yaovi Kounasso
Zahra Foundou

 

 

 

 

 

 

 

Table des matières

 

1- Introduction
2- Les puce à ADN

3- Fabrication d'une puce à ADN

4- Les domaines d'application des puces à ADN
5- Les Applications des puces à ADN

6- Les analyses statistiques
7- Conclusion

Bibliographie et références

 

 

 

 

 

 

 

 

 

 

1. Introduction

À l'instar des méthodes traditionnelles de localisation des gènes ( exemple Southern blot, Nordern blot) qui ont leurs champs d'action limités à quelques gènes, la technologie de puces à ADN permet de mesurer simultanément et quantitativement l'expression relative de plusieurs milliers de gènes, voir du génome.
Dans ce rapport, suite à la présentation de Monsieur Jacques, nous allons dans un premier temps mettre l'accent sur les technologies et l'utilisation des puces à ADN. Nous attarderons ensuite sur certaines applications de cette technologie en nous basant sur des exemples précis. Pour en finir nous serons conduits à analyser des données obtenues en utilisant des puces à ADN à haute résolution.

2. Les puces à ADN

Décrite en 1995 par Schena M et al. La technologie de puces à ADN est devenue un outil majeur de recherches, incontestable dans la communauté scientifique. Cette technologie de pointe qui combine les avancées de la technologie de l'information et les acquis de la science de la vie, permet en un temps record de présenter des résultats fiables, précis et intéressants.

 

2.1. définition d'une puce à ADN

 

Est un ensemble de molécules d'ADN fixés sur une surface qui peut être du verre, du silicium ou du plastique. Cette biotechnologie récente, permet de visualiser les gènes exprimés (transcrits dans une cellule d'un tissu donné.

 

Lame de verre (microarrays)

Filtres haute densité (macroarrays)

Puces à oligonucléotides


fig1: Les différentes sortes de puces ;  extrait de DNA microarray principale

Les méthodes de puces à ADN reposent sur les techniques d'hybridations simultanées sur un support de taille réduite (quelques cm2), utilisant de l’ARN comme substrat.
Bien que partant d’un principe de base commun, certains puces à ADN se distinguent sur trois (3) points essentiels :
la nature du support le support peut être en verre ou en nylon.
le système de détection : Radioactivité, colorimétrie, fluorescence.
Le choix des sondes et la technique d’hybridation: L’utilisation des fragments de ADNc ou des oligonucléotides et le choix du système de détection, contribuent à connaître les différents microarrays.

 

Le support
Le support le plus utilisé est réalisé sur des lames de verre d’un format allant de 1 à 10 cm2. Le choix de lames de verre se justifie dans la mesure où ce support permet une approche miniaturisée, avec de très hautes densités (plusieurs dizaines de milliers de spots par cm2) et est adapté pour de faibles quantités d’ARN.
Les filtres en nylon sont moins coûteux, mais moins utilisés. Malgré leur pouvoir d’être réutilisés et leur grande sensibilité, la densité des spots est limitée.

Le système de détection
La technique de détection la plus répandue est la fluorescence. Elle permet une bonne sensibilité de détection du signal tout en étant facile à manipuler contrairement à la radioactivité.
Notons que deux types d’approches sont envisagés en fonction de l’utilisation d’un ou deux marqueurs.

 

L’approche non compétitive : utilise deux échantillons qui sont marqués avec le même fluorochrome, exemple phycoérythrine pour la technologie Affymetrix. Chacun des échantillons est hybridé sur une puce séparément. L’intensité du signal est proportionnelle à l’expression du gène correspondant.

L’approche compétitive: Est basée sur la technique d’hybridation compétitive.

Les deux échantillons sont marqués chacun avec un fluorochrome différent, par exemple cyanine 3-CTP (Cy3) et cyanine 5-CTP (Cy5). C’est la stratégie adoptée par Agilent Technologies et autres fournisseurs.
Les deux échantillons sont mélangés en proportions équivalentes. Lors de l’hybridation sur la puce il y a compétition pour l’appariement à la sonde immobilisée sur le support solide. De cette manière on mesure directement un ratio entre le signal fluorescent émis par l’échantillon marqué en Cy5 et celui de l’échantillon marqué en Cy3.

 

 

2.2. le choix de séquences sur les spots et le type d'hybridation

Les puces à ADN : Les fragments de ADNc utilisés sont de quelques centaines de bases. Ils sont immobilisés sur les supports par des liaisons chimiques covalentes. Un désavantage de cette méthode est que, ces fragments d'ADNc ne correspondent pas nécessairement à des gènes identifiés. L'utilisation de banques de données nécessite un stockage soigneux des clones de ADNc et des produits d'amplification utilisés. De plus il faut un contrôle minutieux des séquences, ce qui est parfois fastidieux.

Les puces à  oligonucléotides :  Les sondes sont des oligonucléotides de synthèse de 25 à 80 bases. Les séquences choisies sont optimales pour hybrider chaque gène-cible (intensité, sensibilité et spécificité). Notons que ce type de sondes est utilisé uniquement pour la détection de gènes connus séquencés.

 

 

 

 

 

3. Fabrication d'une puce à ADN

 


fig2: Les étapes de fabrication de puces à ADN; Extrait du doc. de Stéphane le Crom et Philippe Marc

 

 

 

 

 

 

3.1. Hybridation

§        les ADN (vert) et les ADN (rouges) sont mélangés (cibles) et placés sur la matrice simple brin déposés (sonde)

§        à cette température, un brin d'ADN qui rencontre son complémentaire s'apparie pour donner de l'ADN double brin

 


fig3: Hybridation ADN ; Extrait du doc. de Stéphane le Crom et Philippe Marc

 

Un lien vers une animation:
http//:www.Cea.fr/UserFiles/File/Animations/aLaLoupe/biopuce/puceAdn.htm

 

 

4. Les domaines d'application des puces à ADN

Les domaines d'applications des puces à ADN sont très vastes et touchent un large marché tel que :

 

 

5. Application des puces à ADN

5.1. Les facteurs de transcription

Lors de la comparaison d’une expérience des profils d’expression entre une souche sauvage et une souche mutante pour un facteur de transcription, on remarque souvent qu’une portion importante des gènes différentielle ment exprimés est souvent le résultat d’effets indirects.
Tandis que la localisation génomique, appliquée par exemple au même facteur de transcription permet quant à elle d’identifier les cibles directes.


 Impact (indirect ) de la mutation d'un facteur de transcription dans une expérience de comparaison de profils d'expression

 

 

 

 

fig4: Régulation de gènes ;  extrait de l'exposé de J. Étienne Jacques

 

Tous les facteurs de transcription (à la périphérie du cercle) ont été localisés directement sur le promoteur d'autres facteurs de transcription pointés par les flèches (le promoteur de plusieurs autre gènes est également lié directement mais seulement les interactions impliquant des facteurs de transcription sont montrées) .

 

Structures des réseaux régulateurs entre les différents facteurs de transcription

 

 

 

 

fig5: Structure des réseaux régulateurs ;  extrait de l'exposé de J. Étienne Jacques

 

 

Par exemple, le facteur de transcription Rox1 (cercle bleu) s'attache directement sur le promoteur du gène YAP6 (rectangle rouge) pour le réguler, alors que sa protéine Yap6 (aussi facteur de transcription) régule en boucle de façon directe le gène ROX.

 

5.2. La localisation des sites d'interaction de protéines avec la chromatine

La méthode ChIP-on-Chip (Chromatin-ImmunoPrecipitation on Chip), a été inventée dans le but   d’identifier des sites d’interaction de protéines avec l’ADN génomique.

Cette méthode est plus utilisée chez la levure du boulanger. Pour des raisons suivantes :

Le génome est de taille restreinte et la faible proportion des régions intergéniques facilite la construction de puces contenant ces régions, qui sont les cibles de facteurs de transcription.

Quelques études faites sur les facteurs de transcription.

Une étude de grande envergure sur plus de 100 facteurs de transcription marqués d’un épitope Myc (sur 161 protéines décrites dans la base de données YPD 7 comme ayant une activité de liaison à l’ADN et de transcription) a réalisé en 2002




fig6: Interaction de protéines avec ADN;  extrait de l'exposé de J. Étienne Jacques


fig7: Interaction de protéines avec ADN ;  extrait de l'exposé de J. Étienne Jacques
Principe du « ChIP-on-Chip

Principe du fonctionnement de ChIP-on-Chip
Fixation des protéines de manière covalente à l’ADN génomique par un traitement au formal
déhyde
Fragmentation de l’ADN et incubation de l’extrait cellulaire avec un anticorps spécifique de la   protéine d’intérêt (ou spécifique d’un épitope avec laquelle la protéine aurait été marquée au préalable).
La purification par immuno-précipitation permet d’isoler la protéine d’intérêt avec les fragments d’ADN qui lui sont associés.

5.3. Les Nucleosomes

La substance chimique qui constitue les chromosomes s’appelle la chromatine. C’est un mélange de DNA et de protéines. Cette substance est composée de particules appelées « nucléosomes » empilées les unes au-dessus des autres selon le modèle dit en  «  collier de perles».

 

5.4. Les Protéines Histones (cœur du nucléosome)

Ce sont des protéines basiques, riches en acides aminés tel que l’Arginine et la Lysine. Elles sont donc riches en charges positives ce qui leur permet de former des liaisons ioniques avec le DNA (qui porte de charges négatives dues aux fonctions acides libres des molécules d’acide phosphorique). Le cœur de L’histone est formé en réalité d’un octamère comprenant 2 copies des histones H2A, H2B, H3 et H4. Une 5e Histone, H1, ne fait pas partie du nucléosome mais interagit avec le DNA de 2 nucléosomes contigus. Les histones peuvent subir des modifications covalentes réversibles : acétylation, phosphorylation, ribosylation, l’ubiquitination. Cette possibilité de changement rapide et réversible joue certainement un rôle important dans la physiologie.


fig8: Organisation des histones;  extrait de obiweb.bcgsc.ca/medgen

H1 servent à relier les nucléosomes les uns aux autres de façon à forme une structure spirale plus compact.



fig9: Les voies de modification du nucléosome ;  extrait de Md/Sc 203; 19:1137-45


Les trois voies de modification du nucleosome
a) déplacement en cis ou en trans. Des nucleosomes par un complexe de remodelage.
b) modification post-traditionnelle des extrémités des histones
c) substitution d une histone conventionnelle par un variant.

 

 5.5. Modification des Histones



fig10: Modification des histones; extrait de l'exposé de J. Étienne Jacques

Ce schéma nous renseigne sur différentes modifications dans les histones : méthylation (M), acétylation (Ac),phosphorylation (P), ubiquitination (Ub)) caractérisées sur quelques-uns des résidus (lysine (K), sérine (S), arginine (R)) des queues des histones H2B, H3 et H4. Ces modifications jouent des rôles biologiques très distincts, qu'il est par conséquent très important de pouvoir les caractériser indépendamment. Il existe présentement des anticorps très spécifiques permettant leur localisation génomique.

5.6. Localisations de H2A.Z (chez la levure de boulanger)

Le gène qui code pour la H2A.Z est retrouvé chez certains organismes comme S. pombe, S. cerevisiae et Tetrahymena Sa transcription est contrôlée au cours du cycle cellulaire et dépend en partie  de la réplication.

Notons bien que  chez les mammifères, son expression  de la H2A.Z, n’soit pas couplée de la synthèse de l’ADN.

La séquence peptidique du variant H2A.Z présenterait  60% d’homologie avec celle de l’histone H2A et 90% d’homologie inter-espèce. Cette variante jouerait un rôle très important dans des fonctions spécifiques liées à la prolifération, la différenciation et le développement

Pour en conclure, H2A.Z  semble jouer un rôle à la fois positives et négatives sur l’expression des gènes.

fig11: Comparaison des séquences des histones humaines; extrait de Médecine/Sciences 203; 19:1137-45

 

Comparaison des séquences des histones humaines de la famille H2A
Les résidus identiques sont figurés en bleu et les résidus similaires en jaune.

L’alignement a été réalisé avec le programme CLUSTALW .

fig12: Localisation des H2A.Z ;  extrait de l'exposé de J. Étienne Jacques

Chaque barre verte représente l'emplacement d'un oligonucléotide spécifique dans le génome. L'intensité représente l'enrichissement de chacun de ces emplacements pour la variante d'histone H2A.Z. On remarque la présence d'un maximum d'enrichissement en amont de chaque gène (dans le promoteur) alors qu'on ne retrouve pratiquement pas de H2A.Z dans les régions codant et en aval des gènes.

5.7 Problèmes  liés aux spots



fig13:  Défauts de spots;  extrait de UMR144 CNRS – Institut Curie


(a) spots réguliers ; (b) spots en anneaux ; (c) spots irréguliers dus à un mauvais calibrage du robot ;  (d) spots trop petits ; (e) spots gonflés dus à une mauvaise purification des produits de PCR ;  (f) particules rouges dans les spots indiquant une surface de polylysine abîmée.

Pour éviter  ces problèmes liés aux spots, toujours dans  le souci de localiser tous les gènes identifiés et d’économiser le temps et l’argent, l’équipe de recherche dans laquelle travaille M. Jean Étienne  Jacques a dû  fabriquer de plus des spots adaptés aux exigences de leur travail. Ces puces sont non biaisés mais  force est de constater que  selon les explications données par  M. Jacques, on note certains non-appariements.

6. Les analyses statistiques

Filtrage primaire des données : Il existe différents types de logiciels d’extraction permettant de repérer visuellement les spots non exploitables. Ceci se fait grâce à un système de balisage qui assigne un code numérique selon la qualité du spot considéré, afin de faciliter le filtrage des données non significatives.
C'est l'exemple du logiciel GenePix Pro, où le chiffre «  0  » correspond par défaut à un spot exploitable, «  –100  » à un spot défini mauvais «  –50  » non détecté par le logiciel et «  –25  » à un spot défini vide par l'utilisateur.

 Le calcul des ratios d’expression  :
Il existe plusieurs méthodes de calcul du ratio d’expression: ratio des intensités moyennes, médianes, régression linéaire.
Notons que le niveau d’expression relatif de chaque gène est estimé par la valeur du ratio d’expression calculé à partir des intensités des signaux en rouge et en vert.

A = intensité médiane du spot i en rouge                     C = intensité médiane du spot i en vert           
B = médiane du bruit de fond local en rouge               D = médiane du bruit de fond local en vert

 

 

Rr/v (i) = (A-B)/(C-D)

 

 Pour manipuler et analyser les données, les ratios d’expression sont usuellement transformés dans une échelle logarithmique : log2(r/v). La raison de cette transformation est que le logarithme permet de transformer le ratio d’expression en une fonction linéaire, symétrique de – l’infini à + l’infini, centrée sur 0 et additive, ce qui facilite les analyses statistiques.



fig14: Analyse statistique ;  extrait de l’exposé de J-Étienne Jacques

Sur le schéma  du  logiciel d’analyse, on voit certaines  espaces vides (ligne bleue en haut). Cela représente les données non significatives, dues soit  aux problèmes de défaut de spots, ou aux problèmes liés à des contaminations, ou  soit aux problèmes de réglage de lumière (intensité)….

Il est très regrettable que l’on ne puisse pas tester le fonctionnement de ce logiciel pour mieux comprendre le bien fondé des choses.

 

7. Conclusion

Le défi dans la réalisation d’un projet de puces à ADN  est de pouvoir garantir la fiabilité du processus, tout en augmentant les performances et en assurant la sécurité analytique de l’ensemble. Un bon choix des matériels, s’assurer d’une bonne interprétation des données et des  analyses statistiques  afin de fournir   une bonne documentation.

Malheureusement les réponses attendues ne sont pas toujours à la hauteur, car certains facteurs tels que l’environnement, les contaminations, les  problèmes techniques pour n’en citer que ceux là, rendent les choses difficiles. Et cela pourrait être un obstacle à l'utilisation des puces à ADN en terme d’application clinique. Mais l'avenir est promoteur.

On s'attend un jour à ce que les puces à ADN deviennent des vrais outils utilisés dans des recherches cliniques.

L’exposé de M. Jacques, en générale a été intéressant. Nous le remercions pour les aspects théoriques et pratiques enrichissants, pour l’explication apportée sur sa propre conception des puces (non biaisés ), la fabrication  de ces puces au Labo et l’utilisation de cette technologie pour ses recherches réussies.

Malheureusement ne sommes pas en mesure de tester les logiciels utilisés par M. Jacques pour les analyses statistiques.

 

Références

1.) J. Etienne: Biochimie médicale et biologie moléculaire. Edition Masson
2.) MEDECINE/SCIENCES 2003 ; 19 : 1137-45
3.) Carr AM, et al. Analysis of a histone H2A variant from fission yeast: evidence for a role in chromosome Mol Gen Genet 1994; 245: 628-35.
4.) Spellman PT, Sherlock G,Zhang MQ, et al.Comprehensive identification of cell cycleregulate genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell 1998; 9: 3273-97.
5.) White EM, Shapiro DL, Allis CD, Gorovsky MA. Sequence and properties of the message encoding Tetrahymena hv1, a highly évolutionarily conserved histone H2A variant that is associated with active genes. Nucleic Acids Res 1988; 16: 179 98.
6.) Hatch CL, Bonner WM. The human histone H2A.Z gene. Sequence and regulation.
J Biol Chem ; 1990; 265: 15211-8.
7.) Jackson JD, Gorovsky MA. Histone H2A.Z has a conserved function that is distinct from that of the major H2A sequence variants. Nucleic Acids Res 2000; 28: 3811-6.
8.) Wolffe A. Chromatin, structure and function, 3e éd. New York: Academic Press, 1992.
9.) V.Roux : Laboratoire de Génétique Oncologique - UMR 8125 Institut Gustave Roussy – Villejuif
10.) UMR144 CNRS – Institut Curie, Section de Recherche.
11.)Tong Ihn Lee et al; Transcriptional Regulatory Networks in Saccharomyces  - Science 298, 799-804 (2002)
12.) http://www.incyte.com/control/tools/proteome
13.) http://mips.gsf.de/genre/proj/yeast/index.jsp
14.) Site de Saccharomyces Genome Database : http://www.yeastgenome.org/