Cours BIF7002
Séminaire en bioinformatique
(HIVER
2004)
Professeur : Vladimir
Makarenkov
Statistical
issues with microarrays :
processing
an anlysis
Conférence de:
Rapport préparé par :
Youness El Amraoui
Et
Youssef Slimani
Université du Québec À
Montréal
La science de la génomique peut être divisée en trois principaux domaines : le séquençage de l’ADN (le génome), le profil d’expression (le transcriptome) et la protéomique (le protéome).
La révolution génomique est
construite autour du séquençage de l’ADN qui a conduit aux projets de
séquençage de différents organismes. Le profil d’expression est l’étude de la
réponse des multiples ARNm, présents dans un type cellulaire spécifique ou un
tissu, à des conditions ou traitements spécifiques. La protéomique étudie les
changements d’une partie ou de toutes les protéines présentes dans un tissu ou
un type de cellule, incluant les modifications post-traductionnelles comme la
phosphorylation ou la glycosylation. Ces trois branches de la génomique
traitent trois molécules : l’ADN, l’ARN et les protéines.
Le profil d’expression
permet de comprendre la réponse transcriptionnelle d’un tissu ou d’une cellule
à son environnement, en identifiant tous ou plusieurs ARNm et comment ces
derniers changent suivant le changement de l’environnement de la cellule.
Élucider les ARNm présents
et identifier les gènes dont le niveau d’expression a le plus changé, en
réponse à des conditions ou des traitements spécifiques, est une voie très
utile pour commencer à déchiffrer les
mécanismes cellulaires des maladies et des réponses aux médicaments. Le profil
d’expression promet d’identifier de nouvelles cibles pour les interventions
contre les maladies. Pour cette raison, la communauté académique ainsi que les
industries pharmaceutiques et de biotechnologies ont adopté le profil
d’expression comme une technologie vitale.
l'étude de l'expression de
gène avec les microarrays évolue d'une science qualitative à une science
quantitative. Les procédures
statistiques pour assurer le contrôle de qualité, déterminer l'expression
différentielle, et vérifier la reproductibilité des résultats sont une
conséquence normale de cette évolution.
Cependant, les problèmes inhérents à cette technologie ont soulevé des
questions importantes de la façon à appliquer des tests statistiques
adéquats. Les approches statistiques
appliquées aux études par microarray ne sont pas encore aussi courantes
qu'elles le sont pour d'autres sciences.
Des méthodes statistiques, conçues en pour des microarrays, continuent à
être adaptées et développés.
L’organisation de ce rapport
de conférence repose sur quatre parties. En premier lieu un aperçu biologique
traitera le principe des microarrays et les principales approches. Une deuxième
partie sera consacrée à une revue des étapes de transformation, d’analyse et
d’exploration des données. La troisième partie sur l’analyse statistique
consiste en une revue de l’article, sujet de la conférence, du professeur
R.Nadon sur les problèmes statistiques des microarrays. La quatrième partie
concerne les perspectives et les limites de cette technologie.
Le principe de base fondamental de la technique est le processus
d’hybridation. Deux brins d’ADN s’hybrident s’ils sont complémentaires l’un à
l’autre. Un des deux bris (ou les deux) formant l’hybride d’ADN peut être
remplacé par l’ARN et l’hybridation continue s’il y a complémentarité.
L’hybridation a été utilisée
pendant des décennies en biologie moléculaire comme principe de base pour des
techniques comme Southern blot et Northern blot.
Dans le Southern blot, un
oligonucléotide est utilisé pour s’hybrider avec son complémentaires parmi des
fragments d’ADN séparés par électrophorèse sur gel. Si l’oligonucléotide est
marqué par un radio-isotope, l’hybridation peut être visualisée par une photo
radiographie.
Dans le Northern blot, un
oligonucléotide avec un marqueur radioactif est utilisé pour s’hybrider à un
ARNm qui a auparavant migré sur un gel. Si cet oligo est spécifique à un ARNm,
il va se lier à la location (bande) de cet ARNm sur le gel. Le niveau de
radiation capturée par la photo dépend de la quantité de la sonde radioactive
présente dans la bande, qui dépend à son tour de la quantité de l’ARNm. C’est
donc une méthode semi-quantitative pour détecter des ARNm individuels.
DNA microarrays est une
version massive parallèle aux techniques de Southern et Northern blot. C’est
une technique d’hybridation, et au lieu de distribuer des sondes
oligonucléotidiques sur un gel ou une membrane contenant des échantillons d’ADN
ou d’ARN, les sondes sont immobilisées sur une surface.
Il est possible de mener des
milliers d’hybridations. Ainsi, il est possible d’étudier plusieurs gènes et
plusieurs ARNm en même temps. En réalité, DNA microarrays étudie généralement
‘tous’ les ARNm connus d’un organisme. Ceci a permis la possibilité d’avoir une
nouvelle vision systématique sur la façon dont une cellule réagit en réponse à
un stimulus. C’est aussi une nouvelle
voie pour étudier les maladies en ayant une visibilité sur l’expression de tous
les gènes dans une cellule.
Pour mesurer la
concentration des ARNm dans une cellule par la technique de microarrays, on
utilise une sonde ou plus d’un brin d’ADN qui ‘matche’ avec un ARNm particulier
de la cellule. La concentration d’un ARNm est le résultat de l’expression de
son gène correspondant, cette application est connue comme une analyse
d’expression. Quand plusieurs sondes matchent tous les ARNm d’une cellule, un
‘fond’ (pool) instantané d’ARNm total d’une cellule vivante ou d’un tissu peut
être obtenu. Ceci est connu comme un profil d’expression car il reflète
l’expression de chaque gène mesurée à un moment particulier. Le profil
d’expression est aussi utilisé pour un seul gène dans plusieurs conditions.
Deux technologies majeures
sont disponibles pour une analyse d’expression. Il y a le système
GeneChip, de la compagnie Affymetrix,
Inc., qui utilise des puces d’ oligonucléotides préfabriqués. Le second type,
spotted (imprimés) arrays, consiste en des puces personnalisées où un robot est
utilisé pour fixer de l’ADN complémentaire (ADNc), des oligonucléotides, ou des
produits de PCR sur une lame en verre.
1- Affymetrix GeneChip (oligo arrays)
À l’instar de l’industrie des puces de silicon pour ordinateurs, Affymetrix utilise des masques pour contrôler la synthèse des oligonucléotides sur la surface d’une puce. Les masques contrôlent la synthèse de plusieurs centaines milliers de carreaux, chacun contient plusieurs copies d’un oligo d’une longueur de 25 nucléotides. Pour une analyse d’expression, plus de 40 oligos sont utilisés pour la détection de chaque gène. Affymetrix a choisi un région de chaque gène qui a potentiellement le minimum de similarité avec les autres gènes. À partir de cette région 11 à 20 oligos sont choisis comme des matches parfaits (PM) (complémentarité parfaite avec l’ARNm de ce gène). En plus, ils ont généré 11 à 20 oligos à ‘mismatch’ (MM) qui sont identiques aux oligos PM à l’exception de la position centrale. Affymetrix soutient que les oligos MM seront capables de détecter l’hybridation non spécifique et celle du fond, qui sont importants pour quantifier les ARNm faiblement exprimés.
2- Spotted arrays (cDNA arrays)
Pour cette technologie, un robot ‘spotter’ est utilisé pour déplacer une petite quantité de sondes en solution à partir d’un microtiter sur un support de verre. Les sondes sont constituées de l’ADNc, produits de PCR ou des oligonucléotides. Chaque sonde est un complémentaire à un gène unique. Les sondes peuvent être fixées à la surface par plusieurs façons. La méthode classique utilise une liaison non spécifique aux lames enduite de polylysine.
L’avantage comparé avec l’Affymetrix GeneChips est la possibilité de concevoir n’importe quelle sonde pour la fixer sur l’array. Des chercheurs peuvent utiliser des microarrays personnalisées selon leur domaine de recherches. On peut avoir par exemple des lymphoarrays pour étudier les lymphocytes et utiliser donc des sondes qui sont jugées importantes pour la biologie des ces cellules spécialisées.
Le désavantage est que les ‘spotted’ ne seront pas aussi uniformes que les puces Affymetrix synthétisées in situ et que le coût des oligos devient très élevé pour des puces contenant des milliers de sondes.
De point de vue analyse des données, la principale différence est que dans les cDNA arrays, l ‘échantillon et le contrôle sont hybridés dans la même puce en utilisant différents fluorochromes , alors que les puces Affymetrix utilise un seul fluorchrome pour les deux puces necessaires pour comparer l’échantillon et le contrôle.
La figure 1 résume les différences entre les deux types de microarrays.
Figure 1 : revue des deux méthodes pour comparer des populations d’ARNm dans des cellules de conditions différentes .
II- Analyse et
exploration des données :
L’acquisition
de l’image c’est-à-dire la lecture de la
lame se fait grâce à deux scanners appropriés détectant les ADN marqués
en double fluorescence (Cy3 / Cy5) ou en radioactivité (H3 / S35) :
-
le
scanner MicroImager (Biospace Mesures) permet de
lire vos lames de microarrays hybridées avec des sondes radioactives,
-
le
scanner GenePix 4000 B
(Axon Instruments) permet de lire vos
lames marquées en double fluorescence.
Ces scanners vont alors générer deux images représentant chacune
l’intensité de la fluorescence ou de la radioactivité lue pour chaque marqueur
(signaux émis par les ADN marqués par un des marqueurs fluorescents ou
radioactifs). Après cette étape d’acquisition d’image, il vous faudra localiser
les spots et positionner la grille d’identification des spots sur l’image
obtenue après le scan de votre lame.
Attention à scanner la lame dans le bon sens par rapport à la grille.
Le logiciel
GenePix Pro 4.0 est disponible sur 4 ordinateurs de la plate-forme
(Scanner Axon, Imagerie1, Imagerie2 et Imagerie3). Il vous permet de
positionner la grille (fichier .gal fourni avec vos lames, comprenant le
descriptif des gènes déposés ainsi que leur position sur la lame) sur l’image
que vous avez obtenue à l’issue du scan. Il vous faut alors aligner les cercles
de la grille sur les spots de votre image afin de faire correspondre le
descriptif de chaque gène avec l’intensité de signal de ce même gène, ceci
grâce au logiciel GenePix Pro 4.0. Vous pouvez à ce moment identifier les spots
qui ne sont pas corrects (poussières, …).
Le logiciel
GenePix Pro 4.0 mesure l’intensité du signal pour chaque gène pour les deux
marquages de la lame ainsi que le bruit de fond local de chaque spot. Le bruit
de fond correspond à l’hybridation aspécifique des marqueurs sur la lame (entre
les spots ou encore sur les spots ayant reçu du tampon seul).
L’étape de
normalisation correspond à l’application d’un facteur de correction pour
corriger le biais entre les deux marqueurs utilisés. Différents logiciels sont
disponibles sur la plate-forme pour normaliser vos données de puces à
ADN :
-
logiciels
commerciaux disponibles sur la plate-forme :
§
GenePix
Pro 4.0 (Axon Instruments) :
normalisation par rapport à la médiane
§
Genespring
(Silicon Genetics) : normalisation
par rapport à la médiane, normalisation par rapport à un échantillon de
référence, Lowess et normalisation par rapport à des gènes contrôles
-
logiciels
disponibles gratuitement et installés sur les ordinateurs de
plate-formes :
§
Bioconductor : normalisation
par rapport à la médiane, normalisation par rapport à une distribution de
référence, Lowess, TwoD, printTipLowess, scalePrintTipLowess – Utilisation du
langage R indispensable
§
Gprocessor : normalisation
Lowess
§
Dchip : normalisation
par rapport à une distribution de référence (lames Affymetrix)
§
Marc-V (MicroArray
Calculation Vizualization) : normalisation par rapport à la médiane
§
MIDAS (Microarray Data Analysis System) (TIGR) : normalisation globale, Lowess …
-
D’autres
logiciels sont disponibles gratuitement sur Internet (GEPAS, VARAN…)
L’étape suivante réside dans la filtration de vos données (filtration
automatique selon certains critères) :
-
logiciels
commerciaux disponibles sur la plate-forme :
§ GenePix Pro 4.0 (Axon Instruments)
§
Genespring (Silicon Genetics)
-
logiciels
disponibles gratuitement et installés sur les ordinateurs de la
plate-forme :
§
Dchip
(lames Affymetrix)
§
MIDAS (Microarray Data Analysis System) (TIGR)
-
logiciels
disponibles gratuitement sur Internet (GEPAS, …)
L’analyse statistique (t-test, ANOVA, …) permet de connaître le degré
de signification des résultats obtenus pour chaque gène et ainsi déterminer la
liste des gènes différentiellement exprimés :
-
logiciel
commercial disponible sur la plate-forme :
§
Genespring (Silicon Genetics)
-
logiciels
disponibles gratuitement et installés sur les ordinateurs de la
plate-forme :
§ SAM (Significance
Analysis of Microarrays)
§
MeV (MultiExperiment Viewer) (TIGR)
-
logiciels
disponibles gratuitement sur Internet (GEPAS, …)
Le Data
Mining correspond à une fouille précise et complexe des données (exploration
des données). Afin d’effectuer une analyse plus fine de l’expression des gènes,
vous pouvez utiliser les méthodes de classification de vos gènes en plusieurs
groupes de gènes ayant des expressions semblables ou des fonctions
semblables (clustering, arbres de décision, Gene Ontology, …), et / ou les
méthodes de prédiction (LDA, PAM, …) grâce aux logiciels et méthodes suivantes
:
-
logiciel
commercial sur la plate-forme :
§
Genespring
(Silicon Genetics) pour la
classification des gènes : méthodes k-means, geneTree, conditionTree,
self-organizing map (SOM), QT (Quality Treshold) Clustering, analyse en
composante principale (ACP)
-
logiciels
disponibles gratuitement et installés sur les ordinateurs de la
plate-forme :
§
Bioconductor pour la
classification et la prédiction : méthodes de clustering hiérarchique, k-means,
analyse en composante principale (ACP), PAM (partinioning around medoids),
analyse discriminante linéaire (LDA)
§
Jexpress pour la
classification des gènes : clustering hiérarchique, k-means, self-organizing map (SOM),
analyse en composante principale (ACP)
§
Dchip pour la
classification des gènes : clustering hiérarchique, analyse en composante
principale (ACP)
§
MeV (MultiExperiment
Viewer) (TIGR) pour la classification des
gènes : clustering hiérarchique, k-means, self-organizing map (SOM),
analyse en composante principale (ACP), QT clustering
§
GenMAPP (Gene Microarray
Pathway Profiler) pour visualiser les expressions des gènes sur des cartes
représentant des groupes de gènes.
-
logiciels
disponibles gratuitement sur Internet (GEPAS (gene ontology), …)
III- L’analyse
statistique et les microarrays :
Actuellement l’intérêt, concernant les données de l’expression des gènes, est concentré sur la quantification de l’image, la transformation et l’analyse des données.
L’analyse des données se divise en deux catégories :
1. la reconnaissance des patterns qui peut être non supervisée (analyse par clustering, découverte de classes) ou supervisée (analyse discriminatoire, prédiction de classes);
2. détection de l’expression différentielle basée sur amorce par amorce.
La conférence de R. Nadon a traité les questions conceptuelles statistiques concernant la transformation des données et l’expression différentielle.
Les difficultés émergent
principalement de la myriade des sources potentielles d'erreurs de mesure aléatoires et
systématiques dans la technique des microarrays et de le petit nombre de
répétitions (échantillons : lignées cellulaires , patients…) relativement
au grand nombre de variables (les sondes).
Ceci soulève des questions
au sujet de la validité de plusieurs des résultats de microarrays rapportés
jusqu'à maintenant. La confrontation de
ces questions est cruciale pour fournir des données de microarrays utiles et à
tirer des conclusions instructives.
Bien que différentes dans leurs conditions particulières, les
problèmes et les solutions sont communes à toutes les technologies d’arrays
(cDNA arrays contre oligo arrays;
radio-isotopes contre marqueurs fluorescents; membrane en nylon contre lame en verre contre les substrats de
biopuce).
1-
L’inférence statistique et scientifique :
considèrent le problème de détecter une différence dans l'expression entre deux groupes. Le but de l'analyse statistique dans ce contexte est de détecter s'il y a une différence fiable et biologiquement appropriée dans le niveau d'expression.
Les difficultés de détecter une différence dans l'expression proviennent des problèmes tels que la confusion entre l'erreur systématique et les composants de traitement (ce qui pourrait donner un résultat statistiquement significatif mais qui n'a aucun soutien biologique) et les petites dimensions de l'échantillon (engendrent la grande erreur aléatoire ce qui entraîne des difficultés d’interpréter les résultats).
Les résultats statistiques
doivent être interprétés dans le contexte de la conception expérimentale et le
but de l'étude, ainsi:
· des résultats statistiquement significatifs peuvent refléter les effets biaisés des facteurs étrangers plutôt que de nature biologique
·
Le manque de signification statistique peut refléter une basse
sensibilité expérimentale, plutôt que l'absence d'un effet biologique. La basse sensibilité peut être provoquée par
un nombre insatisfaisant de réplicats, un manque de contrôle des facteurs étrangers
qui contribuent à l'erreur aléatoire, ou par les deux .
Les données d'expression de
gènes peuvent être analysées de plusieurs manières; le conférencier s’est limité à exposer les procédures
univariables (univariate procedures) , qui sont critiques pour la planification
des expériences, détermination de la
fonction de gènes spécifiques, et la production de données de haute qualité pour des analyses ultérieures.
Analyse Quantification des arrays Analyses ‘Data mining’
-Estimer le nombre -Éliminer les artéfacts - Normaliser
des réplicats nécessaires -Soustraire le substrat -Détecter les outliers
pour détecter des effets -Obtenir des P-values,
intéressants
des erreurs standards,
-Contrôle des faux négatifs des intervales de confiance
Il y a deux types d'erreur
de mesure: aléatoire et
systématique.
L'erreur aléatoire est
minimisée en contrôlant les facteurs étrangers et en obtenant plus de mesures
répétées (réplicats).
Les erreurs systématiques
(biais) sont contrôlés expérimentalement aussi bien que possible, bien que la
correction statistique additionnelle soit invariablement nécessaire avec la
technologie de microarrays courante.
Une liste partielle de
facteurs étrangers qui contribuent à l'erreur aléatoire et/ou à des valeurs
biaisées inclut: l'heure que des
rangées (arrays) sont traités;
l’accessibilité de la cible, qui est affectée par des variations de
l'absorption des membranes en nylon; la
fixation de la cible aux lames en verre;
et les variations des procédures de lavage.
1. 2- L'erreur aléatoire
L’erreur aléatoire est une estimation de l'incertitude dans la mesure et elle est donc centrale dans l'inférence statistique. Les erreurs aléatoires reflètent des incertitudes inévitables dans toutes les mesures scientifiques, rendant des procédures statistiques nécessaires. L'erreur aléatoire ne peut pas être éliminée, mais estimée à partir des données observées.
L'erreur aléatoire à travers des répliques, obtenues à partir des aliquots du même échantillon d'ARN, limite les sources d'erreur aux aspects techniques de l’expérience. L'obtention des répliques à partir de différents échantillons biologiques (par exemple patients) augmente l'erreur aléatoire mais produit des résultats qui ont une meilleure validité externe et une plus large applicabilité (une inférence plus large).
Un minimum de trois ou quatre répliques par groupe ou condition expérimentale a été recommandé pour expliquer la variation aléatoire et pour fournir une bonne sensibilité.
1.3- L’erreur
systématique
Les erreurs systématiques sont des biais; ils résultent d’une tendance constante à sur ou sous-estimer des valeurs vraies, diminuant de ce fait l'exactitude ou la confiance (accuracy).
Les facteurs biaisant les résultats sont sous plusieurs formes et dépendent partiellement des technologies d’impression (spotting les arrays), de balayage (scanning) et de marquage. Les biais peuvent affecter, de la même façon, toutes les valeurs d'expression sur une rangée ou ils dépendent d'autres facteurs (par exemple la localisation spatiale, la tige d’impression (spotting) goupilles, l’intensité du signal). L’omniprésence potentielle de valeurs imprécises d'expression, est un obstacle important à créer des bases de données publiques d'expression de gènes obtenues dans différents laboratoires. En effet, sans de rigoureux contrôles, l'exactitude des comparaisons intra-laboratoire est souvent incertaine.
Les sources de polarisation sont dans la théorie identifiable par des études de contrôle de qualité. Cependant, des biais de diverses sources peuvent être non orthogonaux et sont souvent non-linéaires. Ceci, en plus du peu de répliques disponibles pour l’estimation, compliquent la quantification des sources spécifiques des biais. Néanmoins, la conception expérimentale et les approches statistiques robustes ont contribué intensivement à corriger des polarisations dans des données de rangée.
Le fond (background) présente un cas spécial de biais. Sur l'acceptation (assumption) de l'erreur additive, l’évaluation de fond est habituellement soustraite de la valeur d'expression mesurée avant la transformation logarithmique et avant de corriger d'autres erreurs systématiques.
Des estimations de l'intensité du fond peuvent être obtenues à partir de Pixels de basses intensités dans les spots, des secteurs en dehors spots, ou à partir de contrôles négatifs qui ne contiennent aucun ADN ou contenant de l’ADN non spécifique.
D'autres sources d'erreur systématique sont considérées proportionnelles à l'intensité du signal et sont souvent corrigées en divisant la valeur brute d'expression par une estimation de l'erreur systématique, bien qu'une méthode préférée soit la transformation logarithmique de l'erreur estimée ainsi que de la valeur d'expression et de corriger les valeurs par soustraction. Pour l’une ou l’autre méthode, les valeurs d’expression corrigées sont dites normalisées.
Diverses méthodes de normalisation ont été proposées. Les méthodes globales divisent les valeurs
d'expression par une évaluation de l'erreur systématique (moyenne) pour chaque
rangée, contrôlant des différences
proportionnelles à travers les lames (membranes ou puces).
Pour être efficace, la plupart des sondes ne doivent pas être affectées
par le traitement, ou le procédé de normalisation confond l'erreur et l'effet
de traitement, potentiellement masquant l'effet d’expression différentielle des
sondes ou créant des effets différentiels où aucun n'existe.
Des références standards qui sont inchangées par traitement sont
nécessaires pour éviter ce problème.
Les gènes domestiques (housekeeping genes), qui dans la théorie
devraient montrer peu d'effet de traitement, n’ont donné satisfaction. Des ADN hétérologues synthétiques ont été avancé comme une possible alternative. Cependant, comme avec les méthodes globales,
ce type de correction d'erreur systématique suppose que le biais est constant à
travers l’entière étendue des données.
Comme une étape vers la résolution de ces problèmes, la méthode des
séries de titration de l’ADN hétérologue semble prometteuse. Cependant, le calibrage aux standards
pointus est difficile, en partie parce que les intensités des marqueurs ne
pourraient pas refléter les niveaux de message absolus et en partie parce que
les incertitudes dans la manipulation fluide et les préparations d'ARN
pourraient biaiser les standards. En conséquence, même les arrays d'expression
calibrées fournissent seulement des mesures relatives (par exemple ce spot est
50% plus lumineux que celui-là, au lieu d'indiquer 150 molécules marquées
contre 100).
Ce problème est plus marqué quand deux fluorescents sont employés pour construire des ratios.
Les arrays à deux couleurs présentent un problème additionnel de normalisation. L'ampleur de l'erreur systématique, causée par des différences dans les colorants fluorescents, dépend typiquement du niveau d'expression. Des procédures statistiques non-linéaires de régression ont été développées pour résoudre ce problème, bien que répéter les expériences qui alternent les colorants à travers le traitement et les échantillons de référence peut parfois rendre la normalisation non-linéaire inutile.
1.4- Les outliers
Les outliers sont des valeurs extrêmes dans une distribution des réplicats. Une reproductibilité faible peut être provoquée par une image non corrigée des artéfacts (par exemple la poussière sur des rangées fluorescentes ou ‘une hyperluminosité du spot (blooming) sur des arrays radioisotopiques). Ils peuvent également être causés par des facteurs indétectables par l’analyse d'image, tels que la cross-hybridation ou l’échec d'hybridation adéquate d'une sonde. Les outliers peuvent compter aussi haut que 15% dans les études microarrays typiques et sont révélés seulement par la déviance extrême de leurs valeurs d'expression relativement à d'autres réplicats. Les outliers non détectés biaisent l'évaluation de la valeur d'expression et de son erreur aléatoire associée, réduisant aussi bien la spécificité et que la sensibilité. Elles compromettent ainsi des tests individuels d'expression différentielle et de classification d'exploration de données (data mining).
Bien que de nombreuses méthodes soient disponibles pour la détection statistique d'outliers, elles sont généralement insatisfaisantes étant donné le petit nombre de réplicats typique dans les études de microarrays. Puisqu'elles estiment l'erreur aléatoire sur la base de sonde par sonde, souvent ces méthodes identifient faussement des réplicats comme outliers et ne détectent pas vrais outliers. Un échantillon de large taille est nécessaire pour détecter plus exactement des outliers et avec précision. Une méthode est de mettre des résiduels standardisés communs pour toutes les sondes. Alternativement, des erreurs standards peuvent être estimées à partir d'un ensemble d’apprentissage de nombreuses arrays et appliquées aux données en main.
Toutes les inférences statistiques ont une probabilité d'être incorrectes. Les faux positifs (erreurs de type I) sont des inférences incorrectes d'expression différentielle; les faux négatifs (erreurs de type II) sont des échecs de détecter de véritables expressions différentielles. Dans la pratique standard, le taux des faux-positif (α) est fixé à l'avance. Le taux des faux-négatif (β) est une fonction de divers paramètres, y compris α, et peut être estimé par analyse statistique de puissance (boîte 4).
Étant donné le grand nombre de sondes dans les arrays, l’échec de considérer le taux des faux-positif peut mener aux centaines de faux dérivations relativement à un nombre restreint de vrais effets (rapport de Spécificité:Sensibilité bas). Alternativement, imposer des conditions conservatrices pour juger une sonde pour être différentiellement exprimée, augmente le taux des faux-négatifs, produisant typiquement un bas rapport de Spécificité:Sensibilité. Pour placer le taux des faux-positif pour un seul test statistique, un α acceptable doit être choisi à l'avance (par exemple l’habituelle P-valeue < 0,05). Cependant, il devient plus compliqué quand un grand nombre de tests sont effectués, comme c'est le cas avec des microarrays. Si aucune des sondes n'est différentiellement exprimée, 5% sont prévus pour atteindre la ‘signification statistique’ avec les 0,05. Dans les exemples où on s'attend à ce que peu de sondes montrent des effets différentiels, le nombre de faux positifs accable les inférences correctes des expressions différentielles.
La correction en pas à pas de Bonferroni est la procédure de la plus connue pour contrôler le taux faux-positif quand des tests multiples sont effectués. Le taux faux-positif nominal est divisé par le nombre de tests pour rapporter le taux efficace.
Toutes les procédures de correction pour les multiples tests réduisent la sensibilité pour améliorer la spécificité. La clé est de réalise le bon équilibre.
le premier modèle statistique formel pour évaluer la signification des
ratios d'expression différentielle
n'a pas utilisé des
réplicats. L'idée centrale est que la
plupart des sondes dans une étude n'auront pas une expression différentielle et que le ratio moyen traitement:référence
de toutes les sondes sera approximativement 1;
les sondes avec une expression différentielle qui dévie
substantiellement de cette moyenne sont considérées différentiellement
exprimées de façon significative.
Les inconvénients des études sans réplicats incluent:
(1)
l'incapacité de distinguer les
grands ratios provoqués par de vrais effets et les grands ratios
provoqués par des outliers;
(2)
la confiance dans la prétention de non
expression différentielle parmi la plupart des sondes;
(3)
une sensibilité inférieure; et
(4) l'exclusion de la variabilité biologique
à travers différents échantillons.
Ces inconvénients ont mené aux appels pour l'usage courant des réplicats. Les choix spécifiques dépendent des prétentions au sujet des données. Si un nombre suffisant de réplicats est disponible, et si on assume que des valeurs d'expression sont normalement distribuées avec peu d'outliers, alors les t-tests bien connus peuvent aisément être calculés. Les solutions de rechange non paramétriques (exemple le U test de Mann-Whitney) sont disponibles mais sont généralement trop peu sensibles pour détecter les effets différentiels modérés ou petits.
Une approche plus générale suppose que la même erreur aléatoire réelle s'applique à toutes les sondes dans une étude spécifique, ou aux sondes d’une intensité similaires. Cette approche mélange (pool) les estimations d'erreur à travers les sondes et permet l'utilisation du z-test, un essai statistique semblable à t-test mais qui exige peu de réplicats pour réaliser la même sensibilité en vertu d'une estimation plus précise de l’erreur.
Une autre approche, conçue pour les données d'Affymetrix, fournit des tests statistiques basés sur des moyennes valuées (weighted) des estimations de l'erreur aléatoire spécifique à l’oligonucléotide.
Des approches bayésiennes ont été employées pour étudier beaucoup de problèmes dans la génétique et la biologie moléculaire et sont bien adéquates au champ de l'expression de gène. Spécifiquement pour tester l'expression différentielle, un modèle bayésien de la distribution des différences utilise une combinaison d'une distribution antérieure et des données. Puisqu'une méthode entièrement bayésienne est intensive du point de vue informatique, des raccourcis peuvent être pris. Ainsi, l'erreur de mesure et l'erreur due au spotting (impression) d’un gène peuvent être décrites en utilisant un modèle empirique de Bayes. En utilisant des simulations, un analogue bayésien au t-test a fonctionné mieux que le t-test quand le nombre de réplicats était bas; quand il a augmenté, le t-test et l'analogue bayésien ont également bien fonctionné.
Les études de microarray de
sont plus ou moins exploratoires (hypothèse-génération). L'exploration est une partie importante du
processus scientifique parce qu'elle forme la base pour de nouvelles directions
et futures expériences. Des questions
bien définies sont importantes (parce qu'elles réduisent au minimum les
incertitudes statistiques causées par l’exploration sans contrainte), de même
que la validation (parce qu'elle place des conclusions sur une terre plus
ferme). Des techniques moléculaires telles que RT-PCR ou Northern blot sont
souvent employées pour valider les résultats dans les cas où l'intérêt primaire
est de savoir quels gènes sont différentiellement exprimés. Cette approche est utile pour déterminer la
spécificité de l'analyse microarray mais ne fournit aucune information au sujet
de la question également critique de la sensibilité; c'est particulièrement important parce que les effets
différentiels sont souvent plus grands avec RT-PCR et Northern blot. Dans le
meilleur des cas, quelques sondes n’ayant pas d’expression différentielle
devraient être également validées.
Des résultats peuvent également être validés en utilisant diverses
approches statistiques. Un
sous-ensemble de sondes dans l'expérience originale peut être examiné dans un
autre échantillon. Alternativement,
l'étude peut être répétée pour déterminer si les effets différentiels sont
reproductibles. La seule voie pour faire ceci est de déterminer
si les mêmes sondes s'avèrent statistiquement significatives dans chaque étude. Pour une comparaison à deux conditions, une
meilleure manière serait de conduire une analyse factorielle de la variance
bi-directionnelle (condition ×
étude); l’échec d’une validation croisée des résultats
préliminaires serait démontré par une interaction statistique entre les
facteurs.
IV- Limites et Perspectives
De point de vue biologique, la technologie des microarrays est un outil
puissant pour cribler et explorer plusieurs gènes en un seul temps. Elle permet
de formuler des hypothèses sur les mécanismes cellulaires et les voies de
signalisation, en plus d’orienter les recherches vers l’une ou l’autre voies
pour comprendre les interactions cellulaires. Cependant, les résultats obtenus
par les microarrays doivent être validés par des expérimentations indépendantes
qui utilisent des techniques différentes. Ainsi, la véritable expression d’un gène
est le niveau de protéines produites et non pas le niveau d’ARNm. Malgré que
dans la plupart des cas, le niveau d’ARNm reflète le niveau des protéines, il y
a des situations dans lesquelles ceci n’est pas vrai. L’étude du transcriptome
ne peut être à elle seule suffisante pour expliquer des mécanismes cellulaires.
Ces études devraient être complétées par des explorations au niveau du
protéome. D’où l’importance de plus en
plus accrue des études protéomiques.
D’autre part, des microarrays sont limitées par la nature de la
molécule d’ARN. Elle n’est pas stable (vite dégradée) et il est difficile de
confirmer que tout l’ARN total a été extrait de la cellule.
Une autre limitation des microarrays est le problème du
cross-hybridation des gènes liés ou chevauchants.
La plupart des organismes ont des gènes qui se regroupent en familles
de gènes, et dans la plupart des cas ils montrent un grand degré de similarité
de séquence entre eux. La solution est de concevoir des sondes plus
spécifiques. Par ailleurs plusieurs organismes ont des gènes chevauchants où un
gène ou une ORF (Open reading frame ou cadre ouvert de lecture) est
sur un brin d’ADNduplex et un autre gène ou ORF est trouvé dans le brin
complémentaire du DNA duplex.
Enfin, plusieurs organismes utilisent l’épissage alternatif pour
répondre à une différenciation ou à d’autres signaux, et ces formes
alternatives de l’expression des gènes ne peuvent être distinguées par des
arrays basées sur l’ADNc ou les ORF.
Bien que la technologie microarray soit maintenant bien établie,
l'analyse statistique des microarrays est toujours dans sa petite enfance, et
les méthodes ne sont pas encore en place de permettre l'analyse automatisée de
haut-débit sans intervention humaine.
La transformation et l’analyse des données les points épineux.
Malgré que les problèmes d’analyses statistiques soient soulagés par
les nouveaux outils informatiques qui appliquent certaines des méthodes
discutées ici, les scientifiques et les statisticiens devront être familiers
avec les domaines de spécialisation de chacun à toutes les étapes d'analyse
microarray (conception expérimentale, analyse, et interprétation) pour une
collaboration optimale.
La technique des arrays a ouvert la voie vers son application au domaine des protéines. Des protéines arrays, utilisant des anticorps comme des sondes, seraient un bon outil pour étudier la production protéique d’une cellule dans des conditions particulières, expliquer les interactions protéines-ligands et comprendre davantage l’action des médicaments. Ce sont des techniques qui vont compléter celles qui utilisent les microarrays et donner une image plus réelle du profil d’expression d’une cellule ou un tissu cellulaire en réponse à des traitements ou conditions spécifiques.
Références
bibliographiques :
Krawetz, S, A. et Womble, D, D. 2003. Introduction to Bioinformatics: A theorical and Practical
Approach. Humana Press Inc. New Jersey. pp: 637-710.
Knudsen, S. 2002. A
biologist’s guide to Analysis of DNA Microarrays Data. John Wiley & Sons,
Inc. New York.
Nadon, R. et Shoemaker, J.
2002. Statistical issues with microarrays :
processing an
anlysis. TRENDS in Genetics, Vol. 18, No.5. pp: 265-271.
Sinibaldi, R., O’Connell, C., Seidel, C., Rodriguez, H. 2001. In : DNA Arrays: Methods and
Protocols. Edited by: Rampal, J, B. 2001. Human Press Inc. Totowa, New Jersey.
p: 213.