Cours BIF7002

Séminaire en bioinformatique

(HIVER 2004)

Professeur : Vladimir Makarenkov

Statistical issues with microarrays :

processing an anlysis

Conférence de:

M. Robert Nadon

Rapport préparé par :

Youness El Amraoui

Youssef Slimani

Université du Québec À Montréal

Introduction

La science de la génomique peut être divisée en trois principaux domaines : le séquençage de l’ADN (le génome), le profil d’expression (le transcriptome) et la protéomique (le protéome).

La révolution génomique est construite autour du séquençage de l’ADN qui a conduit aux projets de séquençage de différents organismes. Le profil d’expression est l’étude de la réponse des multiples ARNm, présents dans un type cellulaire spécifique ou un tissu, à des conditions ou traitements spécifiques. La protéomique étudie les changements d’une partie ou de toutes les protéines présentes dans un tissu ou un type de cellule, incluant les modifications post-traductionnelles comme la phosphorylation ou la glycosylation. Ces trois branches de la génomique traitent trois molécules : l’ADN, l’ARN et les protéines.

Le profil d’expression permet de comprendre la réponse transcriptionnelle d’un tissu ou d’une cellule à son environnement, en identifiant tous ou plusieurs ARNm et comment ces derniers changent suivant le changement de l’environnement de la cellule.

Élucider les ARNm présents et identifier les gènes dont le niveau d’expression a le plus changé, en réponse à des conditions ou des traitements spécifiques, est une voie très utile pour commencer à déchiffrer les mécanismes cellulaires des maladies et des réponses aux médicaments. Le profil d’expression promet d’identifier de nouvelles cibles pour les interventions contre les maladies. Pour cette raison, la communauté académique ainsi que les industries pharmaceutiques et de biotechnologies ont adopté le profil d’expression comme une technologie vitale.

l'étude de l'expression de gène avec les microarrays évolue d'une science qualitative à une science quantitative. Les procédures statistiques pour assurer le contrôle de qualité, déterminer l'expression différentielle, et vérifier la reproductibilité des résultats sont une conséquence normale de cette évolution. Cependant, les problèmes inhérents à cette technologie ont soulevé des questions importantes de la façon à appliquer des tests statistiques adéquats. Les approches statistiques appliquées aux études par microarray ne sont pas encore aussi courantes qu'elles le sont pour d'autres sciences. Des méthodes statistiques, conçues en pour des microarrays, continuent à être adaptées et développés.

L’organisation de ce rapport de conférence repose sur quatre parties. En premier lieu un aperçu biologique traitera le principe des microarrays et les principales approches. Une deuxième partie sera consacrée à une revue des étapes de transformation, d’analyse et d’exploration des données. La troisième partie sur l’analyse statistique consiste en une revue de l’article, sujet de la conférence, du professeur R.Nadon sur les problèmes statistiques des microarrays. La quatrième partie concerne les perspectives et les limites de cette technologie.

I- Aperçu biologique

Le principe de base fondamental de la technique est le processus d’hybridation. Deux brins d’ADN s’hybrident s’ils sont complémentaires l’un à l’autre. Un des deux bris (ou les deux) formant l’hybride d’ADN peut être remplacé par l’ARN et l’hybridation continue s’il y a complémentarité.

L’hybridation a été utilisée pendant des décennies en biologie moléculaire comme principe de base pour des techniques comme Southern blot et Northern blot.

Dans le Southern blot, un oligonucléotide est utilisé pour s’hybrider avec son complémentaires parmi des fragments d’ADN séparés par électrophorèse sur gel. Si l’oligonucléotide est marqué par un radio-isotope, l’hybridation peut être visualisée par une photo radiographie.

Dans le Northern blot, un oligonucléotide avec un marqueur radioactif est utilisé pour s’hybrider à un ARNm qui a auparavant migré sur un gel. Si cet oligo est spécifique à un ARNm, il va se lier à la location (bande) de cet ARNm sur le gel. Le niveau de radiation capturée par la photo dépend de la quantité de la sonde radioactive présente dans la bande, qui dépend à son tour de la quantité de l’ARNm. C’est donc une méthode semi-quantitative pour détecter des ARNm individuels.

DNA microarrays est une version massive parallèle aux techniques de Southern et Northern blot. C’est une technique d’hybridation, et au lieu de distribuer des sondes oligonucléotidiques sur un gel ou une membrane contenant des échantillons d’ADN ou d’ARN, les sondes sont immobilisées sur une surface.

Il est possible de mener des milliers d’hybridations. Ainsi, il est possible d’étudier plusieurs gènes et plusieurs ARNm en même temps. En réalité, DNA microarrays étudie généralement ‘tous’ les ARNm connus d’un organisme. Ceci a permis la possibilité d’avoir une nouvelle vision systématique sur la façon dont une cellule réagit en réponse à un stimulus. C’est aussi une nouvelle voie pour étudier les maladies en ayant une visibilité sur l’expression de tous les gènes dans une cellule.

Pour mesurer la concentration des ARNm dans une cellule par la technique de microarrays, on utilise une sonde ou plus d’un brin d’ADN qui ‘matche’ avec un ARNm particulier de la cellule. La concentration d’un ARNm est le résultat de l’expression de son gène correspondant, cette application est connue comme une analyse d’expression. Quand plusieurs sondes matchent tous les ARNm d’une cellule, un ‘fond’ (pool) instantané d’ARNm total d’une cellule vivante ou d’un tissu peut être obtenu. Ceci est connu comme un profil d’expression car il reflète l’expression de chaque gène mesurée à un moment particulier. Le profil d’expression est aussi utilisé pour un seul gène dans plusieurs conditions.

Deux technologies majeures sont disponibles pour une analyse d’expression. Il y a le système GeneChip, de la compagnie Affymetrix, Inc., qui utilise des puces d’ oligonucléotides préfabriqués. Le second type, spotted (imprimés) arrays, consiste en des puces personnalisées où un robot est utilisé pour fixer de l’ADN complémentaire (ADNc), des oligonucléotides, ou des produits de PCR sur une lame en verre.

1- Affymetrix GeneChip (oligo arrays)

À l’instar de l’industrie des puces de silicon pour ordinateurs, Affymetrix utilise des masques pour contrôler la synthèse des oligonucléotides sur la surface d’une puce. Les masques contrôlent la synthèse de plusieurs centaines milliers de carreaux, chacun contient plusieurs copies d’un oligo d’une longueur de 25 nucléotides. Pour une analyse d’expression, plus de 40 oligos sont utilisés pour la détection de chaque gène. Affymetrix a choisi un région de chaque gène qui a potentiellement le minimum de similarité avec les autres gènes. À partir de cette région 11 à 20 oligos sont choisis comme des matches parfaits (PM) (complémentarité parfaite avec l’ARNm de ce gène). En plus, ils ont généré 11 à 20 oligos à ‘mismatch’ (MM) qui sont identiques aux oligos PM à l’exception de la position centrale. Affymetrix soutient que les oligos MM seront capables de détecter l’hybridation non spécifique et celle du fond, qui sont importants pour quantifier les ARNm faiblement exprimés.

2- Spotted arrays (cDNA arrays)

Pour cette technologie, un robot ‘spotter’ est utilisé pour déplacer une petite quantité de sondes en solution à partir d’un microtiter sur un support de verre. Les sondes sont constituées de l’ADNc, produits de PCR ou des oligonucléotides. Chaque sonde est un complémentaire à un gène unique. Les sondes peuvent être fixées à la surface par plusieurs façons. La méthode classique utilise une liaison non spécifique aux lames enduite de polylysine.

L’avantage comparé avec l’Affymetrix GeneChips est la possibilité de concevoir n’importe quelle sonde pour la fixer sur l’array. Des chercheurs peuvent utiliser des microarrays personnalisées selon leur domaine de recherches. On peut avoir par exemple des lymphoarrays pour étudier les lymphocytes et utiliser donc des sondes qui sont jugées importantes pour la biologie des ces cellules spécialisées.

Le désavantage est que les ‘spotted’ ne seront pas aussi uniformes que les puces Affymetrix synthétisées in situ et que le coût des oligos devient très élevé pour des puces contenant des milliers de sondes.

De point de vue analyse des données, la principale différence est que dans les cDNA arrays, l ‘échantillon et le contrôle sont hybridés dans la même puce en utilisant différents fluorochromes , alors que les puces Affymetrix utilise un seul fluorchrome pour les deux puces necessaires pour comparer l’échantillon et le contrôle.

La figure 1 résume les différences entre les deux types de microarrays.

Figure 1 : revue des deux méthodes pour comparer des populations d’ARNm dans des cellules de conditions différentes .

II- Analyse et exploration des données :

L’analyse des données ce fait en 6 grande étapes :

- Acquisition de l’image

- Positionnement de la grille

- Extraction du signal

- Normalisation et filtration des données

- Analyse statistique

- Exploration des données (Data Mining)

1- Acquisition de l’image

L’acquisition de l’image c’est-à-dire la lecture de la lame se fait grâce à deux scanners appropriés détectant les ADN marqués en double fluorescence (Cy3 / Cy5) ou en radioactivité (H3 / S35) :

- le scanner MicroImager (Biospace Mesures) permet de lire vos lames de microarrays hybridées avec des sondes radioactives,

- le scanner GenePix 4000 B (Axon Instruments) permet de lire vos lames marquées en double fluorescence.

Ces scanners vont alors générer deux images représentant chacune l’intensité de la fluorescence ou de la radioactivité lue pour chaque marqueur (signaux émis par les ADN marqués par un des marqueurs fluorescents ou radioactifs). Après cette étape d’acquisition d’image, il vous faudra localiser les spots et positionner la grille d’identification des spots sur l’image obtenue après le scan de votre lame.

Attention à scanner la lame dans le bon sens par rapport à la grille.

2- Positionnement de la grille

Le logiciel GenePix Pro 4.0 est disponible sur 4 ordinateurs de la plate-forme (Scanner Axon, Imagerie1, Imagerie2 et Imagerie3). Il vous permet de positionner la grille (fichier .gal fourni avec vos lames, comprenant le descriptif des gènes déposés ainsi que leur position sur la lame) sur l’image que vous avez obtenue à l’issue du scan. Il vous faut alors aligner les cercles de la grille sur les spots de votre image afin de faire correspondre le descriptif de chaque gène avec l’intensité de signal de ce même gène, ceci grâce au logiciel GenePix Pro 4.0. Vous pouvez à ce moment identifier les spots qui ne sont pas corrects (poussières, …).

3- Extraction du signal

Le logiciel GenePix Pro 4.0 mesure l’intensité du signal pour chaque gène pour les deux marquages de la lame ainsi que le bruit de fond local de chaque spot. Le bruit de fond correspond à l’hybridation aspécifique des marqueurs sur la lame (entre les spots ou encore sur les spots ayant reçu du tampon seul).

4- Normalisation et filtration des données

L’étape de normalisation correspond à l’application d’un facteur de correction pour corriger le biais entre les deux marqueurs utilisés. Différents logiciels sont disponibles sur la plate-forme pour normaliser vos données de puces à ADN :

- logiciels commerciaux disponibles sur la plate-forme :

§ GenePix Pro 4.0 (Axon Instruments) : normalisation par rapport à la médiane

§ Genespring (Silicon Genetics) : normalisation par rapport à la médiane, normalisation par rapport à un échantillon de référence, Lowess et normalisation par rapport à des gènes contrôles

- logiciels disponibles gratuitement et installés sur les ordinateurs de plate-formes :

§ Bioconductor : normalisation par rapport à la médiane, normalisation par rapport à une distribution de référence, Lowess, TwoD, printTipLowess, scalePrintTipLowess – Utilisation du langage R indispensable

§ Gprocessor : normalisation Lowess

§ Dchip : normalisation par rapport à une distribution de référence (lames Affymetrix)

§ Marc-V (MicroArray Calculation Vizualization) : normalisation par rapport à la médiane

§ MIDAS (Microarray Data Analysis System) (TIGR) : normalisation globale, Lowess …

- D’autres logiciels sont disponibles gratuitement sur Internet (GEPAS, VARAN…)

L’étape suivante réside dans la filtration de vos données (filtration automatique selon certains critères) :

- logiciels commerciaux disponibles sur la plate-forme :

§ GenePix Pro 4.0 (Axon Instruments)

§ Genespring (Silicon Genetics)

- logiciels disponibles gratuitement et installés sur les ordinateurs de la plate-forme :

§ Dchip (lames Affymetrix)

§ MIDAS (Microarray Data Analysis System) (TIGR)

- logiciels disponibles gratuitement sur Internet (GEPAS, …)

5- Analyse statistique

L’analyse statistique (t-test, ANOVA, …) permet de connaître le degré de signification des résultats obtenus pour chaque gène et ainsi déterminer la liste des gènes différentiellement exprimés :

- logiciel commercial disponible sur la plate-forme :

§ Genespring (Silicon Genetics)

- logiciels disponibles gratuitement et installés sur les ordinateurs de la plate-forme :

§ Bioconductor

§ SAM (Significance Analysis of Microarrays)

§ MeV (MultiExperiment Viewer) (TIGR)

- logiciels disponibles gratuitement sur Internet (GEPAS, …)

6- Exploration des données (Data Mining)

Le Data Mining correspond à une fouille précise et complexe des données (exploration des données). Afin d’effectuer une analyse plus fine de l’expression des gènes, vous pouvez utiliser les méthodes de classification de vos gènes en plusieurs groupes de gènes ayant des expressions semblables ou des fonctions semblables (clustering, arbres de décision, Gene Ontology, …), et / ou les méthodes de prédiction (LDA, PAM, …) grâce aux logiciels et méthodes suivantes :

- logiciel commercial sur la plate-forme :

§ Genespring (Silicon Genetics) pour la classification des gènes : méthodes k-means, geneTree, conditionTree, self-organizing map (SOM), QT (Quality Treshold) Clustering, analyse en composante principale (ACP)

- logiciels disponibles gratuitement et installés sur les ordinateurs de la plate-forme :

§ Bioconductor pour la classification et la prédiction : méthodes de clustering hiérarchique, k-means, analyse en composante principale (ACP), PAM (partinioning around medoids), analyse discriminante linéaire (LDA)

§ Jexpress pour la classification des gènes : clustering hiérarchique, k-means, self-organizing map (SOM), analyse en composante principale (ACP)

§ Dchip pour la classification des gènes : clustering hiérarchique, analyse en composante principale (ACP)

§ MeV (MultiExperiment Viewer) (TIGR) pour la classification des gènes : clustering hiérarchique, k-means, self-organizing map (SOM), analyse en composante principale (ACP), QT clustering

§ GenMAPP (Gene Microarray Pathway Profiler) pour visualiser les expressions des gènes sur des cartes représentant des groupes de gènes.

- logiciels disponibles gratuitement sur Internet (GEPAS (gene ontology), …)

III- L’analyse statistique et les microarrays :

Actuellement l’intérêt, concernant les données de l’expression des gènes, est concentré sur la quantification de l’image, la transformation et l’analyse des données.

L’analyse des données se divise en deux catégories :

1. la reconnaissance des patterns qui peut être non supervisée (analyse par clustering, découverte de classes) ou supervisée (analyse discriminatoire, prédiction de classes);

2. détection de l’expression différentielle basée sur amorce par amorce.

La conférence de R. Nadon a traité les questions conceptuelles statistiques concernant la transformation des données et l’expression différentielle.

Les difficultés émergent principalement de la myriade des sources potentielles d'erreurs de mesure aléatoires et systématiques dans la technique des microarrays et de le petit nombre de répétitions (échantillons : lignées cellulaires , patients…) relativement au grand nombre de variables (les sondes).

Ceci soulève des questions au sujet de la validité de plusieurs des résultats de microarrays rapportés jusqu'à maintenant. La confrontation de ces questions est cruciale pour fournir des données de microarrays utiles et à tirer des conclusions instructives.

Bien que différentes dans leurs conditions particulières, les problèmes et les solutions sont communes à toutes les technologies d’arrays (cDNA arrays contre oligo arrays; radio-isotopes contre marqueurs fluorescents; membrane en nylon contre lame en verre contre les substrats de biopuce).

1- L’inférence statistique et scientifique :

considèrent le problème de détecter une différence dans l'expression entre deux groupes. Le but de l'analyse statistique dans ce contexte est de détecter s'il y a une différence fiable et biologiquement appropriée dans le niveau d'expression.

Les difficultés de détecter une différence dans l'expression proviennent des problèmes tels que la confusion entre l'erreur systématique et les composants de traitement (ce qui pourrait donner un résultat statistiquement significatif mais qui n'a aucun soutien biologique) et les petites dimensions de l'échantillon (engendrent la grande erreur aléatoire ce qui entraîne des difficultés d’interpréter les résultats).

Les résultats statistiques doivent être interprétés dans le contexte de la conception expérimentale et le but de l'étude, ainsi:

· des résultats statistiquement significatifs peuvent refléter les effets biaisés des facteurs étrangers plutôt que de nature biologique

· Le manque de signification statistique peut refléter une basse sensibilité expérimentale, plutôt que l'absence d'un effet biologique. La basse sensibilité peut être provoquée par un nombre insatisfaisant de réplicats, un manque de contrôle des facteurs étrangers qui contribuent à l'erreur aléatoire, ou par les deux .

Les données d'expression de gènes peuvent être analysées de plusieurs manières; le conférencier s’est limité à exposer les procédures univariables (univariate procedures) , qui sont critiques pour la planification des expériences, détermination de la fonction de gènes spécifiques, et la production de données de haute qualité pour des analyses ultérieures.

Analyse Quantification des arrays Analyses ‘Data mining’

Statistique (à partir de l’image statistiques et

de puissance numérique) contrôle de qualité

-Estimer le nombre -Éliminer les artéfacts - Normaliser

des réplicats nécessaires -Soustraire le substrat -Détecter les outliers

pour détecter des effets -Obtenir des P-values,

intéressants des erreurs standards,

-Contrôle des faux négatifs des intervales de confiance

-Contrôle des faux positifs

Figure 2 : Le flux des analyses des données

1.1- Les erreurs de mesure

Il y a deux types d'erreur de mesure: aléatoire et systématique.

L'erreur aléatoire est minimisée en contrôlant les facteurs étrangers et en obtenant plus de mesures répétées (réplicats).

Les erreurs systématiques (biais) sont contrôlés expérimentalement aussi bien que possible, bien que la correction statistique additionnelle soit invariablement nécessaire avec la technologie de microarrays courante.

Une liste partielle de facteurs étrangers qui contribuent à l'erreur aléatoire et/ou à des valeurs biaisées inclut: l'heure que des rangées (arrays) sont traités; l’accessibilité de la cible, qui est affectée par des variations de l'absorption des membranes en nylon; la fixation de la cible aux lames en verre; et les variations des procédures de lavage.

1. 2- L'erreur aléatoire

L’erreur aléatoire est une estimation de l'incertitude dans la mesure et elle est donc centrale dans l'inférence statistique. Les erreurs aléatoires reflètent des incertitudes inévitables dans toutes les mesures scientifiques, rendant des procédures statistiques nécessaires. L'erreur aléatoire ne peut pas être éliminée, mais estimée à partir des données observées.

L'erreur aléatoire à travers des répliques, obtenues à partir des aliquots du même échantillon d'ARN, limite les sources d'erreur aux aspects techniques de l’expérience. L'obtention des répliques à partir de différents échantillons biologiques (par exemple patients) augmente l'erreur aléatoire mais produit des résultats qui ont une meilleure validité externe et une plus large applicabilité (une inférence plus large).

Un minimum de trois ou quatre répliques par groupe ou condition expérimentale a été recommandé pour expliquer la variation aléatoire et pour fournir une bonne sensibilité.

1.3- L’erreur systématique

Les erreurs systématiques sont des biais; ils résultent d’une tendance constante à sur ou sous-estimer des valeurs vraies, diminuant de ce fait l'exactitude ou la confiance (accuracy).

Les facteurs biaisant les résultats sont sous plusieurs formes et dépendent partiellement des technologies d’impression (spotting les arrays), de balayage (scanning) et de marquage. Les biais peuvent affecter, de la même façon, toutes les valeurs d'expression sur une rangée ou ils dépendent d'autres facteurs (par exemple la localisation spatiale, la tige d’impression (spotting) goupilles, l’intensité du signal). L’omniprésence potentielle de valeurs imprécises d'expression, est un obstacle important à créer des bases de données publiques d'expression de gènes obtenues dans différents laboratoires. En effet, sans de rigoureux contrôles, l'exactitude des comparaisons intra-laboratoire est souvent incertaine.

Les sources de polarisation sont dans la théorie identifiable par des études de contrôle de qualité. Cependant, des biais de diverses sources peuvent être non orthogonaux et sont souvent non-linéaires. Ceci, en plus du peu de répliques disponibles pour l’estimation, compliquent la quantification des sources spécifiques des biais. Néanmoins, la conception expérimentale et les approches statistiques robustes ont contribué intensivement à corriger des polarisations dans des données de rangée.

Le fond (background) présente un cas spécial de biais. Sur l'acceptation (assumption) de l'erreur additive, l’évaluation de fond est habituellement soustraite de la valeur d'expression mesurée avant la transformation logarithmique et avant de corriger d'autres erreurs systématiques.

Des estimations de l'intensité du fond peuvent être obtenues à partir de Pixels de basses intensités dans les spots, des secteurs en dehors spots, ou à partir de contrôles négatifs qui ne contiennent aucun ADN ou contenant de l’ADN non spécifique.

D'autres sources d'erreur systématique sont considérées proportionnelles à l'intensité du signal et sont souvent corrigées en divisant la valeur brute d'expression par une estimation de l'erreur systématique, bien qu'une méthode préférée soit la transformation logarithmique de l'erreur estimée ainsi que de la valeur d'expression et de corriger les valeurs par soustraction. Pour l’une ou l’autre méthode, les valeurs d’expression corrigées sont dites normalisées.

Diverses méthodes de normalisation ont été proposées. Les méthodes globales divisent les valeurs d'expression par une évaluation de l'erreur systématique (moyenne) pour chaque rangée, contrôlant des différences proportionnelles à travers les lames (membranes ou puces).

Pour être efficace, la plupart des sondes ne doivent pas être affectées par le traitement, ou le procédé de normalisation confond l'erreur et l'effet de traitement, potentiellement masquant l'effet d’expression différentielle des sondes ou créant des effets différentiels où aucun n'existe.

Des références standards qui sont inchangées par traitement sont nécessaires pour éviter ce problème.

Les gènes domestiques (housekeeping genes), qui dans la théorie devraient montrer peu d'effet de traitement, n’ont donné satisfaction. Des ADN hétérologues synthétiques ont été avancé comme une possible alternative. Cependant, comme avec les méthodes globales, ce type de correction d'erreur systématique suppose que le biais est constant à travers l’entière étendue des données.

Comme une étape vers la résolution de ces problèmes, la méthode des séries de titration de l’ADN hétérologue semble prometteuse. Cependant, le calibrage aux standards pointus est difficile, en partie parce que les intensités des marqueurs ne pourraient pas refléter les niveaux de message absolus et en partie parce que les incertitudes dans la manipulation fluide et les préparations d'ARN pourraient biaiser les standards. En conséquence, même les arrays d'expression calibrées fournissent seulement des mesures relatives (par exemple ce spot est 50% plus lumineux que celui-là, au lieu d'indiquer 150 molécules marquées contre 100).

Ce problème est plus marqué quand deux fluorescents sont employés pour construire des ratios.

Les arrays à deux couleurs présentent un problème additionnel de normalisation. L'ampleur de l'erreur systématique, causée par des différences dans les colorants fluorescents, dépend typiquement du niveau d'expression. Des procédures statistiques non-linéaires de régression ont été développées pour résoudre ce problème, bien que répéter les expériences qui alternent les colorants à travers le traitement et les échantillons de référence peut parfois rendre la normalisation non-linéaire inutile.

1.4- Les outliers

Les outliers sont des valeurs extrêmes dans une distribution des réplicats. Une reproductibilité faible peut être provoquée par une image non corrigée des artéfacts (par exemple la poussière sur des rangées fluorescentes ou ‘une hyperluminosité du spot (blooming) sur des arrays radioisotopiques). Ils peuvent également être causés par des facteurs indétectables par l’analyse d'image, tels que la cross-hybridation ou l’échec d'hybridation adéquate d'une sonde. Les outliers peuvent compter aussi haut que 15% dans les études microarrays typiques et sont révélés seulement par la déviance extrême de leurs valeurs d'expression relativement à d'autres réplicats. Les outliers non détectés biaisent l'évaluation de la valeur d'expression et de son erreur aléatoire associée, réduisant aussi bien la spécificité et que la sensibilité. Elles compromettent ainsi des tests individuels d'expression différentielle et de classification d'exploration de données (data mining).

Bien que de nombreuses méthodes soient disponibles pour la détection statistique d'outliers, elles sont généralement insatisfaisantes étant donné le petit nombre de réplicats typique dans les études de microarrays. Puisqu'elles estiment l'erreur aléatoire sur la base de sonde par sonde, souvent ces méthodes identifient faussement des réplicats comme outliers et ne détectent pas vrais outliers. Un échantillon de large taille est nécessaire pour détecter plus exactement des outliers et avec précision. Une méthode est de mettre des résiduels standardisés communs pour toutes les sondes. Alternativement, des erreurs standards peuvent être estimées à partir d'un ensemble d’apprentissage de nombreuses arrays et appliquées aux données en main.

2- Les erreurs de l'inférence

Toutes les inférences statistiques ont une probabilité d'être incorrectes. Les faux positifs (erreurs de type I) sont des inférences incorrectes d'expression différentielle; les faux négatifs (erreurs de type II) sont des échecs de détecter de véritables expressions différentielles. Dans la pratique standard, le taux des faux-positif (α) est fixé à l'avance. Le taux des faux-négatif (β) est une fonction de divers paramètres, y compris α, et peut être estimé par analyse statistique de puissance (boîte 4).

Étant donné le grand nombre de sondes dans les arrays, l’échec de considérer le taux des faux-positif peut mener aux centaines de faux dérivations relativement à un nombre restreint de vrais effets (rapport de Spécificité:Sensibilité bas). Alternativement, imposer des conditions conservatrices pour juger une sonde pour être différentiellement exprimée, augmente le taux des faux-négatifs, produisant typiquement un bas rapport de Spécificité:Sensibilité. Pour placer le taux des faux-positif pour un seul test statistique, un α acceptable doit être choisi à l'avance (par exemple l’habituelle P-valeue < 0,05). Cependant, il devient plus compliqué quand un grand nombre de tests sont effectués, comme c'est le cas avec des microarrays. Si aucune des sondes n'est différentiellement exprimée, 5% sont prévus pour atteindre la ‘signification statistique’ avec les 0,05. Dans les exemples où on s'attend à ce que peu de sondes montrent des effets différentiels, le nombre de faux positifs accable les inférences correctes des expressions différentielles.

La correction en pas à pas de Bonferroni est la procédure de la plus connue pour contrôler le taux faux-positif quand des tests multiples sont effectués. Le taux faux-positif nominal est divisé par le nombre de tests pour rapporter le taux efficace.

Toutes les procédures de correction pour les multiples tests réduisent la sensibilité pour améliorer la spécificité. La clé est de réalise le bon équilibre.

3- Les tests statistiques de l'expression différentielle

le premier modèle statistique formel pour évaluer la signification des ratios d'expression différentielle n'a pas utilisé des réplicats. L'idée centrale est que la plupart des sondes dans une étude n'auront pas une expression différentielle et que le ratio moyen traitement:référence de toutes les sondes sera approximativement 1; les sondes avec une expression différentielle qui dévie substantiellement de cette moyenne sont considérées différentiellement exprimées de façon significative.

Les inconvénients des études sans réplicats incluent:

(1) l'incapacité de distinguer les grands ratios provoqués par de vrais effets et les grands ratios provoqués par des outliers;

(2) la confiance dans la prétention de non expression différentielle parmi la plupart des sondes;

(3) une sensibilité inférieure; et

(4) l'exclusion de la variabilité biologique à travers différents échantillons.

Ces inconvénients ont mené aux appels pour l'usage courant des réplicats. Les choix spécifiques dépendent des prétentions au sujet des données. Si un nombre suffisant de réplicats est disponible, et si on assume que des valeurs d'expression sont normalement distribuées avec peu d'outliers, alors les t-tests bien connus peuvent aisément être calculés. Les solutions de rechange non paramétriques (exemple le U test de Mann-Whitney) sont disponibles mais sont généralement trop peu sensibles pour détecter les effets différentiels modérés ou petits.

Une approche plus générale suppose que la même erreur aléatoire réelle s'applique à toutes les sondes dans une étude spécifique, ou aux sondes d’une intensité similaires. Cette approche mélange (pool) les estimations d'erreur à travers les sondes et permet l'utilisation du z-test, un essai statistique semblable à t-test mais qui exige peu de réplicats pour réaliser la même sensibilité en vertu d'une estimation plus précise de l’erreur.

Une autre approche, conçue pour les données d'Affymetrix, fournit des tests statistiques basés sur des moyennes valuées (weighted) des estimations de l'erreur aléatoire spécifique à l’oligonucléotide.

Des approches bayésiennes ont été employées pour étudier beaucoup de problèmes dans la génétique et la biologie moléculaire et sont bien adéquates au champ de l'expression de gène. Spécifiquement pour tester l'expression différentielle, un modèle bayésien de la distribution des différences utilise une combinaison d'une distribution antérieure et des données. Puisqu'une méthode entièrement bayésienne est intensive du point de vue informatique, des raccourcis peuvent être pris. Ainsi, l'erreur de mesure et l'erreur due au spotting (impression) d’un gène peuvent être décrites en utilisant un modèle empirique de Bayes. En utilisant des simulations, un analogue bayésien au t-test a fonctionné mieux que le t-test quand le nombre de réplicats était bas; quand il a augmenté, le t-test et l'analogue bayésien ont également bien fonctionné.

4- Validation

Les études de microarray de sont plus ou moins exploratoires (hypothèse-génération). L'exploration est une partie importante du processus scientifique parce qu'elle forme la base pour de nouvelles directions et futures expériences. Des questions bien définies sont importantes (parce qu'elles réduisent au minimum les incertitudes statistiques causées par l’exploration sans contrainte), de même que la validation (parce qu'elle place des conclusions sur une terre plus ferme). Des techniques moléculaires telles que RT-PCR ou Northern blot sont souvent employées pour valider les résultats dans les cas où l'intérêt primaire est de savoir quels gènes sont différentiellement exprimés. Cette approche est utile pour déterminer la spécificité de l'analyse microarray mais ne fournit aucune information au sujet de la question également critique de la sensibilité; c'est particulièrement important parce que les effets différentiels sont souvent plus grands avec RT-PCR et Northern blot. Dans le meilleur des cas, quelques sondes n’ayant pas d’expression différentielle devraient être également validées.

Des résultats peuvent également être validés en utilisant diverses approches statistiques. Un sous-ensemble de sondes dans l'expérience originale peut être examiné dans un autre échantillon. Alternativement, l'étude peut être répétée pour déterminer si les effets différentiels sont reproductibles. La seule voie pour faire ceci est de déterminer si les mêmes sondes s'avèrent statistiquement significatives dans chaque étude. Pour une comparaison à deux conditions, une meilleure manière serait de conduire une analyse factorielle de la variance bi-directionnelle (condition × étude); l’échec d’une validation croisée des résultats préliminaires serait démontré par une interaction statistique entre les facteurs.

IV- Limites et Perspectives

De point de vue biologique, la technologie des microarrays est un outil puissant pour cribler et explorer plusieurs gènes en un seul temps. Elle permet de formuler des hypothèses sur les mécanismes cellulaires et les voies de signalisation, en plus d’orienter les recherches vers l’une ou l’autre voies pour comprendre les interactions cellulaires. Cependant, les résultats obtenus par les microarrays doivent être validés par des expérimentations indépendantes qui utilisent des techniques différentes. Ainsi, la véritable expression d’un gène est le niveau de protéines produites et non pas le niveau d’ARNm. Malgré que dans la plupart des cas, le niveau d’ARNm reflète le niveau des protéines, il y a des situations dans lesquelles ceci n’est pas vrai. L’étude du transcriptome ne peut être à elle seule suffisante pour expliquer des mécanismes cellulaires. Ces études devraient être complétées par des explorations au niveau du protéome. D’où l’importance de plus en plus accrue des études protéomiques.

D’autre part, des microarrays sont limitées par la nature de la molécule d’ARN. Elle n’est pas stable (vite dégradée) et il est difficile de confirmer que tout l’ARN total a été extrait de la cellule.

Une autre limitation des microarrays est le problème du cross-hybridation des gènes liés ou chevauchants.

La plupart des organismes ont des gènes qui se regroupent en familles de gènes, et dans la plupart des cas ils montrent un grand degré de similarité de séquence entre eux. La solution est de concevoir des sondes plus spécifiques. Par ailleurs plusieurs organismes ont des gènes chevauchants où un gène ou une ORF (Open reading frame ou cadre ouvert de lecture) est sur un brin d’ADNduplex et un autre gène ou ORF est trouvé dans le brin complémentaire du DNA duplex.

Enfin, plusieurs organismes utilisent l’épissage alternatif pour répondre à une différenciation ou à d’autres signaux, et ces formes alternatives de l’expression des gènes ne peuvent être distinguées par des arrays basées sur l’ADNc ou les ORF.

Bien que la technologie microarray soit maintenant bien établie, l'analyse statistique des microarrays est toujours dans sa petite enfance, et les méthodes ne sont pas encore en place de permettre l'analyse automatisée de haut-débit sans intervention humaine. La transformation et l’analyse des données les points épineux.

Malgré que les problèmes d’analyses statistiques soient soulagés par les nouveaux outils informatiques qui appliquent certaines des méthodes discutées ici, les scientifiques et les statisticiens devront être familiers avec les domaines de spécialisation de chacun à toutes les étapes d'analyse microarray (conception expérimentale, analyse, et interprétation) pour une collaboration optimale.

La technique des arrays a ouvert la voie vers son application au domaine des protéines. Des protéines arrays, utilisant des anticorps comme des sondes, seraient un bon outil pour étudier la production protéique d’une cellule dans des conditions particulières, expliquer les interactions protéines-ligands et comprendre davantage l’action des médicaments. Ce sont des techniques qui vont compléter celles qui utilisent les microarrays et donner une image plus réelle du profil d’expression d’une cellule ou un tissu cellulaire en réponse à des traitements ou conditions spécifiques.

Références bibliographiques :

Krawetz, S, A. et Womble, D, D. 2003. Introduction to Bioinformatics: A theorical and Practical Approach. Humana Press Inc. New Jersey. pp: 637-710.

Knudsen, S. 2002. A biologist’s guide to Analysis of DNA Microarrays Data. John Wiley & Sons, Inc. New York.

Nadon, R. et Shoemaker, J. 2002. Statistical issues with microarrays :

processing an anlysis. TRENDS in Genetics, Vol. 18, No.5. pp: 265-271.

Sinibaldi, R., O’Connell, C., Seidel, C., Rodriguez, H. 2001. In : DNA Arrays: Methods and Protocols. Edited by: Rampal, J, B. 2001. Human Press Inc. Totowa, New Jersey. p: 213.