0% ont trouvé ce document utile (0 vote)
63 vues34 pages

ANOVA

Transféré par

contactbelhachemi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues34 pages

ANOVA

Transféré par

contactbelhachemi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 34

Analyse de la variance et de la

covariance

• Analyse de la variance à 1 facteur


• ANOVA à 2 facteurs
• Conditions d’utilisation
Analyse de la variance à 1 facteur

Objectif : nous avons effectué des inférences sur une moyenne de


population, puis comparé 2 moyennes. L’ANOVA à 1 facteur permet de
comparer simplement plusieurs moyennes.
Exemple : nous voulons comparer 3 machines. Mais la comparaison est
délicate car leur production horaire respective est variable (facteur
« humain » des individus qui les manipulent, etc.). Pour pallier ces
variations en espérant qu’elles se compensent, on va prélever de manière
aléatoire et pour chaque machine un échantillon de 5 productions
horaires.  Les machines ont-elles vraiment des productions différentes
?
Analyse de la variance à 1 facteur

Machine 1 Machine 2 Machine 3


47 55 54
53 54 50
49 58 51
50 61 51
46 52 49
Xi X 1 = 49 X 2 = 56 X 3 = 51 X = 52
(X i − X ) -3 4 -1 Σ( X i − X ) = 0
(X i − X )2 9 16 1 Σ(X i − X )2 = 26
Analyse de la variance à 1 facteur

« Les machines sont-elles vraiment différentes ? » revient à s’interroger


sur les raisons des différences entre les 3 moyennes d’échantillon du
tableau précédent. 2 explications sont possibles :
• les moyennes d’échantillon varient à cause des différences entre les
moyennes des populations sous-jacentes μ1, μ2, μ3 (avec μ1 la
production au cours de la durée de vie de la machine 1)  c’est ce que
l’on veut montrer
• ou bien, les différences entre les moyennes d’échantillon ont comme
origine les seules fluctuations aléatoires.
 Les variations sont-elles dues à des fluctuations aléatoires ou sont-
elles suffisantes pour indiquer une différence entre les μ sous-jacents ?
Analyse de la variance à 1 facteur

Pour répondre à la question, il faut commencer par formuler l’hypothèse


nulle H0 (absence de différence entre les μ):
H0 : μ1 = μ2 = μ3
Pour tester cette hypothèse, il faut tout d’abord réaliser une mesure
numérique des écarts entre les moyennes d’échantillon X .
i
On calcule donc la variance des moyennes :

Σ( X i − X )2 26
V(X )= = =13
a−1 3−1
avec a = nombre de moyennes d’échantillons (ou de colonnes)
Analyse de la variance à 1 facteur

On vient de calculer une variation entre machines. Cependant, si, au sein


de chaque échantillon les variations étaient plus importantes (par
exemple, que les mesures sur la machine 1 ne varient pas de 46 à 53 mais
de 40 à 60), alors on se rend bien compte que notre analyse perdrait de sa
pertinence, puisque les comparaisons entre machines seraient moins
fiables.  On ne peut pas se contenter de la variance entre moyennes, il
faut calculer la variance de production commune (totale) :
2 2 2
∑(X1it − X 1) +∑(X 2ti− X 2) +∑(X 3ti− X 3)
V(p)=
a(n−1)
Analyse de la variance à 1 facteur

Calcul du carré des écarts au sein du 1er échantillon (machine 1) :


2
n
∑ (X1t − X 1) =(47−49) +(53−49) +...+(46−49) =30
2 2 2

t =1
On réalise le même calcul pour les échantillon (machines) 2 et 3, et on en
fait la somme. On divise enfin par le nombre total de degrés de liberté
pour l’ensemble des 3 échantillons (n-1 = 4 pour chacun). On obtient la
variance commune (ou variance résiduelle) :

V(p)= 30+50+14 94
= =7,83
4+4+4 12
Analyse de la variance à 1 facteur

Nous en arrivons à la question clé : la variance des moyennes


d’échantillon est-elle plus grande que la variance commune ?
Le rapport V(X ) est-il grand ?
V(p)

On utilise en fait traditionnellement un rapport noté F en mémoire du


célèbre statisticien anglais Sir Ronald Fisher (1890-1962) :

n×V(X )
F=
V(p)
Analyse de la variance à 1 facteur

On a introduit n au numérateur afin de le rendre égal, en moyenne, au


dénominateur (sous H0), pour faire fluctuer le rapport F autour de 12.
Si H0 n’est pas vraie (si les μ sont différents), alors n×V(X ) sera
relativement grand par rapport à V(p), et le rapport F tendra à être bien
plus grand que 1. Par conséqeunt, plus F est grand, moins l’hypothèse
nulle est crédible.
Pour évaluer numériquement la crédibilité de H0, on calcule sa
probabilité critique. La distribution de F dépend des ddl de la variance du
numérateur (a-1) et de ceux de la variance du dénominateur a(n-1).
ddl = (a-1) et a(n-1)
Analyse de la variance à 1 facteur

Application à l’exemple introductif :


Nous avons déjà calculé la variance des 3 moyennes : V(X )=13
et la variance résiduelle au sein des 3 échantillons : V(p)=7,83
Nous pouvons donc calculer le F de Fisher :
n×V( X ) 5×13
F= = =8,3
V(p) 7,83
Et le nombre de degrés de liberté : ddl = (a-1) et a(n-1)
ddl = (3-1) et 3(5-1) = 2 et 12
Analyse de la variance à 1 facteur

On consulte une table de Fisher : pour ddl = 2 et 12, on trouve 5 valeurs


critiques énumérées dans une colonne que l’on parcourt de haut en bas,
jusqu’à ce que l’on trouve que la valeur observée de F (8,3) soit
supérieure à F0,01 = 6,93.
On en conclut que p.c. < 0,1
Cela signifie que sous H0 (rappel : μ1 = μ2 = μ3) il y a 1 % de chances
d’obtenir des moyennes d’échantillons qui diffèrent autant.
 On rejette donc H0, et on conclut que les productions des 3 machines
sont bien significativement différentes (avec une probabilité de se
tromper inférieure à 1 %).
Analyse de la variance à 1 facteur

p(F)
Valeur critique de la distribution de F sous H0 :

0,01

F
0 1 5 10
F0,01=6,93 F observé=8,13
p.c. < 0,01
Analyse de la variance à 1 facteur

Méthodologie :
• Présenter les données sous la forme de 2 colonnes : 1 colonne
« machine » avec codage 1,2,3 et 1 colonne « production » avec les
données brutes.
• Analyse  comparer les moyennes  ANOVA à 1 facteur
Variable dépendante : production
Critère : machine
Analyse de la variance à 1 facteur

Présentation des résultats :

facteur A ANOVA
résidu (erreur)
PROD
Somme Moyenne
des carrés ddl des carrés F Signification
Inter-groupes 130,000 2 65,000 8,298 ,005
Intra-groupes 94,000 12 7,833
Total 224,000 14

Remarque : SPPS est programmé pour corriger de lui-même les


comparaisons d’échantillons de tailles inégales
Analyse de la variance à 1 facteur

Exercice 1
Les 3 machines suivantes ont-elles des productions significativement
différentes ? à réaliser sous Excel (3 col) puis SPSS (2 colonnes)

Machine 1 Machine 2 Machine 3


50 48 57
42 57 59
53 65 48
45 59 46
55 51 45
Analyse de la variance à 1 facteur

Réponse :

X 1=49 X 2=56 X 3=51


V(X )=13 5(13)
F= =1,67
39
On a ddl = 2 et 12, et on trouve donc une valeur observée de F=1,67, ce
qui est juste supérieur à F0,025=1,56. La p.c. est donc juste < 25%.
 Ce niveau de crédibilité est insuffisant, on ne rejette pas H0. Il se peut
fort bien que les différences entre les moyennes d’échantillon
proviennent de l’irrégularité des machines et non d’une différence entre
machines.
ANOVA à 2 facteurs

Principe : décomposer la variance d’une variable en fonction de


l’influence d’autres variables et d’une partie aléatoire :
Pour comparer les machines, dans l’ANOVA à 1 facteur, on va prélever
des échantillons aléatoires indépendants de 5 productions sur chacune
des 3 machines, employant ainsi 15 ouvriers différents. Cela peut poser
problème : les différences peuvent être liées aux ouvriers et non aux
machines !
Pour éliminer ce « bruit externe », on emploi 5 ouvriers, et on fait
travailler chacun d’entre eux sur les 3 machines. Les résultats fournis
seraient alors du type 3 échantillons appariés (dépendants). Les notations
sont plus complexes, mais on gagne en précision… Exemple :
Machines Variations ouvriers
Ouvrier i=1 i=2 i=3 Moyenne X j (X j − X ) (X j − X )2
ouvriers
j=1 53 61 51 55 3 9
j=2 47 55 51 51 -1 1
j=3 46 52 49 49 -3 9
j=4 50 58 54 54 2 4
j=5 49 54 50 51 -1 1
Moyenne 49 56 51 X = 52 0 24x3=72
machines Xi
Variations machines a = 3 = nbre machines
-3 4 -1 0 b = 5 = nbre ouvriers
(X i − X )
(X i − X )2 9 16 1 26x5=130
18
ANOVA à 2 facteurs

L’analyse débute par le calcul des sommes carrées (SC) pour chacun des
2 facteurs A (machines) et B (ouvriers) :
• SC des machines :
a 2
SCfacteurA=b∑( X i − X ) =5×(9+16+1)=130
i =1

• SC des ouvriers
b 2
SCfacteurB=a∑( X j − X ) =3×(9+1+9+4+1)=72
j =1
ANOVA à 2 facteurs

Il faut ensuite calculer la somme carrée des résidus…


Dans l’ANOVA à 1 facteur, on calculait la SC résiduelle en observant la
dispersion de chaque observation par rapport à sa valeur ajustée (la
moyenne de la machine). Avec l’ANOVA à 2 facteurs, les valeurs
ajustées (ou prévues) incluent à la fois la moyenne de l’ouvrier et de la
machine.
Par exemple, comment peut-on prédire la production du 1er ouvrier sur
la 2nde machine ?
ANOVA à 2 facteurs

• La 2nde machine est relativement bonne (56) : elle dépasse la moyenne


(52) des 3 machines de 4 unités.
• Le 1er ouvrier est aussi assez bon : il dépasse, avec 55, la moyenne des
5 ouvrier de 3 unités.
En ajoutant ces 2 composantes à la moyenne globale X = 52, on
obtient la valeur prévue X suivante : X21prévue=52+4+3=59
En comparant cette valeur prévue à la valeur observée X21=61 on calcule
le résidu qui est : 61-59=2.
ANOVA à 2 facteurs

Dans le cas général d’une ANOVA à 2 facteurs, on retiendra que :


• La valeur prévue est :

X = X +( X − X )+( X − X )
ij i j
ici : moyenne globale + ajustement « machine » + ajustement « ouvrier »
• La valeur résiduelle est :
Résidu=Xij-Xij
• La somme carrée totale est égale à :
SCtotale = SCfacteurA + SCfacteurB + SCrésidu
ANOVA à 2 facteurs

Une fois que la somme carrée totale a été scindée en ses composantes
(facteur 1 + facteur 2 + résidu), on peut tester s’il y a une différence
discernable entre machines. On peut également tester s’il y a une
différence discernable entre ouvriers. Dans chacun des 2 tests,
l’influence externe de l’autre facteur sera prise en compte.
On calculera, dans l’ordre les 2 coefficients de Fisher :
F1=variance expliquée par les machines ÷ variance inexpliquée
et
F2=variance expliquée par les ouvriers ÷ variance inexpliquée
ANOVA à 2 facteurs

Valeurs ajustées Valeurs résiduelles


∧ ∧
X ij = X +(X i − X )+(X j − X ) X ij − X ij
52 59 54 1 2 -3
48 55 50 -1 0 1
46 53 48 0 -1 1
51 58 53 -1 0 1
48 55 50 1 -1 0
Somme des carrés résiduelle : SCrésidu = 12+22+…+02 = 22
ANOVA à 2 facteurs

Résultats : CM=SC/ddl
Source SC ddl CM F p.c.
Machines 130 2 65 23,6 P<0,001
Ouvriers 72 4 18 6,5 P<0,05
Résidu 22 8 2,75
Total 224 14

F1=65/2,75=23,6 F2=18/2,75=6,5
ANOVA à 2 facteurs

Interprétation :
On conclut au seuil d’erreur de 5% qu’il y a une différence entre les
ouvriers. On conclut aussi, cette fois avec un seuil d’erreur de 0,1% qu’il
y a une différence entre machines.
 On a affiné l’analyse ANOVA à 1 facteur en supprimant des
interférences inutiles. Grâce à l’échantillon apparié, notre test est plus
fiable.
ANOVA à 2 facteurs

Exercice
Sous SPSS, réalisez une ANOVA à 2 facteurs afin de déterminer dans
quelles mesures les variations de production sont liées aux machines ou
aux ouvriers.
Machines
Ouvrier i=1 i=2 i=3
j=1 53 61 51
j=2 47 55 51
j=3 46 52 49
j=4 50 58 54
j=5 49 54 50
ANOVA à 2 facteurs

Réponse :
Il faut recoder les données en trois colonnes : production, ouvriers et
machines.

Analyse  Modèle linéaire général  Univarié


Variable dépendante : production
Facteurs aléatoires : ouvriers et machines
ANOVA à 2 facteurs

Tests des effets inter-sujets

Variable dépendante: PROD


Somme
des carrés Moyenne
Source de type III ddl des carrés F Signification
Constante Hypothèse 40560,000 1 40560,000 505,421 ,000
Erreur 235,511 2,935 80,250 a
MACHINE Hypothèse 130,000 2 65,000 23,636 ,000
Erreur 22,000 8 2,750b
OUVRIER Hypothèse 72,000 4 18,000 6,545 ,012
Erreur 22,000 8 2,750b
MACHINE * Hypothèse 22,000 8 2,750 , ,
OUVRIER Erreur ,000 0 ,c
a. MS(MACHINE) + MS(OUVRIER) - MS(MACHINE * OUVRIER)
b. MS(MACHINE * OUVRIER)
c. MS(Erreur)
Conditions d’utilisation

L’ANOVA sert à évaluer les écarts des valeurs moyennes d’une


variable dépendante quantitative sous l’effet d’une ou de
plusieurs variables indépendantes qualitatives (ou encore
« facteurs »).
Si la série de variables indépendantes (facteurs) comprend à la fois
des variables qualitatives (au moins 1) et quantitatives, on
emploie l’analyse de la covariance (ANCOVA). Dans ce cas, les
variables indépendantes qualitatives sont toujours appelées
« facteurs », mais les variables indépendantes quantitatives
s’appelent alors « covariables ».
Conditions d’utilisation
Exemple
Vous êtes chargé d’étude chez société de production agroalimentaire .
Vous cherchez à comprendre quelles variables indépendantes expliquent
la préférence envers votre marque. La préférence est évaluée de manière
métrique, il s’agit donc d’une variable indépendante quantitative.
• Si vous retenez la consommation (faible vs moyenne vs forte) et la
fidélité à la marque (fidèle vs non fidèle) comme variables indépendantes
(qualitatives), vous devrez réaliser une ANOVA à 2 facteurs.
• Si en plus de ces 2 facteurs vous souhaitez considérer l’attitude (échelle
métrique) des répondants en matière de nutrition, vous devrez avoir
recours à une ANCOVA.
Conditions d’utilisation

En toute rigueur, pour avoir recours à l’ANOVA ou l’ANCOVA, il est


nécessaire que :
• les erreurs suivent une loi normale, avec une moyenne nulle et une
variance constante. Dans le cas contraire, il est préférable d’utiliser un
test non-paramétrique comme le U de Mann-Whitney ou un test de
Kruskal-Walis.
• il ne doit pas y avoir de corrélation entre les erreurs. Dans le cas
contraire (c’est à dire si les observations ne sont pas indépendantes), le
test F peut être altéré.
Conditions d’utilisation
Pour vérifier que la variable métrique dépendante suit bien une loi de
distribution normale :
• Coefficient d’asymétrie (skewness) < 1 (en valeur absolue)
• Coefficient d’aplatissement (kurtosis) < 2 (en valeur absolue)
 A vérifier lorsqu’on demande les fréquences des variables (dans le
menu statistiques)
Ou bien
Test de Kolmogorov-Smirnov (Analyse  tests non paramétriques)
Conditions d’utilisation
Pour vérifier que les variances sont bien égales :

Test d'échantillons indépendants

Test de Levene sur


l'égalité des variances Test-t pour égalité des moyennes
Intervalle de confiance
Sig. Différence Différence 95% de la différence
F Sig. t ddl (bilatérale) moyenne écart-type Inférieure Supérieure
durée estimée de la visite Hypothèse de
5,917 ,015 -2,908 432 ,004 -27,80 9,559 -46,589 -9,013
variances égales
Hypothèse de
-3,195 240,908 ,002 -27,80 8,700 -44,939 -10,662
variances inégales

Si le test de Levene n’est pas significatif : on fait l’hypothèse de variances


égales (ligne du haut). Si le test de Levene est significatif, on fait l’hypothèse
de variances inégales (ligne du bas).

Vous aimerez peut-être aussi