Analyse de la variance et de la
covariance
• Analyse de la variance à 1 facteur
• ANOVA à 2 facteurs
• Conditions d’utilisation
Analyse de la variance à 1 facteur
Objectif : nous avons effectué des inférences sur une moyenne de
population, puis comparé 2 moyennes. L’ANOVA à 1 facteur permet de
comparer simplement plusieurs moyennes.
Exemple : nous voulons comparer 3 machines. Mais la comparaison est
délicate car leur production horaire respective est variable (facteur
« humain » des individus qui les manipulent, etc.). Pour pallier ces
variations en espérant qu’elles se compensent, on va prélever de manière
aléatoire et pour chaque machine un échantillon de 5 productions
horaires. Les machines ont-elles vraiment des productions différentes
?
Analyse de la variance à 1 facteur
Machine 1 Machine 2 Machine 3
47 55 54
53 54 50
49 58 51
50 61 51
46 52 49
Xi X 1 = 49 X 2 = 56 X 3 = 51 X = 52
(X i − X ) -3 4 -1 Σ( X i − X ) = 0
(X i − X )2 9 16 1 Σ(X i − X )2 = 26
Analyse de la variance à 1 facteur
« Les machines sont-elles vraiment différentes ? » revient à s’interroger
sur les raisons des différences entre les 3 moyennes d’échantillon du
tableau précédent. 2 explications sont possibles :
• les moyennes d’échantillon varient à cause des différences entre les
moyennes des populations sous-jacentes μ1, μ2, μ3 (avec μ1 la
production au cours de la durée de vie de la machine 1) c’est ce que
l’on veut montrer
• ou bien, les différences entre les moyennes d’échantillon ont comme
origine les seules fluctuations aléatoires.
Les variations sont-elles dues à des fluctuations aléatoires ou sont-
elles suffisantes pour indiquer une différence entre les μ sous-jacents ?
Analyse de la variance à 1 facteur
Pour répondre à la question, il faut commencer par formuler l’hypothèse
nulle H0 (absence de différence entre les μ):
H0 : μ1 = μ2 = μ3
Pour tester cette hypothèse, il faut tout d’abord réaliser une mesure
numérique des écarts entre les moyennes d’échantillon X .
i
On calcule donc la variance des moyennes :
Σ( X i − X )2 26
V(X )= = =13
a−1 3−1
avec a = nombre de moyennes d’échantillons (ou de colonnes)
Analyse de la variance à 1 facteur
On vient de calculer une variation entre machines. Cependant, si, au sein
de chaque échantillon les variations étaient plus importantes (par
exemple, que les mesures sur la machine 1 ne varient pas de 46 à 53 mais
de 40 à 60), alors on se rend bien compte que notre analyse perdrait de sa
pertinence, puisque les comparaisons entre machines seraient moins
fiables. On ne peut pas se contenter de la variance entre moyennes, il
faut calculer la variance de production commune (totale) :
2 2 2
∑(X1it − X 1) +∑(X 2ti− X 2) +∑(X 3ti− X 3)
V(p)=
a(n−1)
Analyse de la variance à 1 facteur
Calcul du carré des écarts au sein du 1er échantillon (machine 1) :
2
n
∑ (X1t − X 1) =(47−49) +(53−49) +...+(46−49) =30
2 2 2
t =1
On réalise le même calcul pour les échantillon (machines) 2 et 3, et on en
fait la somme. On divise enfin par le nombre total de degrés de liberté
pour l’ensemble des 3 échantillons (n-1 = 4 pour chacun). On obtient la
variance commune (ou variance résiduelle) :
V(p)= 30+50+14 94
= =7,83
4+4+4 12
Analyse de la variance à 1 facteur
Nous en arrivons à la question clé : la variance des moyennes
d’échantillon est-elle plus grande que la variance commune ?
Le rapport V(X ) est-il grand ?
V(p)
On utilise en fait traditionnellement un rapport noté F en mémoire du
célèbre statisticien anglais Sir Ronald Fisher (1890-1962) :
n×V(X )
F=
V(p)
Analyse de la variance à 1 facteur
On a introduit n au numérateur afin de le rendre égal, en moyenne, au
dénominateur (sous H0), pour faire fluctuer le rapport F autour de 12.
Si H0 n’est pas vraie (si les μ sont différents), alors n×V(X ) sera
relativement grand par rapport à V(p), et le rapport F tendra à être bien
plus grand que 1. Par conséqeunt, plus F est grand, moins l’hypothèse
nulle est crédible.
Pour évaluer numériquement la crédibilité de H0, on calcule sa
probabilité critique. La distribution de F dépend des ddl de la variance du
numérateur (a-1) et de ceux de la variance du dénominateur a(n-1).
ddl = (a-1) et a(n-1)
Analyse de la variance à 1 facteur
Application à l’exemple introductif :
Nous avons déjà calculé la variance des 3 moyennes : V(X )=13
et la variance résiduelle au sein des 3 échantillons : V(p)=7,83
Nous pouvons donc calculer le F de Fisher :
n×V( X ) 5×13
F= = =8,3
V(p) 7,83
Et le nombre de degrés de liberté : ddl = (a-1) et a(n-1)
ddl = (3-1) et 3(5-1) = 2 et 12
Analyse de la variance à 1 facteur
On consulte une table de Fisher : pour ddl = 2 et 12, on trouve 5 valeurs
critiques énumérées dans une colonne que l’on parcourt de haut en bas,
jusqu’à ce que l’on trouve que la valeur observée de F (8,3) soit
supérieure à F0,01 = 6,93.
On en conclut que p.c. < 0,1
Cela signifie que sous H0 (rappel : μ1 = μ2 = μ3) il y a 1 % de chances
d’obtenir des moyennes d’échantillons qui diffèrent autant.
On rejette donc H0, et on conclut que les productions des 3 machines
sont bien significativement différentes (avec une probabilité de se
tromper inférieure à 1 %).
Analyse de la variance à 1 facteur
p(F)
Valeur critique de la distribution de F sous H0 :
0,01
F
0 1 5 10
F0,01=6,93 F observé=8,13
p.c. < 0,01
Analyse de la variance à 1 facteur
Méthodologie :
• Présenter les données sous la forme de 2 colonnes : 1 colonne
« machine » avec codage 1,2,3 et 1 colonne « production » avec les
données brutes.
• Analyse comparer les moyennes ANOVA à 1 facteur
Variable dépendante : production
Critère : machine
Analyse de la variance à 1 facteur
Présentation des résultats :
facteur A ANOVA
résidu (erreur)
PROD
Somme Moyenne
des carrés ddl des carrés F Signification
Inter-groupes 130,000 2 65,000 8,298 ,005
Intra-groupes 94,000 12 7,833
Total 224,000 14
Remarque : SPPS est programmé pour corriger de lui-même les
comparaisons d’échantillons de tailles inégales
Analyse de la variance à 1 facteur
Exercice 1
Les 3 machines suivantes ont-elles des productions significativement
différentes ? à réaliser sous Excel (3 col) puis SPSS (2 colonnes)
Machine 1 Machine 2 Machine 3
50 48 57
42 57 59
53 65 48
45 59 46
55 51 45
Analyse de la variance à 1 facteur
Réponse :
X 1=49 X 2=56 X 3=51
V(X )=13 5(13)
F= =1,67
39
On a ddl = 2 et 12, et on trouve donc une valeur observée de F=1,67, ce
qui est juste supérieur à F0,025=1,56. La p.c. est donc juste < 25%.
Ce niveau de crédibilité est insuffisant, on ne rejette pas H0. Il se peut
fort bien que les différences entre les moyennes d’échantillon
proviennent de l’irrégularité des machines et non d’une différence entre
machines.
ANOVA à 2 facteurs
Principe : décomposer la variance d’une variable en fonction de
l’influence d’autres variables et d’une partie aléatoire :
Pour comparer les machines, dans l’ANOVA à 1 facteur, on va prélever
des échantillons aléatoires indépendants de 5 productions sur chacune
des 3 machines, employant ainsi 15 ouvriers différents. Cela peut poser
problème : les différences peuvent être liées aux ouvriers et non aux
machines !
Pour éliminer ce « bruit externe », on emploi 5 ouvriers, et on fait
travailler chacun d’entre eux sur les 3 machines. Les résultats fournis
seraient alors du type 3 échantillons appariés (dépendants). Les notations
sont plus complexes, mais on gagne en précision… Exemple :
Machines Variations ouvriers
Ouvrier i=1 i=2 i=3 Moyenne X j (X j − X ) (X j − X )2
ouvriers
j=1 53 61 51 55 3 9
j=2 47 55 51 51 -1 1
j=3 46 52 49 49 -3 9
j=4 50 58 54 54 2 4
j=5 49 54 50 51 -1 1
Moyenne 49 56 51 X = 52 0 24x3=72
machines Xi
Variations machines a = 3 = nbre machines
-3 4 -1 0 b = 5 = nbre ouvriers
(X i − X )
(X i − X )2 9 16 1 26x5=130
18
ANOVA à 2 facteurs
L’analyse débute par le calcul des sommes carrées (SC) pour chacun des
2 facteurs A (machines) et B (ouvriers) :
• SC des machines :
a 2
SCfacteurA=b∑( X i − X ) =5×(9+16+1)=130
i =1
• SC des ouvriers
b 2
SCfacteurB=a∑( X j − X ) =3×(9+1+9+4+1)=72
j =1
ANOVA à 2 facteurs
Il faut ensuite calculer la somme carrée des résidus…
Dans l’ANOVA à 1 facteur, on calculait la SC résiduelle en observant la
dispersion de chaque observation par rapport à sa valeur ajustée (la
moyenne de la machine). Avec l’ANOVA à 2 facteurs, les valeurs
ajustées (ou prévues) incluent à la fois la moyenne de l’ouvrier et de la
machine.
Par exemple, comment peut-on prédire la production du 1er ouvrier sur
la 2nde machine ?
ANOVA à 2 facteurs
• La 2nde machine est relativement bonne (56) : elle dépasse la moyenne
(52) des 3 machines de 4 unités.
• Le 1er ouvrier est aussi assez bon : il dépasse, avec 55, la moyenne des
5 ouvrier de 3 unités.
En ajoutant ces 2 composantes à la moyenne globale X = 52, on
obtient la valeur prévue X suivante : X21prévue=52+4+3=59
En comparant cette valeur prévue à la valeur observée X21=61 on calcule
le résidu qui est : 61-59=2.
ANOVA à 2 facteurs
Dans le cas général d’une ANOVA à 2 facteurs, on retiendra que :
• La valeur prévue est :
∧
X = X +( X − X )+( X − X )
ij i j
ici : moyenne globale + ajustement « machine » + ajustement « ouvrier »
• La valeur résiduelle est :
Résidu=Xij-Xij
• La somme carrée totale est égale à :
SCtotale = SCfacteurA + SCfacteurB + SCrésidu
ANOVA à 2 facteurs
Une fois que la somme carrée totale a été scindée en ses composantes
(facteur 1 + facteur 2 + résidu), on peut tester s’il y a une différence
discernable entre machines. On peut également tester s’il y a une
différence discernable entre ouvriers. Dans chacun des 2 tests,
l’influence externe de l’autre facteur sera prise en compte.
On calculera, dans l’ordre les 2 coefficients de Fisher :
F1=variance expliquée par les machines ÷ variance inexpliquée
et
F2=variance expliquée par les ouvriers ÷ variance inexpliquée
ANOVA à 2 facteurs
Valeurs ajustées Valeurs résiduelles
∧ ∧
X ij = X +(X i − X )+(X j − X ) X ij − X ij
52 59 54 1 2 -3
48 55 50 -1 0 1
46 53 48 0 -1 1
51 58 53 -1 0 1
48 55 50 1 -1 0
Somme des carrés résiduelle : SCrésidu = 12+22+…+02 = 22
ANOVA à 2 facteurs
Résultats : CM=SC/ddl
Source SC ddl CM F p.c.
Machines 130 2 65 23,6 P<0,001
Ouvriers 72 4 18 6,5 P<0,05
Résidu 22 8 2,75
Total 224 14
F1=65/2,75=23,6 F2=18/2,75=6,5
ANOVA à 2 facteurs
Interprétation :
On conclut au seuil d’erreur de 5% qu’il y a une différence entre les
ouvriers. On conclut aussi, cette fois avec un seuil d’erreur de 0,1% qu’il
y a une différence entre machines.
On a affiné l’analyse ANOVA à 1 facteur en supprimant des
interférences inutiles. Grâce à l’échantillon apparié, notre test est plus
fiable.
ANOVA à 2 facteurs
Exercice
Sous SPSS, réalisez une ANOVA à 2 facteurs afin de déterminer dans
quelles mesures les variations de production sont liées aux machines ou
aux ouvriers.
Machines
Ouvrier i=1 i=2 i=3
j=1 53 61 51
j=2 47 55 51
j=3 46 52 49
j=4 50 58 54
j=5 49 54 50
ANOVA à 2 facteurs
Réponse :
Il faut recoder les données en trois colonnes : production, ouvriers et
machines.
Analyse Modèle linéaire général Univarié
Variable dépendante : production
Facteurs aléatoires : ouvriers et machines
ANOVA à 2 facteurs
Tests des effets inter-sujets
Variable dépendante: PROD
Somme
des carrés Moyenne
Source de type III ddl des carrés F Signification
Constante Hypothèse 40560,000 1 40560,000 505,421 ,000
Erreur 235,511 2,935 80,250 a
MACHINE Hypothèse 130,000 2 65,000 23,636 ,000
Erreur 22,000 8 2,750b
OUVRIER Hypothèse 72,000 4 18,000 6,545 ,012
Erreur 22,000 8 2,750b
MACHINE * Hypothèse 22,000 8 2,750 , ,
OUVRIER Erreur ,000 0 ,c
a. MS(MACHINE) + MS(OUVRIER) - MS(MACHINE * OUVRIER)
b. MS(MACHINE * OUVRIER)
c. MS(Erreur)
Conditions d’utilisation
L’ANOVA sert à évaluer les écarts des valeurs moyennes d’une
variable dépendante quantitative sous l’effet d’une ou de
plusieurs variables indépendantes qualitatives (ou encore
« facteurs »).
Si la série de variables indépendantes (facteurs) comprend à la fois
des variables qualitatives (au moins 1) et quantitatives, on
emploie l’analyse de la covariance (ANCOVA). Dans ce cas, les
variables indépendantes qualitatives sont toujours appelées
« facteurs », mais les variables indépendantes quantitatives
s’appelent alors « covariables ».
Conditions d’utilisation
Exemple
Vous êtes chargé d’étude chez société de production agroalimentaire .
Vous cherchez à comprendre quelles variables indépendantes expliquent
la préférence envers votre marque. La préférence est évaluée de manière
métrique, il s’agit donc d’une variable indépendante quantitative.
• Si vous retenez la consommation (faible vs moyenne vs forte) et la
fidélité à la marque (fidèle vs non fidèle) comme variables indépendantes
(qualitatives), vous devrez réaliser une ANOVA à 2 facteurs.
• Si en plus de ces 2 facteurs vous souhaitez considérer l’attitude (échelle
métrique) des répondants en matière de nutrition, vous devrez avoir
recours à une ANCOVA.
Conditions d’utilisation
En toute rigueur, pour avoir recours à l’ANOVA ou l’ANCOVA, il est
nécessaire que :
• les erreurs suivent une loi normale, avec une moyenne nulle et une
variance constante. Dans le cas contraire, il est préférable d’utiliser un
test non-paramétrique comme le U de Mann-Whitney ou un test de
Kruskal-Walis.
• il ne doit pas y avoir de corrélation entre les erreurs. Dans le cas
contraire (c’est à dire si les observations ne sont pas indépendantes), le
test F peut être altéré.
Conditions d’utilisation
Pour vérifier que la variable métrique dépendante suit bien une loi de
distribution normale :
• Coefficient d’asymétrie (skewness) < 1 (en valeur absolue)
• Coefficient d’aplatissement (kurtosis) < 2 (en valeur absolue)
A vérifier lorsqu’on demande les fréquences des variables (dans le
menu statistiques)
Ou bien
Test de Kolmogorov-Smirnov (Analyse tests non paramétriques)
Conditions d’utilisation
Pour vérifier que les variances sont bien égales :
Test d'échantillons indépendants
Test de Levene sur
l'égalité des variances Test-t pour égalité des moyennes
Intervalle de confiance
Sig. Différence Différence 95% de la différence
F Sig. t ddl (bilatérale) moyenne écart-type Inférieure Supérieure
durée estimée de la visite Hypothèse de
5,917 ,015 -2,908 432 ,004 -27,80 9,559 -46,589 -9,013
variances égales
Hypothèse de
-3,195 240,908 ,002 -27,80 8,700 -44,939 -10,662
variances inégales
Si le test de Levene n’est pas significatif : on fait l’hypothèse de variances
égales (ligne du haut). Si le test de Levene est significatif, on fait l’hypothèse
de variances inégales (ligne du bas).