Indicateur de position
En statistique, un indicateur de position est un nombre réel permettant de situer les valeurs d’une série statistique d’une variable quantitative. Il peut s’agir d’un indicateur de tendance centrale ou d’une valeur décentrée comme le maximum ou le minimum de la série.
Les indicateurs de position sont le plus souvent des moyennes (arithmétique, géométrique, quadratique...) ou des quantiles[1] comme la médiane et les quartiles. Ils se distinguent des indicateurs de dispersion qui décrivent la variabilité des valeurs de la série.
En pratique, le choix de l'une ou l'autre des différentes mesures de la tendance centrale est souvent préliminaire à toute analyse statistique. Il est en effet souvent impossible de manipuler ou représenter l'intégralité des centaines voire des milliers de valeurs observées pour en tirer des conclusions. Il faut donc « résumer » l'information formée par ce grand nombre de mesures en un petit nombre de valeurs suffisamment représentatives. Dans de nombreux domaines, on utilise la moyenne arithmétique comme mesure de la tendance centrale, avec parfois l'écart-type pour évaluer la dispersion due par exemple à l'erreur de mesure.
Les paramètres de position d'une distribution sont les paramètres qui influent sur la tendance centrale de la fonction de répartition. C'est par exemple le paramètre μ qui mesure l'espérance d'une loi normale.
Valeur maximum et valeur minimum
La valeur maximale est la plus grande valeur prise par le caractère statistique.
La valeur minimale est la plus petite valeur prise par le caractère statistique.
Médiane
Pour une variable quantitative ou ordinale, selon laquelle on range une population dans l'ordre croissant (avec éventuellement plusieurs individus associés à la même valeur), la médiane est une valeur qui sépare la première moitié et la seconde moitié de la population[2]. Si la population a un effectif impair, la médiane est donc la valeur de l'individu placé exactement au milieu. Avec un effectif pair, la médiane est une valeur située entre celle du dernier de la première moitié et celle du premier de la seconde moitié (en général, on considère la moyenne de ces deux valeurs si la variable est quantitative)[3].
Il se peut que plus de la moitié de la population se retrouve avec une valeur inférieure ou égale à celle de la médiane, notamment pour une variable discrète, si cette valeur est associée à plusieurs individus de part et d'autre de la moitié de l'effectif.
Cas de la variable discrète
On trie les valeurs par ordre croissant.
- Si la population comporte n individus et si n est impair alors n = 2p+1, la médiane sera la (p+1)e valeur du caractère statistique[3].
- Exemple: série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11,12, 13, 16.
- Médiane = M = 10
- Si la population comporte n individus et si n est pair alors n = 2p, la médiane sera la moyenne entre la pe et (p+1)e valeur du caractère statistique[3].
- Exemple: série de 12 notes: 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16.
- Médiane = M = 9,5
Cas de la variable continue
On utilise le polygone des fréquences cumulées croissantes et le tableau correspondant et on détermine graphiquement ou par interpolation linéaire la valeur M pour laquelle la fréquence de l'intervalle [valeur min, M] vaut 50 %[4].
Détermination de la médiane
Par le polygone des fréquences cumulées croissantes
Dans l'exemple développé dans statistiques élémentaires continues, le polygone des fréquences cumulées est le suivant :
La droite d'équation y = 50 coupe le polygone environ au point d'abscisse 21, ce qui donne une estimation de la médiane : M ≈ 21.
Remarque : Le polygone des fréquences cumulées croissantes et celui des fréquences cumulées décroissantes se coupent exactement en un point dont l'abscisse est la médiane[5].
Par le tableau des fréquences cumulées croissantes
Dans l'exemple précédent, le tableau des fréquences cumulées croissantes est :
xi | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
fréquences cumulées croissantes | 0 | 7 | 12,3 | 21,1 | 48,1 | 81,7 | 94,7 | 100 |
Les 50 % sont atteints entre 20 et 30 donc pour une valeur M que l'on estime à par interpolation linéaire[5].
Moyenne
Valeurs
Les articles Statistiques élémentaires discrètes et Statistiques élémentaires continues expliquent ces formules.
- Cas de la série statistique discrète triée mais non regroupée
On a alors la formule usuelle d'une moyenne[6]
- Cas de la série statistique discrète regroupée
On a la formule d'une moyenne pondérée[6]
- Cas de la série continue
On a la formule usuelle d'une moyenne pondérée de moyennes[6],[2]
où et sont respectivement le milieu et l'effectif de la classe d'indice i.
Propriétés
Stabilité par transformation affine
La moyenne est stable par transformation affine, c'est-à-dire[6] : si yi = axi + b, si x est la moyenne de la série x alors la moyenne de la série y est y = ax + b.
Cette propriété est utile pour changer d'unité: si on connaît une moyenne de température en degré Fahrenheit, il est inutile de convertir toutes les valeurs en degrés Celsius pour calculer la moyenne en degrés Celsius, il suffit de ne convertir que la moyenne.
Il est aussi intéressant, pour limiter la taille des nombres, de partir d'un moyenne estimée et de calculer la moyenne des di = xi – Mestim. Alors x = Mestim + d.
Découpage en sous-population
Si la population est découpée en deux sous-populations P1 et P2 de tailles n1 et n2, si la moyenne du caractère statistique pour la population P1 est et la moyenne pour la population P2 est alors la moyenne pour la population P est[7] .
Sensibilité aux valeurs extrêmes
La moyenne est sensible aux valeurs extrêmes ou aberrantes[8].
Exemple : dans une entreprise, 9 salariés sont payés 2 000 € mensuels. Le patron se paie 22 000 € mensuels.
Le calcul du salaire moyen dans ces conditions conduit à une valeur non représentative :
Pour éviter ce genre de piège, il arrive que l'on tronque volontairement la population et qu'on élimine un certain pourcentage des valeurs les plus hautes et les plus basses. C'est la moyenne tronquée[9].
Mode
Le mode est la valeur du caractère statistique qui apparaît le plus fréquemment[2].
Notes | 5 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 | Total |
---|---|---|---|---|---|---|---|---|---|---|
Effectifs | 1 | 1 | 2 | 4 | 3 | 2 | 1 | 1 | 1 | 16 |
Le mode vaut ici 10. La distribution est dite unimodale.
Notes | 5 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 16 | Total |
---|---|---|---|---|---|---|---|---|---|---|
Effectifs | 1 | 1 | 4 | 2 | 2 | 4 | 1 | 1 | 1 | 16 |
Cette série est dite série bimodale car on voit apparaître deux modes : 9 et 12.
Dans le cas d'une variable continue, on peut entendre parler de classe modale qui serait la classe de plus grand effectif[6]. Mais il faut se méfier de cette notion car, plus la classe est de grande amplitude, plus son effectif est important sans pour autant que cela soit significatif. Cette notion de classe modale définie par les effectifs de la classe n'a de sens que si les classes ont même amplitude[10]. Si les amplitudes sont différentes, il faut aller chercher sur l'histogramme la classe associée au rectangle de plus grande hauteur.
Salaires | entre 0 (inclus) et 8 exclus | entre 8 (inclus) et 12 exclus | entre 12 (inclus) et 16 exclus | entre 16 (inclus) et 20 exclus | entre 20 (inclus) et 30 exclus | entre 30 (inclus) et 40 exclus | entre 40 (inclus) et 60 exclus | Total |
---|---|---|---|---|---|---|---|---|
Effectifs | 306 | 231 | 385 | 1180 | 1468 | 568 | 232 | 4370 |
L'observation de ce tableau laisse penser que la classe modale serait la classe [20;30[. Mais une observation de l'histogramme corrige cette idée fausse en rendant compte du fait que certaines classes sont plus larges : La classe modale est la classe [16; 20[.
Quartiles
Les quartiles sont les trois valeurs qui partagent la population en 4 sous-populations de même taille[11].
Cas de la variable discrète
Il existe plusieurs manières de définir les quartiles pour des variables discrètes[12].
Une des méthodes consiste à ranger les valeurs par ordre croissant.
On détermine le second quartile qui correspond à la médiane. Puis on cherche la médiane de la première moitié de la population qui correspond au 1er quartile. On cherche la médiane de la seconde moitié de la population qui correspond au troisième quartile[13].
Si la population est de taille n, on distingue 4 cas.
- Si n = 4p
- Q1 correspond à la moyenne entre la pe et (p+1)e valeur.
- Q2 correspond à la moyenne entre la (2p)e valeur et la (2p+1)e valeur.
- Q3 correspond à la moyenne entre la (3p)e valeur et la (3p+1)e valeur.
Exemple : série de 12 notes : 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 13, 16
- Q1 = 7,5 ; Q2 = 9,5 ; Q3 = 10,5
- Si n = 4p+1
- Q1 correspond à la (p+1)e valeur.
- Q2 correspond à la (2p+1)e valeur.
- Q3 correspond à la (3p+1)e valeur.
Exemple : série de 13 notes 4, 5, 7, 8, 8, 9, 10, 10, 10, 11, 12, 13, 16
- Q1 = 8 ; Q2 = 10 ; Q3 = 11
- Si n = 4p+2
- Q1 correspond à la (p+1)e valeur.
- Q2 correspond à la moyenne entre la (2p+1)e valeur et la (2p+2)e valeur.
- Q3 correspond à la (3p+2)e valeur.
Exemple : série de 14 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11, 12,13, 16
- Q1 = 8 ; Q2 = 9,5 ; Q3 = 11
- Si n = 4p+3
- Q1 correspond à la (p+1)e valeur.
- Q2 correspond à la (2p+2)e valeur.
- Q3 correspond à la (3p+3)e valeur.
Exemple : série de 15 notes 4, 5, 7, 8, 8, 9, 9, 10, 10, 10, 11,11, 12, 13, 16
- Q1 = 8 ; Q2 = 10 ; Q3 = 11
Une méthode de calcul différente est sur l'article dédié : quartile.
Approximation utile pour une variable discrète
On trouve fréquemment cette méthode de calcul pour une variable discrète[12],[14]
On range les valeurs de la série x par ordre croissant et on repère la plus petite xmin.
- Le premier quartile Q1 est la première valeur pour laquelle l'intervalle [xmin, Q1] regroupe au moins 25 % de la population.
- Le deuxième quartile Q2 est la première valeur pour laquelle l'intervalle [xmin, Q2] regroupe au moins 50 % de la population.
- Le troisième quartile Q3 est la première valeur pour laquelle l'intervalle [xmin, Q3] regroupe au moins 75 % de la population.
On peut remarquer que cette approximation rend dissymétrique la définition, que le second quartile ne correspond plus forcément à la médiane et que les valeurs obtenues diffèrent de celles de la définition précédente. Son avantage est de rendre la recherche des quartiles (approchés) plus facile sans que l'on soit obligé de distinguer 4 cas. Les différences obtenues par l'une ou l'autre des méthodes se révèlent négligeables et justifient l'usage de cette approximation.
Cas de la variable continue
On calcule les quartiles comme la médiane, graphiquement grâce au polygone des fréquences cumulées croissantes, et par interpolation linéaire grâce au tableau correspondant.
- Par le polygone des fréquences cumulées croissantes
Les droites d'équation y = 25, y = 50, y = 75 coupent le polygone en des points dont les abscisses valent environ 17, 21, 28.
- Par le tableau des fréquences cumulées croissantes
Le tableau des fréquences cumulées croissantes est :
xi | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
fréquences cumulées croissantes | 0 | 7 | 12,3 | 21,1 | 48,1 | 81,7 | 94,7 | 100 |
25 % est atteint dans l'intervalle [16;20] soit pour une valeur de Q1 obtenue par interpolation linéaire[15]
Le second quartile correspond à la médiane estimée plus tôt
- .
75 % est atteint dans l'intervalle [20;30] soit pour une valeur de Q3 obtenue par interpolation linéaire
Déciles
Les déciles sont les 9 valeurs qui partagent la population en 10 sous-populations de même taille[11].
Cas de la variable discrète
On trouve fréquemment cette méthode de calcul pour une variable discrète[12],[14] : le ne décile Dn est la première valeur du caractère tel que l'intervalle [xmin, Dn] regroupe au moins n dixièmes de la population.
Exemple Série de 30 notes, 9e décile = 27e valeur.
4, 5, 6, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 10, 10,10, 10, 10, 11, 11, 11, 12, 12, 12, 13, 13, 14, 14, 15, 16
Ainsi, D9 = 14.
Mais d'autres méthodes de calculs sont possibles donnant des résultats proches de ceux-ci[16].
Cas de la variable continue
On calcule les déciles comme la médiane et les quartiles, graphiquement grâce au polygone des fréquences cumulées croissantes, et par interpolation linéaire grâce au tableau correspondant.
Utilisation du polygone des fréquences cumulées croissantes
Les droites d'équation y = 10, y = 20, ... , y = 90 coupent le polygone en des points dont les abscisses valent environ D1 = 10,5, D2 = 15,5, ..., D9 = 36,5
Utilisation du tableau des fréquences cumulées croissantes
Le tableau des fréquences cumulées croissantes est :
xi | 0 | 8 | 12 | 16 | 20 | 30 | 40 | 60 |
fréquences cumulées croissantes | 0 | 7 | 12,3 | 21,1 | 48,1 | 81,7 | 94,7 | 100 |
10 % est atteint dans l'intervalle [8;12] soit pour une valeur de D1 obtenue par interpolation linéaire[16]
- .
20 % est atteint dans l'intervalle [12;16] soit pour une valeur de D2 obtenue par interpolation linéaire
- .
90 % est atteint dans l'intervalle [30;40] soit pour une valeur de D9 obtenue par interpolation linéaire
- .
Notes et références
- Pierre Marquès et Julien Granata, DUT GEA 1re année - 2e éd, Dunod, , page 217
- C. Gautier, D. Gerll, C. Thiercé et André Warusfel, Mathématiques 2e, Hachette, , p. 242
- « Mesures de la tendance centrale », sur Statistique Canada.
- Gérard Guilhemat, Grégory Viateau et Alain Vidal, Objectif Bac - Maths Terminale ST2S, Hacheztte Éducation, , page 38.
- « Médiane et fréquence cumulée », sur jclmaths.alwaysdata.net.
- « Les paramètres d'une série statistique », dans André Deledicq, Mathématiques lycée : tout le programme de la seconde à la terminale, Éditions de la Cité, (ISBN 2-84410-004-X), p. 372.
- Françoise Couty-Fredon, Jean Debord et Daniel Fredon, Mini Manuel - Probabilités et statistique, Dunod, , page 5;6
- « Indices de tendance centrale: 1. La moyenne », sur Universite Ouverte des Humanités de Toulouse - Statistique et psychométrie.
- « Quest-ce qu'une moyenne tronquée? », sur Thepressfree.com.
- « Classe modale », sur lexique.netmath.ca.
- Abdelaziz Guertaoui, Michelle Marcoux, Ludovic Le Goff et Martine Monin, Gestion et Organisation, Bréal, , page 301
- « Résumés numériques d'une variable quantitative », sur Boistard.fr.
- « Mathématiques 2: Statistiques : Médiane & quartiles », sur scientifiquesentence.net.
- Gérard Guilhemat, Grégory Viateau et Alain Vidal, Objectif Bac - Maths Terminale ST2S, Hachette Éducation, , page 40.
- Yadolah Dodge, Statistique: Dictionnaire encyclopédique, Springer Science & Business Media, , p. 423.
- Yadolah Dodge, Statistique: Dictionnaire encyclopédique, Springer Science & Business Media, , p 122