Quantile

Crédit image:
licence CC BY-SA 3.0 🛈
Densité de probabilité d'une loi normale de moyenne μ et d'écart-type σ. On montre ici les trois quartiles Q1, Q2, Q3. L'aire sous la courbe rouge est la même dans les intervalles (−∞,Q1), (Q1,Q2), (Q2,Q3), et (Q3,+∞). La probabilité d'être dans chacun de ces intervalles est de 25%.

En statistiques et en théorie des probabilités, les quantiles sont les valeurs qui divisent un jeu de données en intervalles de même probabilité. Il y a donc un quantile de moins que le nombre de groupes créés. Par exemple, les quartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de même probabilité. La médiane quant à elle est le quantile qui sépare le jeu de données en deux groupes de même probabilité.

Définitions en langage commun

Les quantiles d'une variable aléatoire univariée, discrète (ex. : entière) ou continue (réelle), sont les valeurs que prend la variable pour des valeurs de probabilité sous le quantile considéré, valant une valeur remarquable, par exemple 3 dixièmes, ou 5 centièmes, etc. On les appelle encore fractiles, synonyme complet selon le contexte d'usage, et ce sont les valeurs réciproques de la fonction de répartition de la loi de probabilité considérée. On s'intéresse plus particulièrement à quelques jeux de valeurs de quantile correspondant aux multiples de fractions simples du 100 % de la probabilité totale. Par exemple, on peut scinder les 100 % de probabilité totale en 4 masses de probabilités égales chacune à 14=25 %, correspondant, pour les valeurs de la variable aléatoire, à quatre intervalles adjacents. Les trois valeurs intermédiaires définissent ainsi, respectivement les fractiles de 14=0,25, 12=0,5 et 34=0,75, ou encore en termes de fractions, les quantiles d'un quart, un demi et trois quarts (les deux limites extrêmes, l'inférieure correspondant au quantile de 0 et la supérieure pour le quantile de 1, sont les bornes du domaine de définition de la variable aléatoire.

Les quantiles d'un échantillon statistique de nombres sont des valeurs remarquables permettant de diviser le jeu de ces données ordonnées (i.e. triées) en intervalles consécutifs contenant le même nombre de données (à la justesse de la division entière du nombre total de données, près). Par exemple, un échantillon de 90 données pourra être découpé selon 10 sous-intervalles consécutifs au moyen d'un jeu de 9 quantiles (plus les limites inférieure et supérieure du domaine d'échantillonnage).

Certains jeux de quantiles ont reçu des noms particuliers :

  • les quantiles des multiples du centième sont appelés centiles, ou percentiles selon un anglicisme fréquent. Ainsi, le 5e centile partage l'échantillon en 5 % des données sous lui, et les 95 % restant au-dessus de lui. Le dernier centile (le 99e) joue fréquemment un rôle de seuil d'alerte extrême pour des mesures qui traduisent l'intensité d'un phénomène sujet à des évolutions critiques et en permettent ainsi le suivi (cf. ci-après l'exemple en hydrologie de la définition de la crue centennale) ;
  • les quantiles des multiples du dixième sont des déciles. Ils sont d'usage fréquent en géologie minière (étude des caractéristiques granulométriques de matériaux divisés), en hydrologie (définition des hauteurs d'eau, notamment pour les crues, le 9e décile du débit d'une rivière définissant son niveau de crue décennale), ainsi que dans nombre de statistiques médicales ;
  • les quantiles des multiples du quart sont les quartiles. Le premier quartile est la statistique notée générale q1 ; le second quartile n'est autre que la médiane ; le troisième quartile est noté q3 et son écart au 1er quartile définit l'écart interquartile, qui est une des mesures classiques de la dispersion de l'échantillon de données, néanmoins plus robuste que l'écart-type.

Ont encore été définis, les quatre quintiles, et les deux terciles, d'usage rare.

Nota Bene : certains programmes informatiques définissent un quantile minimum et un quantile maximum par, respectivement, le quantile de 0 et le quantile de 100 %. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique.


Formalisation

Soit un nombre réel et une variable aléatoire réelle. On note la fonction de répartition de , c'est-à-dire pour tout réel , on a .

Le quantile d'ordre de , appelé aussi -quantile, est l'ensemble tel que :

Autrement dit, le quantile d'ordre de est l'ensemble des nombres réels tel que . Lorsque est bijective, il n'y a qu'une valeur dans  : dans ces cas-là par abus de langage on parle du singleton comme d'un nombre.

Exemples :

  1. Le quantile d'ordre 1/2 d'une variable de loi normale centrée réduite est 0
  2. Le quantile d'ordre 0,025 d'une variable de loi normale centrée réduite est d'environ -1.959964

Quelques remarques

Abus de langage

Dans les résultats standardisés de tests statistiques, il est courant de lire l'expression « dans le 80e centile ». Les centiles étant des valeurs et non des intervalles, il serait plus juste de dire « dans l'intervalle entre le 80e et le 81e centile », ou « dans l'intervalle de probabilité 1 % qui suit le 80e centile ».

Cas d'une variable aléatoire à distribution symétrique

Si une distribution est symétrique par rapport à une valeur particulière, alors la médiane et la moyenne sont égales à cette valeur particulière. En pratique, c'est le cas de toutes les variables aléatoires gaussiennes. Par contre, les exemples d'usage courant abondent aussi où ce n'est pas le cas.

Autres notes

Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit une distribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63 % d'être inférieur à la moyenne. Ceci est dû à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.

Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, ou si une autre source de valeurs aberrantes influe sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.

La régression robuste est fortement liée à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connexion se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes.

Les quantiles d'une variable aléatoire sont préservés lors de transformations croissantes, ce qui signifie par exemple que si m est la médiane d'une variable aléatoire X alors 2m est la médiane de 2X, à moins qu'un choix arbitraire ait été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des données ordinales sont disponibles.

Calcul des quantiles

Par estimation

Il existe différentes méthodes pour estimer les quantiles : soit N le nombre de valeurs observées de la population échantillonnée, et soit x1, x2, ..., xN les valeurs ordonnées de la même population, telles que x1 est la plus petite valeur, etc. Pour le k-ième q-quantile, on a p = kq.

Fonction de distribution empirique

j est la partie entière de Np et g la partie fractionnelle.

Fonction de distribution empirique avec mise à la moyenne

jest la partie entière de Np et g est la partie fractionnelle.

Moyenne pondérée

j est la partie entière de (N–1)p et g est la partie fractionnelle. Cette méthode est utilisée, par exemple, dans la fonction PERCENTILE de Microsoft Excel.

Échantillon de numéro le plus proche de (N–1)p+1

j est la partie entière de (N–1)p+1 et g est la partie fractionnelle.

Par optimisation

Une définition plus générale de la fonction quantile est donnée comme un problème d'optimisation[1],[2]:

Cette définition peut être utile pour étendre la définition à des données multivariées ; on parle alors de quantiles géométriques.

Notes et références

  1. (en) T. Ferguson, Mathematical Statistics : A Decision Theoric Approach, New York, Academic Press,
  2. (en) Roger Koenker et Gilbert Bassett, « Regression Quantiles », Econometrica, vol. 46, no 1,‎ , p. 33–50 (DOI 10.2307/1913643)

Voir aussi