En théorie de l'information, l'entropie conditionnelle décrit la quantité d'information nécessaire pour connaitre le comportement d'une variable aléatoire, lorsque l'on connait exactement une variable aléatoire . On note l'entropie conditionnelle de sachant . On dit aussi parfois entropiedeconditionnéepar[1]. Comme les autres entropies, elle se mesure généralement en bits.
On peut introduire l'entropie conditionnelle de plusieurs façons, soit directement à partir des probabilités conditionnelles, soit en passant par l'entropie conjointe. Les deux définitions sont équivalentes.
où et sont respectivement les supports des variables et .
Par l'entropie conjointe
Étant donné deux variables aléatoires et avec pour entropies respectives et , et pour entropie conjointe, l'entropie conditionnelle de sachant est définie par :
Équivalence des définitions
Ces deux définitions sont équivalentes, c'est-à-dire qu'avec la première définition de ,
Démonstration
Propriétés
si et seulement si et sont indépendantes.
Démonstration
lorsque tous les termes de la somme sont nulles. Soit tel que , on a donc , ce qui implique qu'il existe un unique élément vérifiant . On peut donc définir une fonction telle que pour tous les éléments de probabilité non nulle. Comme toutes les probabilités somment à , la probabilité de est entièrement définie
Règle de la chaîne : avec variables aléatoires,
Démonstration
On connait la relation équivalente pour des probabilités :
Par conséquent,
D'où en inversant les sommes
Intuition
Intuitivement, si le système combiné contient bits d'information, et si nous connaissons parfaitement la variable aléatoire , pour coder le système on peut économiser bits, et on n'a plus besoin que de bits.
Références
↑Antoine Cornuéjols, Laurent Miclet et Vincent Barra, Apprentissage artificiel: Deep learning, concepts et algorithmes, EYROLLES, (ISBN 978-2-212-67522-1, lire en ligne), p. 446