Entropie d'une variable aléatoire discrète finie

Thèmes: Variables aléatoires - Loi - Espérance
 
 
 
 
 
 
Dans le cadre des variables discrètes finies, la notion d'entropie (de Shannon) s'introduit simplement. Elle donne une mesure de la quantité minimale d'information nécessaire pour "coder" le résultat d'une variable aléatoire $X$. C'est une notion très utilisée en théorie de l'information.
 
On se donne $X$ une variable discrète finie à valeurs dans $\mathbb{R}$. On note $ X ( \Omega ) = \{ x_1, \dots, x_n \}$ et, pour tout $k \in [\![ 1 ; n ]\!] $, on pose $p_k = \mathbb{P} ( X= x_k ) $. On appelle alors entropie de $X$ le réel:
$$ H ( X ) = -\sum_{ k = 1 }^n p_k \ln(p_k) = - \sum_{ x \in X ( \Omega ) } \mathbb{P} ( X = x) \ln \big( \mathbb{P} ( X=x ) \big) $$
avec la convention $x\ln(x)=0$ si $x=0$.
 
 
 
 
  • Encadrement de $H(X)$. Si $n = \hbox{ Card } \big( X (\Omega) \big)$, alors $ 0 \leq H(X) \leq \ln(n) $.

Preuve. L'inégalite $H(X)\geq 0$ vient simplement du fait que $\ln(x) \leq 0$ si $x\leq 1$.

D'autre part, une simple étude de fonctions montre que $-x\ln(x)\leq 1-x$ pour tout $x\geq 0$. On en déduit que, pour tout $k \in [\![ 1;n ]\!]$:
$$ -(n p_k ) \ln (n p_k ) = -n p _k \ln(n) -n p_k \ln ( p_k ) \leq 1 - n p_k $$
et donc en additionnant ces inégalités:
$$ - n \ln (n) \sum_{ k=1 }^n p_k - n \sum_{ k=1 }^n p_k \ln ( p_k ) \leq \sum_{ k=1 }^n - n \sum_{ k=1 }^n p_k $$
et après simplifications:
$$ - n \ln ( n ) + n H ( X ) \leq n - n = 0 $$
et finalement:
$$ H( X )  \leq \ln ( n ) $$

 

 
 
 
  • Loi de $X$ lorsque $H(X)$ est minimale. $ H ( X ) = 0 $ si, et seulement si,  $X$ est constante $\mathbb{P}-$p.s..
Preuve. $\Longleftarrow$ S'il existe $a\in\mathbb{R}$ tel que $\mathbb{P} ( X=a ) = 1$, alors pour tout $x \in X ( \Omega )$ et $x\neq a$, on a $\mathbb{ P} ( X = x ) = 0$, puisque $ [ X = x ] \subseteq [X \neq a ] $. Donc :
$$ H ( X ) = - 1 \ln ( 1 ) + 0 = 0 $$
 
$\Longrightarrow$ Supposons que $ H ( X ) = 0 $. Comme $H(X)$ est une somme de termes positifs, on a donc
$$ \forall x \in X ( \Omega ) ,\quad - \mathbb{P} ( X=x ) \ln \big( \mathbb{P} ( X=x ) \big) = 0 $$
et donc
$$ \forall x \in X ( \Omega ) ,\quad  \mathbb{P} ( X=x ) = 0 \hbox{  ou  } 1 $$
 
Mais il est clair que $\mathbb{P} ( X = x)=1$ n'est vraie que pour un unique $x \in X ( \Omega ) $, ceci par définition d'une loi de probabilité.
Si on note $a$ cet élément de $X ( \Omega ) $, on a donc $\mathbb{ P } ( X=a ) = 1$, c'est-à-dire que $X$ est constante $\mathbb{P}-$p.s.
 
(Par contre $X ( \Omega ) $ peut ne pas être réduit à $a$, mais les autres valeurs sont prises avec probabilité $0$.)
 
 
 
 
 
 
  • Loi de $X$ lorsque $H(X)$ est maximale. On pose $n = \hbox{ Card } \big( X (\Omega ) \big)$.  Alors:
$$ H( X ) =\ln (n) \Longleftrightarrow X \hookrightarrow \mathcal{U} ( [\![ 1;n ]\!] ) $$
 
Preuve. $\Longleftarrow$ Simple calcul:
$$ H (X) = - \sum_{ k=1 }^n \frac{ 1 }{ n } \ln \left( \frac{ 1 }{ n } \right) = - n \frac{ 1 }{ n } \ln \left( \frac{ 1 }{ n } \right) = \ln ( n ) $$
 
$\Longrightarrow$ Réciproquement, supposons que $ H ( X ) = \ln ( n ) $. En reprenant à l'envers la preuve de $ H ( X ) \leq \ln (n )$, on voit que $H (X) = \ln (n)$ impose que:
$$\forall k \in [\![ 1;n ]\!], \quad - (n p_k) \ln (n p_k) = 1 - n p_k $$
et donc:
$$\forall k \in [\![ 1;n ]\!], \quad  n p_k = 1 $$
puisque $-x\ln (x) = 1- x $ $\Longleftrightarrow$ $x=1$.
 
Ceci prouve que $p_1=\dots=p_n= \displaystyle \frac{1}{n} $. Donc $ X \hookrightarrow \mathcal{U} ( [\![ 1;n ]\!] )$.