Sur la loi hypergéométrique

Thèmes: Variables aléatoires - Loi - Moments - Indépendance - Covariance - Convergence en loi
 
 
 
 
On dit qu'une variable aléatoire $X$ suit la loi hypergéométrique de paramètres $n\in\mathbb{N}^*$, $N\in\mathbb{N}^*$ et $p\in]0,1[$, avec $n\leq N$ et $Np\in\mathbb{N}$ (ces conditions paraîtront naturelles une fois vue la modélisation), lorsque:
 
$$X(\Omega)\subseteq[\![ 0;n]\!]\qquad\hbox{et}\qquad \forall k\in[\![0;n]\!], \; \mathbb{P}(X=k) = \frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$$
 où $q=1-p$ vérifie ausi $Nq=N-Np\in\mathbb{N}$, et avec la convention $\binom{j}{i}=0$ si $i\notin [\![0;j]\!]$.
 
On le note $X\hookrightarrow\mathcal{H}(N,n,p)$.
 
 
 
  •  Remarque. A prori $X(\Omega)$ n'est pas égal à $[\![0;n]\!]$, ceci ne pose pas de problème, car dans la définition $\mathbb{P}(X=k)=0$ pour certaines valeurs de
$k$, graĉe à la convention habituelle sur les coefficients binomiaux. D'ailleurs, on pourrait aussi supposer que
$$X(\Omega)\subseteq \mathbb{Z} \qquad\hbox{et}\qquad \forall k\in \mathbb{Z}, \; \mathbb{P}(X=k) = \frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$$
 
Nous préciserons dans la modélisation $X(\Omega)$, mais en pratique cela n'a pas d'intérêt.
 
 

 

 
 
 
  • Formule de Van der Monde. On peut en déduire la formule de Van der Monde, en posant $N=a+b$ et $p=\displaystyle \frac{a}{a+b}$ avec $(a,b)\in\big(\mathbb{N}^*\big)^2$.
En effet si $X\hookrightarrow\mathcal{H}\left(a+b,n,\displaystyle\frac{a}{a+b}\right)$, la propriété $\displaystyle \sum_{k=0}^n\mathbb{P}(X=k)=1$ donne $\displaystyle \binom{n}{a+b}= \sum_{k=0}^n\binom{a}{k}\binom{b}{n-k}$.
 
 
 
  • Modélisation1. On considère une urne de $N\in\mathbb{N}^*$ boules dont $N_1\in\mathbb{N}^*$ blanches et $N_2\in\mathbb{N}^*$ noires, avec $N=N_1+N_2$.
On effectue un tirage simultané de $n$ boules et on note $X$ le nombre de boules blanches obtenues. Alors $X\hookrightarrow\mathcal{H}(N,n,p)$ où $p=\displaystyle \frac{N_1}{N}$ est la proportion de boules blanches dans l'urne.
 
Preuve: Il est clair que $X(\Omega)\subseteq[\![ 0;n]\!]$.
 
D'autre part, pour $k\in[\![ 0;n]\!]$ fixé, l'évènement $[X=k]$ correspond à l'évènement "on a obtenu $k$ blanches". Un simple calcul de dénombrement donne:
 
\begin{equation*}      \mathbb{P}(X=k) = \frac{ \binom{N_1}{k} \binom{N_2}{n-k} }{ \binom{N}{n} } =\frac{ \binom{Np}{k} \binom{Nq}{n-k} }{ \binom{N}{n} } \end{equation*}
puisque $N_2=N-N_1=N-Np=Nq$.
 
 
 
 
  • Remarque. Les conditions $n\leq N$ (on ne peut pas tirer simultanément, plus de boules qu'il n'y en a dans l'urne) et $Np\in\mathbb{N}$ ($p$ est la proportion
d'une des deux couleurs dans l'urne) paraissent ici naturelles!
 
On est aussi en mesure de déterminer précisément $X(\Omega)$.
Au minimum, on ne tire aucune boule blanche, mais ceci n'est possible que si on a obtenu $n$ noires. Comme celles-ci sont au nombre de $N_2$, il n'est en fait pas possible d'en tirer $n$ lorssque $n>N_2$. Dans ce cas on obtient au minimum $n-N_2$ blanches.
Au maximum, on ne tire que des boules blanches, mais comme celles-ci sont au nombre de $N_1$, ce ne sera pas possible si $n>N_1$. Dans ce cas on obtient au maximum $N_1$ blanches.
Ainsi $X(\Omega)=[\![\min(0,n-N_2);\max(n,N_1)]\!]$ (un peu compliqué à utiliser en pratique!).
 
 
 
  • Modélisation2. On reprend la même urne (et les mêmes notations). On tire encore une fois $n$ boules mais cette fois les tirages se font une par une et sans remise.
On note $X$ le nombre de boules blanches obtenues. Alors $X\hookrightarrow\mathcal{H}(N,n,p)$ où $p=\displaystyle \frac{N_1}{N}$ est la proportion de boules blanches dans l'urne.
 
Preuve: Il est clair que $X(\Omega)\subseteq[\![ 0;n]\!]$.
 
D'autre part, pour $k\in[\![ 0;n]\!]$ fixé, l'évènement $[X=k]$ correspond à l'évènement "on a obtenu $k$ blanches". Un calcul de dénombrement donne:
$$\mathbb{P}(X=k)=\frac{\binom{n}{k}A_{N_1}^{k}A_{N_2}^{n-k}}{A_{N}^{n}}$$
soit après simplifications des arrangements en combinaisons:
$$\mathbb{P}(X=k)=\frac{\binom{N_1}{k}\binom{N_2}{n-k}}{\binom{N}{n}}=\frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$$
 

 
 
  • Remarque1. On vient donc de démontrer que les calculs de probabilités donnent les mêmes résultats, que les tirages soient faits simultanément ou sans remise,
ce qui est remarquable. Mais attention, ceci est faux pour les calculs de dénombrement!
 
 
 
 
  • Remarque2. Et si les tirages sont effectuées avec remise? La réponse est bien connue: $X\hookrightarrow\mathcal{B}(n,p)$.

 
 
  • Espérance. On a $\mathbb{E}(X)=np$.
Preuve: Par définition $\mathbb{E}(X)=\displaystyle\sum_{k=0}^n k \frac{\binom{Np}{k}\binom{Nq}{n-k}}{\binom{N}{n}}$. Comme $k\binom{n}{k}=n\binom{n-1}{k-1}$, pour $k\neq0$, on a:
$$ \mathbb{E}(X)=0+ \frac{Np}{\binom{N}{n}} \sum_{k=1}^n \binom{Np-1}{k-1} \binom{Nq}{n-k}= \frac{Np}{\binom{N}{n}} \sum_{k=0}^{n-1} \binom{Np-1}{k} \binom{Nq}{(n-1)-k} = \frac{Np}{\binom{N}{n}} \binom{Np+Nq-1}{n-1} = Np\frac{n}{N}=np $$
grâce au changement d'indice $k'=k-1$ et à la formule de Van der Monde.
 
 
 
 
  • Variance. On a $V(X)=\displaystyle np(1-p)\frac{N-n}{n-1}$.
Preuve1: Méthode habituelle par le théorème de transfert.
Par le théorème de transfert $\mathbb{E}\big(X(X-1)\big)=\displaystyle \frac{1}{\binom{N}{n}} \sum_{k=0}^n k(k-1) \binom{Np}{k} \binom{Nq}{n-k}$. Or $k(k-1)\binom{N_1}{k}=N_1(N_1-1)\binom{N_1-2}{k-2}$, pour $k\neq0$ et $k\neq 1$, donc en procédant de même que ci-dessus, on obtient $\mathbb{E}\big(X(X-1)\big)=\displaystyle \frac{np(n-1)(Np-1)}{N-1}$.
D'autre part, par linéarité de l'espérance: $\mathbb{E}\big(X(X-1)\big)=\mathbb{E}\big(X^2\big)-\mathbb{E}(X)$. On a donc montré que $\mathbb{E}\big(X^2\big)=\displaystyle \frac{np(n-1)(Np-1)}{N-1}+np$.
La formule de Koenig-Huyghens donne alors que:
$$ V(X)=\mathbb{E}\big(X^2\big)-\big(\mathbb{E}X\big)^2=\frac{np}{N-1}\big[(Np-1)(n-1)+(1-np)(N-1)\big]=np(1-p)\frac{N-n}{n-1} $$
 
Preuve2: Par la covariance et une variable aléatoire de comptage.
On se place dans le cadre de la modélisation1 (tirage simultané), et on ajoute l'hypothèse que les boules blanches sont numérotées de $1$ à $N_1$.
Pour tout $i\in[\![1;n_1]\!]$, on pose $Y_i$ $=$ $1$ si la boule blanche numéro $i$ a été tirée, et $0$ sinon.
La variable aléatoire $\displaystyle \sum_{i=1}^{N_1} Y_i$ est appellée processus de comptage. Le point clé est de remarquer qu'elle compte le nombre de boules blanches obtenues, et donc elle est égale à $X$!
On sait donc que:
$$V(X)=\sum_{i=1}^n V(Y_i)+2\sum_{1\leq i< j\leq n} \hbox{Cov}(Y_i,Y_j)$$
Etudions tout d'abord la variable $Y_i$, pour $i\in[\![1;N_1]\!]$. Elle suit une loi de Bernoulli de paramètre:
$$\mathbb{P}(Y_i=1)=\mathbb{P}(\hbox{" la boule blanche }i\hbox{ a été tirée "})=\frac{\binom{1}{1}\binom{N-1}{n-1}}{\binom{N}{n}}=\frac{n}{N}$$
et donc $V(Y_i)=\displaystyle\frac{n}{N}\left(1-\frac{n}{N}\right)$.
Etudions ensuite la variable $Y_iY_j$, pour $1\leq i<j\leq n$. On remarque que $(Y_iY_j)(\Omega)=\{0;1\}$ et $[Y_iY_j=1]=[Y_i=1]\cap[Y_j=1]$, donc $Y_iY_j$ suit une loi de Bernoulli de paramètre:
$$\mathbb{P}(Y_iY_j=1)=\mathbb{P}(Y_i=1,Y_j=1)=\mathbb{P}(\hbox{" les boules blanches }i\hbox{ et }j\hbox{ ont été tirées "})=\frac{\binom{1}{1}\binom{1}{1}\binom{N-2}{n-2}}{\binom{N}{n}}=\frac{n(n-1)}{N(N-1)}$$
On en déduit que:
$$\hbox{Cov}(Y_i,Y_j)=\mathbb{E}(Y_iY_j)-\mathbb{E}(Y_i)\mathbb{E}(Y_j)=\frac{n(n-1)}{N(N-1)}-\frac{n^2}{N^2}$$
Attention: les variables $Y_i$ et $Y_j$ ne sont donc pas indépendantes.
En remarquant que $V(Y_i)$ ne dépend pas de $i$, que $\hbox{Cov}(y_i,Y_j)$ ne dépend pas de $(i,j)$, que $\displaystyle \sum_{i=1}^n$ donne $n$ termes et que $\displaystyle \sum_{1\leq i<j\leq n}$ donne $\displaystyle\binom{n}{2}$ termes, on obtient:
$$V(X)=n\frac{n}{N}\left(1-\frac{n}{N}\right)+2\binom{n}{2}\left[\frac{n(n-1)}{N(N-1)}-\frac{n^2}{N^2}\right]$$
et après simplifications (courage!):
$$V(X)=np(1-p)\frac{N-n}{n-1} $$
 
 
 
 
  • Fonction génératrice.  Elle est beaucoup trop compliquée! (liée à la fonction hypergéométrique, voir Foata-Fuchs Calcul des probabilités).

 

 

  • Approximation d'une loi hypergéométrique par une loi binomiale. Pour tout $n\in\mathbb{N}$, on se donne $X_N$ de loi $\mathcal{H}(N,n,p)$.
Alors $\forall k\in[\![0;n]\!]$, $\displaystyle\lim_{N\to+\infty}\mathbb{P}(X_N=k)=\binom{n}{k}p^k(1-p)^{n-k}$.
Autrement dit: $X_N\overset{(\mathcal{L})}{\underset{N\to+\infty}{\longrightarrow}}\mathcal{B}(n,p)$.
 
Intuitivement cela signifie que, lorsque le nombre de boules dans l'urne est très grand, on approximer des tirages sans remise par des tirages avec remise (qui eux sont indépendants).
 
Preuve: Soit $k\in[\![0;n]\!]$. Il est classique que $\displaystyle \binom{b}{a}\underset{b\to+\infty}{\sim}\frac{b^a}{a!}$, on en déduit que:
$$\mathbb{P}(X_N=k)\underset{N\to+\infty}{\sim}\frac{\frac{(Np)^k}{k!}\frac{(Nq)^{n-k}}{(n-k)!}}{\frac{N^n}{n!}}=\binom{n}{k}p^k(1-p)^{n-k}$$
 
 

 

  • Un lien moins connu entre la loi binomiale et la loi hypergéométrique. Si $X\hookrightarrow\mathcal{B}(n_1,p)$, $Y\hookrightarrow\mathcal{B}(n_2,p)$ et $X$
est indépendante de $Y$, alors la loi de $X$ sachant $X+Y=k$ est la loi $\displaystyle\mathcal{H}\left(n_1+n_2,k,\frac{n_1}{n_1+n_2}\right)$, pour tout $k\in[\![0,n_1+n_2]\!]$.
 
Rappelons qu'on sait déjà que $X+Y\hookrightarrow\mathcal{B}(n_1+n_2,p)$.
 
Preuve1: Par modélisation.
Supposons que $X+Y=k$ pour  $k\in[\![0,n_1+n_2]\!]$.
Cela signifie que dans un schéma de Bernoulli, $n_1+n_2$ répétitions ont donné $k$ succès.
$X$ correspond alors au nombre de succès obtenus pendant les $n_1$ premières répétitions.
On utlise alors l'analogie suivante: on dispose d'une urne avec $n_1+n_2$ boules, dont $n_1$ blanches et $n_2$ noires et on en tire $k$ sans remise. Dans cette analogie on voit que $X$ correspond au nombre de blanches obtenues.
Ainsi, sachant $X+Y=k$ la loi de $X$ est la loi $\displaystyle \mathcal{H}\left(n_1+n_2,k,\frac{n_1}{n_1+n_2}\right)$.
 
Preuve2: Par un calcul de loi.
Pour $k\in[\![0,n_1+n_2]\!]$ et $i\in[\![0;n]\!]$, il s'agit de montrer que $\displaystyle \mathbb{P}(X=i\,|\,X+Y=k)=\frac{\binom{n_1}{i}\binom{n_2}{k-i}}{\binom{n_1+n_2}{k}}$.
Or en remarquant que $[X=i]\cap[X+Y=k]=[X=i]\cap[Y=k-i]$ on a grâce à la convention habituelle sur les coefficients binomiaux et l'indépendance de $X$ et $Y$:
 
$$\mathbb{P}( X=i\,|\,X+Y=k )  =  \frac{ \mathbb{P} (X=i,X+Y=k) }{ \mathbb{P} (X+Y=k) }  = \frac{ \mathbb{P} (X=i,Y=k-i) }{ \mathbb{P} (X+Y=k) } = \frac{ \mathbb{P}(X=i) \mathbb{P}(Y=k-i) }{ \mathbb{P}(X+Y=k) }$$
 donc:
$$ \mathbb{P}(X=i\,|\,X+Y=k) =  \frac{ \binom{n_1}{i}p^i(1-p)^{n_1-i} \binom{n_2}{k-i}p^{k-i}(1-p)^{n_2-k+i} }{ \binom{n_1+n_2}{k}p^{k}(1-p)^{n_1+n_2-k} }=\frac{\binom{n_1}{i}\binom{n_2}{k-i}}{\binom{n_1+n_2}{k}} $$