Théorème de De Moivre-Laplace.
Si $X_n\sim\mathcal{B}(n,p)$ pour $n\in\mathbb{N}^*$ et $p\in]0,1[$ alors on a :
$$\forall [a,b]\subseteq\mathbb{R},\quad \lim_{n\to+\infty}\mathbb{P}\big(X_n\in[a,b]\big)=\frac{1}{\sqrt{2\pi}}
\int_a^b{\rm e}^{-\frac{t^2}{2}}\,{\rm d}t$$
ce qui signifie que $\displaystyle \frac{X_n-np}{\sqrt{pqn}}\overset{(\mathcal{L})}{\longrightarrow}\mathcal{N}(0,1)$.
Remarque. C'est un cas particulier du théorème central limite en remplaçant $X_n$ par $\displaystyle\sum_{k=1}^n Y_k$ où $Y_1$,
$\dots$, $Y_n$ sont i.i.d. de loi $\mathcal{B}(p)$.
Preuve niveau CPGE 1ère année dans le cas $\displaystyle p=\frac{1}{2}$.
On pose $Z_n=\displaystyle \frac{X_n-np}{\sqrt{n/4}}=\frac{2}{\sqrt{n}}\left(X_n-\frac{n}{2}\right)$.
Puisque $X_n(\Omega)=\lc0,n\rc$, on a
$Z_n(\Omega)=\displaystyle \bigg\{t_k=\frac{2}{\sqrt{n}}\left(k-\frac{n}{2}\right)\, \bigg\vert \, k\in\lc0,n\rc \bigg\}$.
Les réels $-\sqrt{n}=t_0<t_1<\dots<t_n=\sqrt{n}$ forment une subdivision régulière de l'intervalle $[-\sqrt{n},\sqrt{n}]$,
de pas $\displaystyle\frac{2}{\sqrt{n}}$.
On définit une fonction en escalier $f_n:\mathbb{R}\longrightarrow\mathbb{R}$ par :
$$\forall t\in\mathbb{R},\quad f_n(t)
= \sum_{k=0}^n \frac{\sqrt{n}}{2}\mathbb{P}(S_n=k)\mathbf{1}_{\big[t_k-1/\sqrt{n},t_k+1/\sqrt{n}\big]} (t)$$
Lemme 1.
On pose $k_a=\displaystyle \min\big\{ k\in\lc0,n \rc \, \big\vert \, t_k\in[a,b]\big\}$,
$k_b=\displaystyle \max\big\{ k\in\lc0,n \rc \, \big\vert \, t_k\in[a,b]\big\}$,
$a_n=\displaystyle t_{k_a} -\frac{1}{\sqrt{n}}$ et $b_n=\displaystyle t_{k_b} +\frac{1}{\sqrt{n}}$.
Alors :
$$\mathbb{P}\big(Z_n\in[a,b]\big)=\int_{a_n}^{b_n} f_n(t)\,{\rm d}t$$
PREUVE DU LEMME 1 [ afficher/masquer ]
Il est clair que $\displaystyle \int_{t_k-1/\sqrt{n}}^{t_k+1/\sqrt{n}} f_n(t)\,{\rm d}t
=\mathbb{P}(X_n=k)=\mathbb{P}(Z_n=t_k)$, puisque $[X_n=k]=[Z_n=t_k]$.
D'autre part $\big[Z_n\in[a,b]\big]=\displaystyle\bigcup_{k=k_a}^{k_b}[Z_n=k]$, donc par additivité d'une probabilité :
$$\mathbb{P}\big(Z_n\in[a,b]\big)=\sum_{k=k_a}^{k_b} \mathbb{P}(Z_n=t_k)
=\sum_{k=k_a}^{k_b}\int_{t_k-1/\sqrt{n}}^{t_k+1/\sqrt{n}} f_n(t)\,{\rm d}t
=\int_{a_n}^{b_n} f_n(t)\,{\rm d}t$$
MASQUER
L'idée est alors de montrer que lorsque $n$ est grand, $\displaystyle\int_{a_n}^{b_n} f_n(t)\,{\rm d}t$
est proche de $\displaystyle\int_{a}^{b} \varphi(t)\,{\rm d}t$,
où $\varphi(t)=\displaystyle \frac{1}{\sqrt{2\pi}}{\rm e}^{-\frac{t^2}{2}}$.
L'inégalité triangulaire et le lemme $1$ donnent :
$$\begin{array}{cl}&\Bigg| \mathbb{P}\big(Z_n\in[a,b]\big)-\int_{a}^{b} \varphi(t)\,{\rm d}t\Bigg|\\
\leq&\displaystyle
\Bigg| \int_{a_n}^{b_n} f_n(t)\,{\rm d}t-\int_{a_n}^{b_n} \varphi(t)\,{\rm d}t\Bigg|
+\Bigg| \int_{a_n}^{b_n} \varphi(t)\,{\rm d}t-\int_{a}^{b} \varphi(t)\,{\rm d}t\Bigg|
=M_1+M_2\qquad(1)\end{array}$$
où la définition de $M_1$ et $M_2$ est évidente.
Pour continuer nous avons besoin de plusieurs lemmes techniques.
Lemme 2. Estimations de $a_n$ et $b_n$.
On pose $c=\max(|a|,|b|)$.
Alors si $n>c^2$, on a $\displaystyle |a_n-a|\leq \frac{1}{\sqrt{n}}$ et
$\displaystyle|b_n-b|\leq\frac{1}{\sqrt{n}}$.
PREUVE DU LEMME 2 [ afficher/masquer ]
Si $n>c^2$ on a $t_0<a$ et $t_n>b$, donc $1\leq k_a\leq k_b\leq n-1$.
Or par définition de $k_a$ on a: $\displaystyle t_{k_a-1}=t_{k_a}-\frac{2}{\sqrt{n}} <a \leq t_{k_a}$.
Comme $a_n$ est le milieu de $[t_{k_a-1},t_{k_a}]$, intervalle de longueur $\displaystyle \frac{2}{\sqrt{n}}$,
on a $\displaystyle|a_n-a|\leq \frac{1}{\sqrt{n}}$.
On obtient de même $\displaystyle|b_n-a|\leq \frac{1}{\sqrt{n}}$.
MASQUER
L'idée est alors de montrer que lorsque $n$ est grand, $\displaystyle\int_{a_n}^{b_n} f_n(t)\,{\rm d}t$
est proche de $\displaystyle\int_{a}^{b} \varphi(t)\,{\rm d}t$,
où $\varphi(t)=\displaystyle \frac{1}{\sqrt{2\pi}}{\rm e}^{-\frac{t^2}{2}}$.
L'inégalité triangulaire et le lemme $1$ donnent :
$$\begin{array}{cl}&\Bigg| \mathbb{P}\big(Z_n\in[a,b]\big)-\int_{a}^{b} \varphi(t)\,{\rm d}t\Bigg|\\
\leq&\displaystyle
\Bigg| \int_{a_n}^{b_n} f_n(t)\,{\rm d}t-\int_{a_n}^{b_n} \varphi(t)\,{\rm d}t\Bigg|
+\Bigg| \int_{a_n}^{b_n} \varphi(t)\,{\rm d}t-\int_{a}^{b} \varphi(t)\,{\rm d}t\Bigg|
=M_1+M_2\qquad(1)\end{array}$$
où la définition de $M_1$ et $M_2$ est évidente.
Pour continuer nous avons besoin de plusieurs lemmes techniques.
Lemme 3. Estimation de $f_n(t)$.
Il existe $D>0$ telle que, si $n>4c^2$ :
$$\forall t\in [a_n,b_n],\quad \big| f_n(t) - \varphi(t) \big|\leq \frac{D}{\sqrt{n}} $$
PREUVE DU LEMME 3 [ afficher/masquer ]
Supposons que $n>4c^2$ et $t\in[a_n,b_n]
=\displaystyle\bigcup_{k=k_a}^{k_b}\left[t_k-\frac{1}{\sqrt{n}},t_k+\frac{1}{\sqrt{n}}\right]$.
Il existe $k\in\lc k_a,k_b\rc$ tel que $t\in\displaystyle \left[t_k-\frac{1}{\sqrt{n}},t_k+\frac{1}{\sqrt{n}}\right]$.
On a donc $f_n(t)=f_n(t_k)$.
De plus $1\leq k\leq n-1$ donc $|t_k|\leq A$.
D'après l'inégalité triangulaire et la stricte positivité de $f_n$ :
$$\begin{array}{rcl}
\big| f_n(t)-\varphi(t) \big| &=& \displaystyle \big| f_n(t_k )-\varphi(t) \big|\\
&\leq& \displaystyle \big| \varphi(t_k)-\varphi(t) \big|
+ \frac{ f_n(t_k) }{ f_n(0) } \bigg| f_n(0) - \frac{ 1 }{ \sqrt{2\pi} } \bigg|
+ \bigg| \frac{1}{\sqrt{2\pi}} \frac{ f_n(t_k) }{ f_n(0) } - \varphi(t_k) \big| \qquad (2)\end{array}$$
Nous allons majorer un par un chacun des trois termes du membre de droite.
- Premier terme.
$t\in\displaystyle \left[t_k-1/\sqrt{n},t_k+1/\sqrt{n}\right] $
donne $\displaystyle|t-t_k|\leq\frac{1}{\sqrt{n}}$.
On vérifie ensuite facilement avec l'inégalité des accroissements finis que :
$\forall (x,y)\in\mathbb{R}^2$, $\big|\varphi(x)-\varphi(y)\big|\leq |x-y|$.
On a donc :
$$ \big|\varphi(t_k)-\varphi(t)\big| \leq \frac{1}{\sqrt{n}}\qquad (3) $$
- Deuxième terme.
La valeur de $f_n(0)$ dépend de la parité de $n$.
On suppose donc dans la suite que $n$ est pair: $n=2m$ où $m\in\mathbb{N}^*$.
Puisque $n=2m$, on a $t_{m}= 0$ et donc
$\displaystyle f_{2m}(0)=f_{2m}(t_m)=\frac{\sqrt{2m}}{2}\binom{2m}{m}=\frac{\sqrt{2m}}{2}\frac{(2m)!}{2^{2m}(m!)^2}$.
Utilisons un peu de calcul intégral.
On pose $\displaystyle I_m = \int_0^1 (1-t^2)^{\frac{m}{2}}\,{\rm d}t$.
On montre facilement que la suite $(I_m)_{m\geq1}$ est décroissante et strictement positive,
de premiers termes $I_0=1$ et $\displaystyle I_1=\frac{\pi}{4}$ (via le changement de variables $t=\cos(\theta)$),
et qu'elle vérifie la relation de récurrence $\displaystyle I_m=\frac{m}{m+1} I_{m-2}$.
On en déduit les formules :
$$I_{2m}=\frac{2^{2m}(m!)^2}{(2m+1)!}=\frac{\sqrt{2m}}{2}\frac{1}{2m+1}\frac{1}{f_{2m}(0)}\quad\hbox{et}\quad I_{2m-1}=\frac{(2m)!}{2^{2m+1}(m!)^2}\pi=\frac{2}{\sqrt{2m}}\frac{\pi}{2}f_{2m}(0)$$
Donc $\;\displaystyle f_{2m}(0) ^2= \frac{m}{\pi(2m+1)} \frac{I_{2m-1}}{I_{2m}} $.
D'où par décroissance de $(I_m)_{m\geq1}$, on obtient :
$\displaystyle \left(1-\frac{1}{2m}\right)^2\leq \frac{1}{1+\frac{1}{2m}}\leq 2\pi f_{2m}(0)^2\leq 1$.
Donc :
$$ \left(1-\frac{1}{2m}\right)\leq \sqrt{2\pi}\, f_{2m}(0)\leq 1\qquad (4.1)$$
De plus :
$$ \frac{f_{2m}(t_k)}{f_{2m}(0) }=\frac{\binom{2m}{k} }{ \binom{2m}{m} }
=\frac{ (2m-k+1)(2m-k+2)\dots m}{(m+1)(m+2)\dots k }$$
Comme $\displaystyle\binom{ 2m }{k} =\binom{2m }{2m- k}$, on peut se ramener au cas $k\geq m$,
et l'égalité précedente donne alors que :
$$ 0\leq \frac{f_{2m}(t_k)}{f_{2m}(0) } \leq1\qquad (4.2)$$
Les inégalités $(4.1)$ et $(4.2)$ donnent que :
$$\frac{ f_n(t_k) }{ f_n(0) } \bigg| f_n(0) - \frac{ 1 }{ \sqrt{2\pi} } \bigg|\leq \frac{1}{2m\,\sqrt{2\pi} } \qquad (4) $$
- Troisième terme.
On vient de voir que $\displaystyle \frac{ f_{2m}(t_k) }{ f_{2m}(0) } = \frac{m}{k} v_{k-m} $
où on peut supposer $k\geq m$ et
$\displaystyle v_{\ell}=\frac{\displaystyle\prod_{i=1}^{\ell-1}\left(1-\frac{i}{m}\right) }{\displaystyle\prod_{i=1}^{\ell-1}\left(1+\frac{i}{m}\right) }$ pour $\ell\in\mathbb{N}^*$ et $v_0=1$.
De plus, d'après l'inégalité triangulaire :
$$ \left| \frac{ f_{2m}(t_k) }{ f_{2m}(0) } - \varphi(t_k) \right|
\leq \left| \frac{ f_{2m}(t_k) }{ f_{2m}(0) } - v_{k-m} \right|
+ \left| v_{k-m} - {\rm e}^{-\frac{t_k^2}{2}}\right|=N_1+N_2 $$
Pour continuer on remarque que : $\displaystyle \frac{1-x}{1+x}={\rm e}^{x+\varepsilon(x)}$
où $\varepsilon(x)=\ln(1-x)-\ln(1+x)+2x$ vérifie $|\varepsilon(x)|\leq x^3$
si $\displaystyle |x|\leq\frac{1}{2}$.
On en déduit que $v_\ell=\displaystyle \exp\left(-\frac{\ell^2}{m}+\frac{\ell}{m}
+\sum_{i=1}^{\ell-1} \varepsilon\left(\frac{i}{m}\right)\right)$
et pour $\displaystyle 1\leq\ell\leq\frac{m}{2}$, on a $ \displaystyle\left|\varepsilon\left(\frac{i}{m}\right)\right|\leq\frac{i^3}{m^3}$ donc $\displaystyle \left|\sum_{i=1}^{\ell-1}\varepsilon\left(\frac{i}{m}\right)\right|\leq\frac{1}{m^3}\sum_{i=1}^{\ell-1} i^3\leq\frac{\ell^4}{4m^3} $.
Ainsi si $k>m$ on a :
$\displaystyle v_{k-m}={\rm e}^{-\frac{t_k^2}{2}}{\rm e}^{\frac{t_k}{\sqrt{2m}}+\varepsilon_k}$ où $\displaystyle|\varepsilon_k|\leq\frac{(k-m)^4}{4m^3}=\frac{t_k^4}{16m}\leq \frac{t_k^2}{8\sqrt{2m}}$.
Ceci reste vrai si $k=m$.
On a donc :
$$ N_2={\rm e}^{-\frac{ t_k^2 }{ 2 } } \left| {\rm e}^{ \frac{ t_k }{ \sqrt{2m} }+\varepsilon_k }-1\right|
\leq {\rm e}^{ \frac{ t_k+\frac{ t_k^4 }{ 8 } }{ \sqrt{2m} }
+\varepsilon_k }-1 \leq {\rm e}^{\frac{K_1}{\sqrt{2m}}}-1$$
où $\displaystyle K_1=c+\frac{c^4}{8}>0$.
L'inégalité ${\rm e}^x-1\leq x{\rm e^x}$ pour $x>0$ donne alors :
$$N_2\leq \frac{K_2}{\sqrt{2m}}\qquad(5.1)$$
où $K_2=K_1{\rm e}^{K_1}>0$.
D'autre part :
$$N_1= \left| \frac{ f_{2m}(t_k) }{ f_{2m}(0) } - v_{k-m} \right|
= \frac{k-m}{k}v_{k-m}\leq \frac{k-m}{m} =\frac{t_k}{\sqrt{2m}}\leq \frac{c}{\sqrt{2m}}\qquad (5.2)$$
Les inégalités $(5.1)$ et $(5.2)$ donnent alors :
$$\left| \frac{ f_{2m}(t_k) }{ f_{2m}(0) } - \varphi(t_k) \right|
\leq \frac{K_2}{\sqrt{2m}}+\frac{c}{\sqrt{2m}}=\frac{K_3}{\sqrt{2m}}\qquad(5)$$
où $K_3=K_2+c>0$.
- Les inégalités $(2)$, $(3)$, $(4)$ et $(5)$ donnent finalement :
$$ \big| f_n(t)-\varphi(t) \big| \leq \frac{1}{\sqrt{2m}} + \frac{1}{2m\,\sqrt{2\pi} }
+ \frac{K_3}{\sqrt{2m}} \leq \frac{D_1}{\sqrt{2m}}=\frac{D_1}{\sqrt{n}}\qquad(6) $$
- Il reste à prouver la même inégalité lorsque $n$ est impair.
Puisque $n-1$ est pair, on va pouvoir utiliser les résultats précédents au rang $n-1$.
On note $(\tau_0,\tau_1,\dots,\tau_{n-1})$ la subdivision associée au rang $n-1$ :
$\displaystyle\tau_k=\frac{2}{\sqrt{n-1}}(k-n+1)$.
On remarque que pour $1\leq k\leq n-1$, $\tau_{k-1}\leq t_k\leq\tau_k$, et donc
$\displaystyle |\tau_k-t_k|\leq \frac{2}{\sqrt{n-1}} $.
Puisqu'on a pris $k$ tel que $t\in\displaystyle \left[t_k-\frac{1}{\sqrt{n}},t_k+\frac{1}{\sqrt{n}}\right]$,
on a $f_n(t)=f_n(t_k)$ et $\displaystyle |t-t_k|\leq \frac{1}{\sqrt{n}} $.
Ainsi $\displaystyle |t-\tau_k|\leq |t-t_k|+|t_k-\tau_k|\leq\frac{1}{\sqrt{n}}+\frac{2}{\sqrt{n-1}}
\leq \frac{K_4 }{\sqrt{n}} $.
De plus la formule de Pascal donne que :
$$\begin{array}{rcl}
f_n(t)&=&\displaystyle f_n(t_k)=\frac{\sqrt{n}}{2^{n+1}}\binom{n}{k}\\
& =&\displaystyle \frac{\sqrt{n}}{2^{n+1}}\left[\binom{n-1}{k-1}+\binom{n-1}{k}\right]\\
& =&\displaystyle \frac{1}{2\sqrt{1-\frac{1}{n}}}\big[f_{n-1}(\tau_{k-1})+f_{n-1}(\tau_k)\big]\end{array}$$
On a $\displaystyle\frac{1}{\sqrt{1-\frac{1}{n}}}-1\leq \frac{1}{n}$ et d'après $(4.1)$
$\sqrt{2\pi}f_{n-1}(\tau_k)\leq 1$ et $\sqrt{2\pi}f_{n-1}(\tau_{k-1})\leq 1$,
donc en déduit que $\displaystyle 0\leq\sqrt{2\pi}\big(2f_n(t)-f_{n-1}(\tau_k)-f_{n-1}(\tau_{k-1})\big)
\leq \frac{2}{n}$.
D'après l'inégalité triangulaire :
$$\begin{array}{rcl}
2\big|f_n(t)-\varphi(t)|&\leq& \displaystyle \frac{2}{n\,\sqrt{2\pi}} +\big| f_{n-1}(\tau_k)-\varphi(\tau_k)\big|
+\big| f_{n-1}(\tau_{k-1})-\varphi(\tau_{k-1})\big|\\
&&\displaystyle \qquad+\big| \varphi(\tau_k)-\varphi(t)\big|
+\big| \varphi(\tau_{k-1})-\varphi(t)\big|\end{array}$$
L'inégalité $(6)$ donne $\displaystyle\big| f_{n-1}(\tau_k)-\varphi(\tau_k)\big|\leq\frac{D_1}{\sqrt{n}}$
et $\displaystyle\big| f_{n-1}(\tau_{k})-\varphi(\tau_k)\big|\leq\frac{D_1}{\sqrt{n}}$.
On a aussi $\displaystyle\big| \varphi(\tau_k)-\varphi(t)\big|\leq|\tau_k-t|\leq \frac{K_4 }{\sqrt{n}} $
et $\displaystyle\big| \varphi(\tau_{k-1})-\varphi(t)\big|\leq|\tau_{k-1}-t|\leq \frac{K_4 }{\sqrt{n}}$.
Il existe donc une constante $D_2>0$ telle que :
$$\big| f_n(t)-\varphi(t) \big|\leq \frac{D_1}{\sqrt{n}}\qquad(7) $$
- $(6)$ et $(7)$ donnent que pour tout $n>4c^2$ :
$$\forall t\in [a_n,b_n],\quad \big| f_n(t) - \varphi(t) \big|\leq \frac{D}{\sqrt{n}} $$
où $D=\max(D_1,D_2)$.
MASQUER
Nous pouvons maintenant revenir à l'inégalité $(1)$.
Le lemme $3$ donne que :
$$ M_1 \leq \int_{a_n}^{b_n}\big|f_n(t) - \varphi(t)\big| {\rm d}t\leq \int_{a_n}^{b_n} \frac{D}{\sqrt{n}}\,{\rm d}t\leq \frac{D(b-a+2)}{\sqrt{n}}$$
et en utilisant que $\forall t\in\mathbb{R}$, $\displaystyle |\varphi(t)|\leq\frac{1}{2}$ :
$$M_2\leq \int_{a_n}^{b_n} \big|\varphi(t)\big|\,{\rm d}t+\int_{a}^{b} \big|\varphi(t)\big|\,{\rm d}t\leq \frac{|a-a_n|}{2}+\frac{|b-b_n|}{2}$$
et donc d'après le lemme $2$ :
$$M_2\leq\frac{1}{2\sqrt{n}}+\frac{1}{2\sqrt{n}}=\frac{1}{\sqrt{n}}$$
On a donc :
$$\Bigg| \mathbb{P}\big(Z_n\in[a,b]\big)-\int_{a}^{b} \varphi(t)\,{\rm d}t\Bigg| \leq\frac{D(b-a+2)+1}{\sqrt{n}}$$
Le théorème des gendarmes permet alors de conclure que :
$$\lim_{n\to+\infty} \mathbb{P}\big(Z_n\in[a,b]\big)=\int_{a}^{b} \varphi(t)\,{\rm d}t$$