diff options
Diffstat (limited to 'rapport.tex')
| -rw-r--r-- | rapport.tex | 28 |
1 files changed, 17 insertions, 11 deletions
diff --git a/rapport.tex b/rapport.tex index c78a2bd..b53b365 100644 --- a/rapport.tex +++ b/rapport.tex @@ -33,7 +33,7 @@ \maketitle -\section{Bandits à $N$ bras} +\section{Bandits à $N$ bras déterministes} \subsection{Stratégie et résultat} On utilise la stratégie de prédiction suivante : @@ -233,26 +233,32 @@ que $\espc{X}{\trib{F}}=0$, alors : \end{lem} \begin{proof} -On a $\eta X\leq \eta$, donc grâce au lemme \ref{inegexp} -$$\exp(\eta X)-\eta X-1\leq X^2(e^\eta-\eta-1).$$ +On a $\eta X\leq \eta$, donc grâce au lemme \ref{inegexp} : +\[ +\exp(\eta X)-\eta X-1\leq X^2(e^\eta-\eta-1) +.\] En prenant de part et d'autre l'espérance conditionelle : -$$\espc{\exp(\eta X)}{\trib{F}}\leq 1 +(e^\eta-\eta-1)\espc{X^2}{\trib{F}}.$$ +\[ +\espc{\exp(\eta X)}{\trib{F}}\leq 1 +(e^\eta-\eta-1)\espc{X^2}{\trib{F}} +.\] On conclut alors en utilisant $1+u\leq\exp(u)$ si $u\in\set{R}$. \end{proof} \begin{lem} Soit $(X_t)$ une suite d'accroissements de martingale majorée par 1. Notons : -$$\forall T \in \set{N}^*, \quad S_T=\sum_{t=1}^T X_t, \quad V_T=\sum_{t=1}^T -\espc{X_t^2}{\trib{F}_{t-1}},$$ -alors, définissons, pour $\eta\in\set{R}^+$, le processus $(M_t)$ par : +\[ +\forall T \in \set{N}^*, \quad S_T=\sum_{t=1}^T X_t, \quad V_T=\sum_{t=1}^T +\espc{X_t^2}{\trib{F}_{t-1}}, +,\] +et définissons, pour $\eta\in\set{R}^+$, le processus $(M_t)$ par : \[ \forall t \in \set{N}^*,\quad -M_t=\exp\big(\eta S_t-V_t\left(e^{\eta}-\eta-1\right)\big), -\] -$(M_t)$ est une surmartingale par rapport à la filtration $(\trib{F}_t)$ et -$\esp{M_1}\leq 1$ +M_t=\exp\big(\eta S_t-V_t\left(e^{\eta}-\eta-1\right)\big) +,\] +alors $(M_t)$ est une surmartingale par rapport à la filtration $(\trib{F}_t)$ +et $\esp{M_1}\leq 1$. \end{lem} \begin{proof}La majoration de $\esp{M_1}$ est une application directe du |
