From 9f9bfe0aadfe22092a5fdf64bc8e2dfcd92cce3a Mon Sep 17 00:00:00 2001 From: Anthony Debucquoy Date: Thu, 18 Dec 2025 17:11:30 +0100 Subject: [PATCH] stats --- src/SUMMARY.md | 1 + src/bac3/Stats/EstimPonct.md | 11 +++++ src/bac3/Stats/Introduction.md | 76 +++++++++++++++++++++++++++++++++- src/bac3/Stats/StatDesc.md | 23 +++++----- 4 files changed, 98 insertions(+), 13 deletions(-) create mode 100644 src/bac3/Stats/EstimPonct.md diff --git a/src/SUMMARY.md b/src/SUMMARY.md index f179f0b..f09a888 100644 --- a/src/SUMMARY.md +++ b/src/SUMMARY.md @@ -72,6 +72,7 @@ - [Statistiques]() - [Introduction](./bac3/Stats/Introduction.md) - [Statistique déscriptive](./bac3/Stats/StatDesc.md) + - [Estimation Ponctuelle](./bac3/Stats/EstimPonct.md) - [Cryptographie](./bac3/Crypto/Introduction.md) - [Unix](./bac3/Crypto/Unix.md) diff --git a/src/bac3/Stats/EstimPonct.md b/src/bac3/Stats/EstimPonct.md new file mode 100644 index 0000000..d543bf4 --- /dev/null +++ b/src/bac3/Stats/EstimPonct.md @@ -0,0 +1,11 @@ +# Estimation Ponctuelle + +## Estimation + +\\[ + X^{(n)} = (X_1,...,X_n) \quad X_i iid \sim P_{\theta} \text{ où } \theta \in \Theta \subset \mathbb{R}^k +\\] + +- un **Estimateur de \\( \theta \\)** est une *statistique* à valeurs dans \\( \Theta \\) + - Le but est de trouver le meilleur estimateur possible de \\( \theta \\) (inconnu) +- un **Estimateur de \\( g(\theta) \\)** est une *statistique* à valeurs dans \\( g(\Theta) \\) diff --git a/src/bac3/Stats/Introduction.md b/src/bac3/Stats/Introduction.md index 2c9563f..9e107fd 100644 --- a/src/bac3/Stats/Introduction.md +++ b/src/bac3/Stats/Introduction.md @@ -1,4 +1,4 @@ -# Introduction +# Introduction ( ne pas étudier ) On parle de phénomènes aléatoires car nous ne contrôlons pas tout les paramètres de ces évènements. @@ -30,6 +30,80 @@ Fournit des modèles théoriques pour l'analyse aléatoire. Les statistiques utilisent régulièrement les probas. +## Statistique descriptive + +### Dimensions 1 + +\\( n \\) observations \\( \\{x_1, \dots, x_n\\} \\) sur un caractère fixé. + +Pour résumer l'information obtenue nous allons fournir. + +- **Indicateur de position** + - Moyenne empirique: \\( \overline{x} = \frac{1}{n} \sum_i^n x_i \\) + - Médiane: \\( m = inf\\{x_i \vert \text{la moitié des observation sont } \leq x_i\\} \\) + - Valeur extrèmes: \\( x_{(1)} = min\\{x_i\\} , x_{(n)} = max\\{x_i\\}\\) + +- **Indicateur de dispersion** + - Variance empirique: \\( s^2 = \frac{1}{n} \sum^n_i(x_i-\overline{x})^2 \\) + - Ecart-type: \\( s = \sqrt{s^2}\\) + +Nous préférons la moyenne empirique et la variance empirique + +#### [Paradoxe de simpson](https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson) + +Une tendance observée dans 2 groupes de données peut s'inverser si les données sont combinées + +Il faut donc faire attention aux manipulations de données + +### Dimension 2 + +\\( n \\) couples d'observations \\( \\{(x_i, y_i) \\} \\) + +- **Indicateur de position** + - séparement les \\( x_i \\) et les \\( y_i \\) + - \\( (\overline{x}, \overline{y}) \\) +- **Indicateur de dispersion** + - \\( s_{x}^2 = \frac{1}{n}\sum^n_i(x_i-\overline{x})^2 \\) + - \\( s_{y}^2 = \frac{1}{n}\sum^n_i(y_i-\overline{y})^2 \\) +- **Indicateur de covariance** + - \\( s_{xy} = \frac{1}{n}\sum^n_i(x_i-\overline{x})(y_i-\overline{y}) \\) + - Orientation des données + - Trouver la droite de régression: \\( d \equiv y = ax+b \\) qui minimise les erreurs + - \\( E(a,b) = \sum^n_i\varepsilon_i^2 = \sum^n_i(y_i-(ax_i+b))^2 \\) la somme des erreurs au carré + - Trouver les dérivées partielles +\\[ + \frac{\partial E}{\partial a} = -2 \sum^n_i(y_i-ax_i-b)x_i \quad \text{et} \quad \frac{\partial E}{\partial b} = -2 \sum^n_i(y_i-ax_i-b) \\\\ + \begin{array}{l} + \Leftrightarrow + \left\\{ + \begin{array}{l} + \frac{\partial E}{\partial a} = 0 \\\\ + \frac{\partial E}{\partial a} = 0 + \end{array} + \right. + \Leftrightarrow + \left\\{ + \begin{array}{l} + a\frac{1}{n}\sum_i^nx^2_i = \frac{1}{n}\sum_i^nx_iy_i-b\frac{1}{n}\sum_i^nx_i \\\\ + nb = \frac{1}{n}\sum_i^ny_i- a\frac{1}{n}\sum_i^nx_i \\\\ + \end{array} + \right. + \Leftrightarrow + \left\\{ + \begin{array}{l} + a(s^2_x + \overline{x}^2) = (s_{xy} + \overline{x}\overline{y} - b\overline{x})\\\\ + b = \overline{y} - a\overline{x} + \end{array} + \right. \\\\ + \Leftrightarrow as^2_x = s_{xy} \Rightarrow + \left\\{ + \begin{array}{l} + a = \frac{s_{xy}}{s^2}\\\\ + b = \overline{y} - \frac{s_{xy}}{s_x^2}\overline{x} + \end{array} + \right. + \end{array} +\\] diff --git a/src/bac3/Stats/StatDesc.md b/src/bac3/Stats/StatDesc.md index 3d20d8e..d7b6c62 100644 --- a/src/bac3/Stats/StatDesc.md +++ b/src/bac3/Stats/StatDesc.md @@ -1,18 +1,17 @@ -# Statistique descriptive +# Statistique déscriptive -## De dimensions 1 +Nous possédons un ensemble de variable aléatoires \\( \\{ X_1, ..., X_n\\} \\) notre échentillon +d'observation X^{(n)} = (X_1, ..., X_n) suit une loi de probabilitée \\( P \\) (inconnue pour +l'instant) -\\( n \\) observations \\( \\{x_1, \dots, x_n\\} \\) sur un caractère fixé. +## Modélisation -Pour résumer l'information obtenue nous allons fournir. - -### Indicateur de position - -- Moyenne empirique: \\( \overline{x} = \frac{1}{n} \sum_i^n x_i \\) -- Médiane: \\( m = inf\\{x_i \vert \text{la moitié des observation sont } \leq x_i\\} \\) -- Valeur extrèmes: \\( x_{(1)} = min\\{x_i\\} , x_{(n)} = max\\{x_i\\}\\) - -### Indicateur de dispersion +modèle paramétrique: \\( X_1, ..., X_n \sim P_{\theta} \quad \theta \in \Theta \subset \mathbb{R}^k \\) +Une **Statistique** est une fonction \\( T(X^{(n)}) \\) qui ne dépend que des observations +- \\( T(X^{(n)}) = X_1 + ... + X_n \\) est une statistique +- \\( T(X^{(n)}) = e^{-\lambda(X_1 + ... + X_n)} \\) **n'est pas** une statistique +L'objectif est de trouver \\( \theta \\) sur base des observations, c'est à dire sur base d'une +statistique