Statistiques et probabilités : les fondations mathématiques de la data science

La statistique et les probabilités sont les piliers sur lesquels repose toute analyse de données. Sans une compréhension solide des concepts de base – moyenne, variance, loi normale, intervalle de confiance, test d’hypothèse – il est impossible d’interpréter correctement un modèle de machine learning ou de prendre des décisions éclairées. Deux grandes familles structurent ce domaine : les statistiques descriptives (résumer et visualiser les données) et les statistiques inférentielles (généraliser d’un échantillon à une population). Les probabilités fournissent le cadre logique pour quantifier l’incertitude. Cet article vous propose un tour d’horizon complet, nourri de notre expérience pédagogique, pour vous aider à solidifier vos bases.

1. Statistiques descriptives : résumer l’information

Les statistiques descriptives permettent de décrire les principales caractéristiques d’un jeu de données par des indicateurs numériques et des représentations graphiques. On distingue les mesures de tendance centrale, de dispersion et de forme.

1.1 Mesures de tendance centrale

Moyenne arithmétique : somme des valeurs divisée par l’effectif. Sensible aux outliers.
Médiane : valeur qui sépare la distribution en deux parties égales. Robuste aux valeurs extrêmes.
Mode : valeur la plus fréquente (pour les variables catégorielles ou discrètes).

python

import numpy as np
data = [12, 15, 14, 99, 13, 15, 16]
moyenne = np.mean(data)   # ≈ 26.3
mediane = np.median(data) # 15.0

1.2 Mesures de dispersion

Variance et écart‑type : mesurent la dispersion autour de la moyenne. Plus l’écart‑type est grand, plus les données sont étalées.
Écart interquartile (IQR) : différence entre le 3e et le 1er quartile. RobustE aux outliers.
Étendue (range) : max – min, très sensible aux valeurs extrêmes.

python

ecart_type = np.std(data)   # ≈ 32.1
IQR = np.percentile(data, 75) - np.percentile(data, 25)

1.3 Visualisations essentielles

Histogramme : distribution d’une variable numérique.
Boîte à moustaches (boxplot) : affiche médiane, quartiles et outliers potentiels.
Diagramme de dispersion (scatter plot) : relation entre deux variables.

Dans nos formations, ISOSET insiste sur l’importance de visualiser systématiquement ses données avant toute modélisation. Un histogramme peut révéler une asymétrie, une boîte à moustaches des valeurs aberrantes qui fausseraient une régression linéaire.

2. Probabilités : modéliser l’incertitude

Les probabilités quantifient la vraisemblance des événements aléatoires. Une probabilité s’exprime entre 0 (impossible) et 1 (certain). On distingue les probabilités marginales, conjointes et conditionnelles.

Probabilité conditionnelle : $P (A ∣ B) = \frac{P (A \cap B)}{P (B)}$ P(A∣B)=P(B)P(A∩B).
Règle de Bayes : $P (A ∣ B) = \frac{P (B ∣ A) \cdot P (A)}{P (B)}$ P(A∣B)=P(B)P(B∣A)⋅P(A). C’est le fondement de nombreuses méthodes d’apprentissage (naïve Bayes, inférence bayésienne).

python

# Exemple de calcul de probabilités avec échantillonnage
from collections import Counter

lancers = [1, 2, 3, 6, 6, 6, 4, 5]
prob_6 = lancers.count(6) / len(lancers)   # 3/8 = 0.375

Notion d’indépendance : deux événements sont indépendants si $P (A \cap B) = P (A) \cdot P (B)$ P(A∩B)=P(A)⋅P(B). En machine learning, on suppose souvent que les variables explicatives sont indépendantes (naïve Bayes) mais c’est rarement vrai.

ISOSET enseigne la manipulation des probabilités via des cas concrets : détection de spam (théorème de Bayes), fiabilité des tests médicaux (taux de faux positifs).

3. Variables aléatoires et lois de probabilité essentielles

Une variable aléatoire associe un nombre à chaque issue d’une expérience aléatoire. Les lois de probabilité décrivent la distribution des valeurs possibles.

3.1 Lois discrètes

Loi de Bernoulli : un seul essai avec deux issues (succès/échec). Ex: pile ou face.
Loi binomiale : nombre de succès dans n essais de Bernoulli indépendants. Ex: nombre de clics sur une publicité en 1000 affichages.
Loi de Poisson : nombre d’événements rares dans un intervalle de temps. Ex: nombre d’appels à un standard par heure.

3.2 Lois continues

Loi normale (gaussienne) : la plus célèbre, en forme de cloche symétrique. Elle est caractérisée par sa moyenne μ et son écart‑type σ. Environ 68% des valeurs se situent dans [μ-σ, μ+σ], 95% dans [μ-2σ, μ+2σ]. De nombreux phénomènes naturels suivent une loi normale (taille, QI, erreurs de mesure), et le théorème central limite explique pourquoi.
Loi uniforme : toutes les valeurs d’un intervalle ont la même probabilité.
Loi exponentielle : durée de vie sans mémoire.

python

import scipy.stats as stats
# Probabilité qu’une valeur normale soit inférieure à 1.96
p = stats.norm.cdf(1.96) - stats.norm.cdf(-1.96) # ≈ 0.95

Le théorème central limite (TCL) est fondamental : la somme (ou la moyenne) d’un grand nombre de variables aléatoires indépendantes et de variance finie suit approximativement une loi normale, quelle que soit la distribution initiale. Ce théorème justifie l’utilisation de la loi normale pour construire des intervalles de confiance et des tests d’hypothèses.

Chez ISOSET, nous illustrons le TCL avec des simulations Python : en tirant plusieurs fois 100 échantillons d’une distribution exponentielle, la distribution des moyennes obtenues devient normale.

4. Inférence statistique : de l’échantillon à la population

L’inférence statistique permet de tirer des conclusions sur une population à partir d’un échantillon (car on ne peut pas toujours tout mesurer). Les deux grands domaines sont l’estimation (ponctuelle ou par intervalle de confiance) et les tests d’hypothèses.

4.1 Intervalle de confiance

Un intervalle de confiance (IC) pour une moyenne, par exemple, donne une fourchette de valeurs plausibles pour la moyenne de la population, avec un niveau de confiance (souvent 95%). Plus l’échantillon est large, plus l’intervalle est étroit.

python

import math
def ic_moyenne(data, confiance=0.95):
    mean = np.mean(data)
    sem = stats.sem(data)  # erreur standard = écart-type / √n
    marge = sem * stats.t.ppf((1+confiance)/2, len(data)-1)
    return (mean - marge, mean + marge)

4.2 Tests d’hypothèses

On pose une hypothèse nulle $H_{0}$ H0 (ex: la moyenne est égale à 0) et une hypothèse alternative $H_{1}$ H1 (ex: la moyenne est différente de 0). On calcule la probabilité (p‑value) d’observer un résultat aussi extrême si $H_{0}$ H0 est vraie. Si cette p‑value est inférieure à un seuil α (souvent 0,05), on rejette $H_{0}$ H0.

Exemple classique : tester si un modèle améliore significativement les ventes par rapport à une version ancienne (test t de Student pour échantillons appariés). Les tests les plus utilisés en data science sont le test t, le test du χ² (indépendance de variables catégorielles), le test de Mann‑Whitney (non paramétrique). Dans nos formations, ISOSET utilise des exemples tirés du web analytics (A/B testing) pour rendre les concepts concrets.

5. Corrélation et régression : mesurer les liens entre variables

La corrélation quantifie la force d’une relation linéaire entre deux variables quantitatives. Le coefficient de Pearson (r) varie entre -1 et 1. r = 0 signifie absence de corrélation linéaire.

python

r = np.corrcoef(x, y)[0,1]

Attention : corrélation n’implique pas causalité. Deux variables peuvent être corrélées sans qu’il y ait de lien de cause à effet (ex: ventes de glaces et noyades augmentent ensemble l’été, à cause de la température).

La régression linéaire modélise la relation entre une variable explicative X et une variable cible Y : $Y = a X + b + ε$ Y=aX+b+ε. Les paramètres a et b sont estimés par la méthode des moindres carrés. Le coefficient de détermination $R^{2}$ R2 donne la proportion de variance de Y expliquée par X.

python

from scipy import stats
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)

ISOSET initie les jeunes à ces concepts via des datasets simples (taille vs poids, nombre de likes vs temps passé).

6. Pièges classiques et bonnes pratiques

Voici les erreurs les plus fréquentes que nous observons chez nos apprenants, et qu’ISOSET aide à corriger :

Confondre probabilité conditionnelle inverse : l’erreur du procureur (confondre $P (A D N ∣ i n n o c e n t)$ P(ADN∣innocent) avec $P (i n n o c e n t ∣ A D N)$ P(innocent∣ADN)). On rappelle la formule de Bayes.
Sur‑interpréter une corrélation comme une causalité.
Négliger la taille de l’échantillon – des écarts apparemment grands peuvent ne pas être significatifs statistiquement.
Oublier de vérifier les conditions d’application (normalité des résidus, homoscédasticité) avant un test paramétrique.
Multiplicité des tests : plus on teste d’hypothèses, plus on a de chances d’obtenir un faux positif. Correction de Bonferroni ou FDR.

7. L’importance des statistiques dans le machine learning

Les statistiques sont omniprésentes en ML :

Prétraitement – détection d’outliers via z‑score ou IQR.
Feature engineering – création de features comme la moyenne mobile, les percentiles.
Évaluation du modèle – comparaison des métriques (accuracy, AUC) avec des tests de significativité (ex: test de McNemar pour deux classifieurs).
Validation croisée – estimation de la performance avec des intervalles de confiance.
Gestion des classes déséquilibrées – rééchantillonnage et métriques adaptées (précision, rappel, F1).
Inférence bayésienne – modèles probabilistes (GPyTorch, PyMC).

Sans bagage statistique, on applique souvent des modèles en « boîte noire » et on prend des décisions risquées. La formation d’ISOSET intègre une remise à niveau systématique en statistiques pour tous les publics (du grand public aux ingénieurs confirmés).

Se former aux statistiques et probabilités avec ISOSET

Maîtriser la moyenne, la variance, la loi normale, l’intervalle de confiance et le test d’hypothèse est la porte d’entrée vers une data science rigoureuse. Chez ISOSET, nous avons conçu des formations progressives, avec des exercices pratiques sur Python (pandas, scipy, statsmodels), adaptées aux débutants comme aux professionnels.

Notre programme phare « Statistiques pour la data science » (3 jours) couvre :

Statistiques descriptives et visualisations.
Probabilités, lois discrètes et continues.
Inférence : intervalle de confiance, tests paramétriques et non paramétriques.
Corrélation, régression linéaire simple et multiple.
Introduction à l’inférence bayésienne.

L’originalité d’ISOSET est de lier chaque concept statistique à une application en machine learning (ex: le test t pour comparer deux modèles, le χ² pour la sélection de variables catégorielles). Nos formateurs sont des statisticiens et data scientists expérimentés. Les stagiaires repartent avec des notebooks d’exercices, des fiches de synthèse et un accès à une plateforme de questions/réponses.

Les témoignages de nos anciens apprenants montrent qu’une bonne maîtrise des statistiques leur a permis de passer des entretiens techniques de data science avec succès. Beaucoup ont pu interpréter des résultats de modèles, détecter des surexploitations, et dialoguer avec des métiers chiffrés.

Résumé : Les statistiques et probabilités sont le langage de l’incertitude et de la décision fondée sur les données. Leurs concepts de base – moyenne, variance, loi normale, intervalle de confiance, test d’hypothèse – apparaissent dans quasiment tous les projets de data science. Les maîtriser, c’est s’assurer de ne pas interpréter le bruit comme du signal, et de construire des modèles robustes. ISOSET vous accompagne avec une pédagogie active, des exemples concrets et une approche orientée métier. Consultez notre catalogue en ligne et rejoignez les professionnels qui allient rigueur statistique et innovation machine learning.