)
Sections
Nous commencerons par définir les termes et les concepts importants.
1.1 Statistique
Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité qui consiste en leur recueil, leur traitement et leur interprétation. Les termes statistique, ou statistiques (au pluriel) englobent ainsi plusieurs notions distinctes :
D’une part le recensement de grandeurs d’intérêt comme le nombre d’habitants d’un pays, le revenu moyen par habitant, le nombre de séropositifs dans la population française. Nous voyons que la notion fondamentale qui se dégage de cette énumération est celle de Population. Une population est un ensemble d’objets, d’êtres vivants ou d’objets abstraits (ensemble des mains de 5 cartes distribuées au bridge...) de même nature.
La statistique en tant que science s’intéresse aux propriétés des populations naturelles. Plus précisément elle traite de nombres obtenus en comptant ou en mesurant les propriétés d’une population. Cette population d’objets doit en outre être soumise à une variabilité, qui est due à de très nombreux facteurs inconnus (pour les populations d’objets biologiques qui nous intéressent ces facteurs sont les facteurs génétiques et les facteurs environnementaux).
A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au singulier) qui définit toute grandeur calculée à partir d’observations. Ce peut être la plus grande valeur de la série statistique d’intérêt, la différence entre la plus grande et la plus petite, la valeur de la moyenne arithmétique de ces valeurs, etc.
1.2 Population et échantillon
On appelle population P un ensemble généralement très grand, voire infini, d’individus ou d’objets de même nature. Tous les médecins de France constituent une population, de même que l’ensemble des résultats possibles du tirage du loto. Une population peut donc être réelle ou fictive.
Il est le plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus constituant une population ; on travaille alors sur une partie de la population que l’on appelle échantillon. Pour qu’un échantillon permette l’étude de la variabilité des caractéristiques d’intérêt de la population, il faut qu’il soit convenablement sélectionné. On parlera d’échantillon représentatif si les individus le constituant ont été tirés au sort1 dans la population. Si par exemple on souhaite déterminer les caractéristiques « moyennes » du poids et de la taille des prématurés masculins on tirera au hasard un certain nombre de sujets parmi les naissances de prématurés de l’année.
Chaque individu, ou unité statistique, appartenant à une population est décrit par un ensemble de caractéristiques appelées variables ou caractères. Ces variables peuvent être quantitatives (numériques) ou qualitatives (non numériques) :
quantitatives
pouvant être classées en variables continues (taille, poids) ou discrètes (nombre d’enfants dans une famille)
qualitatives
pouvant être classées en variables catégorielles (couleurs des yeux) ou ordinales (intensité d’une douleur classée en nulle, faible, moyenne, importante).
1.3 Statistique et probabilité
La théorie (ou le calcul) des probabilités est une branche des mathématiques qui permet de modéliser les phénomènes où le hasard intervient (initialement développée à propos des jeux de hasard, puis progressivement étendue à l’ensemble des sciences expérimentales, dont la physique et la biologie).
Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est à partir d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut prédire les fréquences d’apparition d’événements comme le nombre de fois que l’on obtient une valeur paire en jetant un dé un grand nombre de fois. Les éléments de calcul des probabilités indispensables à la compréhension des statistiques seront traités dans la première partie du cours.
Sous jacente à la notion de statistiques se trouve la notion de Population dont on souhaite connaître les propriétés (plus précisément les régularités), permettant en particulier de savoir si deux populations sont identiques ou non. Ce cas est celui du cadre des essais thérapeutiques, où l’on considère 2 populations (patients traités avec le médicament A ou avec le médicament B) dont on souhaite savoir si elles diffèrent ou non (c’est le cas le plus simple des essais cliniques). Pour ce faire il est nécessaire de modéliser les populations, en utilisant des modèles probabilistes. Un modèle de ce type est par exemple de considérer que la taille des individus suit une distribution gaussienne. A partir de ce modèle on peut calculer les propriétés d’échantillons ; c’est ce qu’on appelle une déduction qui va du modèle vers l’expérience. A l’inverse, considérant un échantillon d’une population on peut essayer de reconstruire le modèle de la population.
Cette démarche est calquée sur la démarche scientifique habituelle. Le scientifique est capable, en utilisant les mathématiques, de prédire le comportement d’un modèle donné (c’est par exemple une « loi » de la physique) : c’est la démarche déductive. A l’inverse, observant des faits expérimentaux il va tenter de dégager des propriétés générales du phénomène observé qu’il va en général représenter sous forme d’un modèle (toutes les lois de la physique et de la chimie sont des modèles mathématiques les plus généraux possibles des faits expérimentaux) : c’est la construction inductive de la théorie. Cette démarche générale va plus loin car le modèle permet de prédire des expériences non réalisées. Si les prédictions ainsi réalisées sont contradictoires avec les résultats expérimentaux alors on pourra avec certitude réfuter le modèle (on dit aussi qu’on l’a falsifié) ; dans le cas contraire on garde le modèle mais on n’est pas certain qu’il soit « vrai ». Autrement dit, à l’issue d’un tel test on ne peut avoir de certitude que si on a trouvé des éléments permettant de réfuter le modèle. Nous verrons dans la suite que cette approche se transpose exactement dans la démarche statistique, en particulier dans le domaine des tests.
1. Nous reviendrons sur cette méthode permettant d’obtenir un échantillon représentatif de la population étudiée. Cela consiste en gros à sélectionner les individus sur la base d’un tirage analogue à celui qui consiste à tirer des noms dans une urne qui contiendrait tous les noms possibles.