Probabilité et Statistique pour les Sciences de la Santé: Apprentissage au Moyen du Logiciel Stata

Probabilité et Statistique pour les Sciences de la Santé: Apprentissage au Moyen du Logiciel Stata, par Patrick Taffé, se veut un livre différent de nombreux ouvrages théoriques traitant des probabilités et de la statistique. Cet ouvrage (en français) non seulement présente, de façon rigoureuse, les concepts et méthodes statistiques, mais aussi utilise des exemples concrets pour illustrer chaque concept théorique nouvellement introduit. Le lecteur va apprendre à réaliser des analyses au moyen de Stata, basé sur des vraies données. De nombreuses illustrations et nombreux exemples d’applications sont donnés pour apprendre au lecteur à mettre en pratique les techniques d’analyse. Enfin, des exercices à réaliser avec Stata et impliquant le plus souvent un petit jeu de données, sont proposés à la fin de chaque section afin de mettre en oeuvre les connaissances nouvellement acquises.

 

L’ouvrage s’adresse en premier lieu au chercheur dans le domaine des sciences de la santé (médecin, infirmière et infirmier, épidémiologue, biologiste, biostatisticien, etc.), qu’il soit débutant ou qu’il maitrise déjà les concepts de base de la statistique, mais aussi aux chercheurs d’autres domaines (économie, psychologie, démographie, géographie, etc.) qui désirent acquérir les fondements de la statistique.

 

Ce livre présente de façon méticuleuse les notions fondamentales de la théorie des probabilités et de la statistique: bref rappel de l’histoire de la statistique, la statistique descriptive, les distributions discrètes et continues, estimation, tests d’hypothèses, l’analyse de corrélation, l’analyse de régression linéaire simple et multiple, et le modèle d’analyse de variance. Au moyen des exemples et exercices, le lecteur est guidé tout au long de la réalisation du problème. En même temps, l’apprentissage de l’utilisation de Stata se fait progressivement au fil des chapitres. La dernière partie de l’ouvrage propose une introduction à l’utilisation de St ata. Les corrections des exercices figurent à la fin de l’ouvrage, permettant au lecteur de vérifier le niveau de compréhension atteint après chaque étape.

 

Ce livre ne se limite pas à une présentation de la théorie que l’on trouve dans des ouvrages d’introduction de la statistique. En tant que biostatisticien, Patrick Taffé a plusieurs années d’expérience dans l’application de la statistique à la recherche clinique. Dans ce livre, l’auteur partage son expérience et montre comment utiliser la théorie statistique sur des vraies données, au moyen d’un logiciel statistique. Le lecteur apprendra à choisir la méthode statistique la plus simple et adéquate, et à apprécier si les hypothèses sur lesquelles reposent ces méthodes sont validées dans un contexte donné, afin de justifier leur utilisation. Ce livre propose, donc, une méthode pédagogique originale d’enseignement dont l’objectif est de faciliter le passage de la théorie à la pratique.

 

© Copyright 1996–2023 StataCorp LLC

Avant-propos (PDF)

 

1 Introduction
1.1 Définitions du mot « statistique »
1.2 Origine
1.3 Bref historique de la statistique

1.3.1 De 3000 av. J.-C. á aujourd’hui
1.3.2 La moyenne
1.3.3 Florence Nightingale (1820-1910)

1.4 Les grands développments de la méthodologie statistique

1.4.1 La statistique descriptive
1.4.2 La statistique mathématique
1.4.3 La statistique inférentielle
1.4.4 L’analyse des données

 

2 La statistique descriptive

2.1 Variables

2.1.1 Définition des concepts de base
2.1.2 Les différents types de variables
2.1.3 La distribution d’une variable
2.1.4 Analyse univariée, bivariée, multivariée et mutlivariables
2.1.5 Exercices (Variables)

2.2 Résumés quantitatifs des données

2.2.1 Mesures de tendance centrale

2.2.1.1 Le mode
2.2.1.2 La moyenne arithmétique
2.2.1.3 La médiane
2.2.1.4 Positions relatives des trois mesures de tendance centrale

2.2.1.4.1 Distribution unimodale et symétrique
2.2.1.4.2 Distribution asymétrique
2.2.1.4.3 Qualité comparée des trois mesures de tendance centrale

2.2.1.5 Exercices (Mesures de tendance centrale)

2.2.2 Mesures de dispersion

2.2.2.1 L’étendue
2.2.2.2 L’étendue interquartile
2.2.2.3 L’écart absolu moyen
2.2.2.4 Variance et écart-type
2.2.2.5 Exercices (mesures de dispersion)

2.2.3 Mesures de position

2.2.3.1 Exercices (Mesures de position)

2.2.4 Mesures de forme

2.2.4.1 Exercices (Mesures de forme)

2.2.5 Mesures de dépendance

2.2.5.1 Exercices (Mesures de dépendance)

2.2.6 Récapitulatif des différents résumés quantitatifs

2.3 Représentations graphiques des données

2.3.1 Le diagramme à points (dotplot)
2.3.2 Le diagramme à bâtons (bar chart)
2.3.3 L’histogramme
2.3.4 Le diagramme à tige et feuilles (stem-and-leaf plot)
2.3.5 Le diagramme en secteurs (pie chart)
2.3.6 Le diagramme boîte à moustaches (boxplot)
2.3.7 Le diagramme des fréquences cumulées
2.3.8 Le diagramme nuage de points (scatterplot)
2.3.9 La comparaison des distributions
2.3.10 Excercices (Représentations graphiques des données)

2.4 Représentations tabulaires des données

2.4.1 Tableau à une entrée
2.4.2 Tableau à deux entrées
2.4.3 Exercices (Représentations tabulaires des données)

 

3 Probabilité

3.1 Bases du calcul des probabilités

3.1.1 Ensembles et sous-ensembles

3.1.1.1 Exercices (Ensembles et sous-ensembles)

3.1.2 Expérience aléatoire et événements

3.1.2.1 Exercices (Expérience aléatoire et événements)

3.1.3 Dénombrements

3.1.3.1 Exercices (Dénombrements)

3.2 Lois de probabilités

3.2.1 Evénements et probabilités

3.2.1.1 Probabilité d’un événement élémentaire
3.2.1.2 Probabilité d’un événement (composé)
3.2.1.3 Exercices (Evénements et probabilités)

3.2.2 Interprétations fréquentiste et Bayésienne de la probabilité, loi des grands nombres

3.2.2.1 Interprétation fréquentiste de la probabilité
3.2.2.2 La loi des grands nombres (énoncé empirique)
3.2.2.3 Interprétation Bayésienne de la probabilité

3.2.3 Règles des probabilités

3.2.3.1 Règle de soustraction
3.2.3.2 Règle de multiplication
3.2.3.3 R&eagrave;gle d’additivité
3.2.3.4 Exercices (Règle des probabilités)

3.2.4 Probabilité conditionnelle et indépendance

3.2.4.1 Exercices (Probabilité conditionnelle et indépendance)

3.2.5 Sensibilité, spécificité, valeurs prédictives positive et négative, rapports de vraisemblance

3.2.5.1 Exercices (Sensibilité, spécificité, valeurs prédictives positive et négative, rapports de vraisemblance)

3.2.6 Règle de Bayes

3.2.6.1 Exercices (Règle de Bayes)

3.3 Variables aléatoires

3.3.1 Variables aléatoires discrètes

3.3.1.1 Distribution de probabilité d’une VA discrète
3.3.1.2 Fonction cumulative ou de répartition d’une VA discrète
3.3.1.3 Exercices (Variables aléatoires discrètes)

3.3.2 Variables aléatoires continues

3.3.2.1 Distribution de probabilité d’une VA continue
3.3.2.2 La loi Normale
3.3.2.3 Fonction cumulative ou de répartition d’une VA continue
3.3.2.4 Exercices (Variables aléatoires continues)

3.3.3 Espérance, variance et covariance

3.3.3.1 L’espérance mathématique

3.3.3.1.1 Le cas d’une variable aléatoire discrète (quantitative)
3.3.3.1.2 Le cas d’une variable aléatoire continue

3.3.3.2 La variance

3.3.3.2.1 Moments d’ordre 1 et 2
3.3.3.2.2 Le cas d’une variable aléatoire discrète (quantitative)
3.3.3.2.3 Le cas d’une variable aléatoire continue

3.3.3.3 La covariance et le coefficient de corrélation linéaire

3.3.3.3.1 Le cas de variables aléatoire discrètes (quantitatives) (*)
3.3.3.3.2 Le cas de variables aléatoire continues

3.3.3.4 Exercices (Espérance, variance et covariance)

3.3.4 Combinaisons de variables aléatoires

3.3.4.1 Exercices (Combinaisons de variables aléatoires)

3.3.5 Transformations linéaires et affines de variables aléatoires

3.3.5.1 Propriétés de l’espérance, de la variance et de la covariance
3.3.5.2 Standardisation
3.3.5.3 Exercices (Transformations linéaires et affines de variables aléatoires)

3.3.6 Variables indépendantes et identiquement distribuées (iid), échantillon aléatoire simple

3.3.6.1 Variables aléatoires iid
3.3.6.2 L’échantillon aléatoire simple
3.3.6.3 Moyenne X̄ de variables alétoires
3.3.6.4 Interprétation intuitive de l’espérance mathématique d’une moyenne X̄ de variables aléatoires
3.3.6.5 Exercices (Variables indépendantes et identiquement distribuées (iid), concept d’échantillon aléatoires)

3.3.7 Loi faible des grands nombres (énoncé mathématique)(*)

3.3.7.1 L’inégalité de Bienaymé-Tchebychev
3.3.7.2 La loi faible des grands nombres ou théorème de Khintchine
3.3.7.3 Limitations à la loi faible des grands nombres

3.4 Le théorème central limite

3.4.1 Théorème central limite

3.4.1.1 Convergence de la distribution de la moyenne de n variables aléatoires discrètes vers une loi Normale
3.4.1.2 Convergence de la distribution de la moyenne de n variables aléatoires continues vers une loi Normale
3.4.1.3 Le cas d’une distribution très asymétrique
3.4.1.4 Le problème de la loi de Cauchy

3.4.2 Lien entre théorème central limite et loi des grands nombres
3.4.3 Exercices (Le théorème central limite)

3.5 Théorie de l’échantillonnage

3.5.1 Population versus échantillon: notion de « paramètre », « statistique » et « modéle »

3.5.1.1 La notion de « paramètre »
3.5.1.2 La notion de « statistique »
3.5.1.3 La notion de « modèle »
3.5.1.4 Exercices (Population versus échantillon, notion de « paramètre », « statistique » et « modèle »)

3.5.2 Le tirage aléatoire simple

3.5.2.1 Exercices (Le tirage aléatoire simple)

3.5.3 Mesures de tendance centrale

3.5.3.1 Exercices (Mesures de tendance centrale)

3.5.4 Mesures de dispersion

3.5.4.1 Exercices (Mesures de dispersion)

3.5.5 Mesures de dépendance

3.5.5.1 Exercices (Mesures de dépendance)

3.5.6 Mesures de forme

3.5.6.1 Exercices (Mesures de forme)

3.5.7 Distribution d’échantillonnage

3.5.7.1 Distribution d’échantillonnage d’une moyenne
3.5.7.2 Distribution d’échantillonnage d’une proportion
3.5.7.3 Distribution d’échantillonnage d’une variance
3.5.7.4 Exercices (Distribution d’échantillonnage)

3.5.8 La différence de deux moyennes

3.5.8.1 Excercices (La différence de deux moyennes)

3.5.9 La différence de deux proportions

3.5.9.1 Exercices (La différence de deux proportions)

3.5.10 Le bootstrap

3.5.10.1 Exercices (Le bootstrap)

 

4 Distributions

4.1 Distributions discrètes

4.1.1 Distribution de probabilité uniforme
4.1.2 Distribution de Bernoulli et distribution Binomiale
4.1.3 Distribution Binomiale Négative et distribution Géométrique
4.1.4 Distribution Hypergéométrique
4.1.5 Distribuition Multinomiale
4.1.6 Distribuition de Poisson
4.1.7 Exercices (Distributions discrètes)

4.2 Distributions continues

4.2.1 Distribution uniforme
4.2.2 Distribution Normale
4.2.3 Distribution Normale Standardisée
4.2.4 Distribution du Chi2
4.2.5 Distribution de Student
4.2.6 Distribution de Fisher
4.2.7 Distribution Gamma
4.2.8 Exercices (Distributions continues)

 

5 Estimation

5.1 Théorie de l’estimation

5.1.1 Problématique de l’estimation
5.1.2 Statistique, estimateur et estimation
5.1.3 Principes de l’estimation ponctuelle et par intervalle
5.1.4 Méthodes de construction d’un estimateur (*)

5.1.4.1 La méthode du maximum de vraisemblance
5.1.4.2 La méthode des moments

5.1.5 Propriétés d’un estimateur: biais, erreur quadratique moyenne, convergence, efficacité
5.1.6 Calcul d’un intervalle de confiance
5.1.7 Exercices (Théoire de l’estimation)

5.2 Les moyennes

5.2.1 Intervalle de confiance d’une moyenne

5.2.1.1 Grands échantillons
5.2.1.2 Petits échantillons
5.2.1.3 Illustration de la robustesse á l’hypothése de Normalité
5.2.1.4 Illustration de l’impaact des outliers
5.2.1.5 Exercices (Intervalle de confiance d’une moyenne)

5.2.2 Intervalle de confiance de la différence de deux moyennes

5.2.2.1 Echantillons indépendants
5.2.2.2 Echantillons appariés
5.2.2.3 Comparaison des plans d’études: échantillons appariés versus indépendants
5.2.2.4 Exercices (Intervalle de confiance de la différence de deux moyennes)

5.3 Les proportions

5.3.1 Intervalle de confiance d’une proportion

5.3.1.1 Grands échantillons
5.3.1.2 Petits échantillons
5.3.1.3 Exercices (Intervalle de confiance d’une proportion)

5.3.2 Intervalle de confiance de la différence de deux proportions (RD)

5.3.2.1 Echantillons indépendants
5.3.2.2 Echantillons appariés
5.3.2.3 Exercices (Intervalle de confiance de la différence de deux proportions)

5.3.3 Intervalle de confiance du ratio de deux proportions (RR)

5.3.3.1 Echantillons indépendants
5.3.3.2 Echantillons appariés
5.3.3.3 Exercices (Intervalle de confiance du ratio de deux proportions)

5.3.4 Intervalle de confiance d’un Odds Ratio (OR)

5.3.4.1 Echantillons indépendants
5.3.4.2 Echantillons appariés
5.3.4.3 Exercices (Intervalle de confiance d’un Odds Ratio)

 

6 Tests d’hypothèses

6.1 Fondements de la théorie des tests d’hypoèses

6.1.1 Principe des tests statistiques
6.1.2 Procédure de test

6.1.2.1 Première étape: Spécification des hypothèses nulle et alternative
6.1.2.2 Deuxième étape: Distribution de la statistique de test sous H0
6.1.2.3 Troisième étape: Définition de la région critique
6.1.2.4 Quatrième étape: Confronter les observations aux valeurs attendues

6.1.3 Test unilatéral ou test bilatéral
6.1.4 Calcul de la p-valeur
6.1.5 Lien entre procédure de test et intervalle de confiance
6.1.6 Exercices (Fondements de la théorie des tests d’hypothèses)

6.2 Procédures de test

6.2.1 Test d’une moyenne

6.2.1.1 Exercices (Test d’une moyenne)

6.2.2 Test de la différence de deux moyennes

6.2.2.1 Echantillons indépendants

6.2.2.1.1 Exercices (Test de la différence de deux moyennes: échantillons indépendants)

6.2.2.2 Echantillons appariés

6.2.2.2.1 Exercices (Test de la différence de deux moyennes: échantillons appariés)

6.2.3 Test d’une proportion

6.2.3.1 Exercices (Test d’un proportion)

6.2.4 Test de la différence de deux proportions

6.2.4.1 Echantillons indépendants

6.2.4.1.1 Exercices (Test de la différence de deux proportions: échantillons indépendants)

6.2.4.2 Echantillons appariés

6.2.4.2.1 Exercices (Test de la différence de deux proportions: échantillons appariés)

6.3 Calcul de puissance et de taille d’échantillon

6.3.1 La puissance d’un test

6.3.1.1 Exercices (La puissance d’un test)

6.3.2 Application au calcul du nombre de sujets nécessaire

6.3.2.1 Nombre de sujets pour tester une moyenne
6.3.2.2 Nombre de sujets pour une précision donnée pour une moyenne
6.3.2.3 Nombre de sujets pour tester une proportion
6.3.2.4 Nombre de sujets pour une précision donnée pour une proportion
6.3.2.5 Nombre de sujets pour tester la différence de deux moyennes

6.3.2.5.1 Echantillons indépendants
6.3.2.5.2 Echantillons appariés

6.3.2.6 Nombre de sujets pour une précision donnée de la différence de deux moyennes

6.3.2.6.1 Echantillons indépendants
6.3.2.6.2 Echantillons appariés

6.3.2.7 Nombre de sujets pour tester la différence de deux proportions

6.3.2.7.1 Echantillons indépendants
6.3.2.7.2 Echantillons appariés

6.3.2.8 Nombre de sujets pour une précision donnée de la différence de deux proportions

6.3.2.8.1 Echantillons indépendants
6.3.2.8.2 Echantillons appariés

6.3.2.9 Exercices (Application au calcul du nombre de sujets nécessaire)

6.4 Tests de chi2

6.4.1 Test de « goodness of fit »

6.4.1.1 Exercices (Test de « goodness of fit »)

6.4.2 Test d’homogénéité

6.4.2.1 Exercices (Test d’homogénéité)

6.4.3 Test d’indépendance

6.4.3.1 Exercices (Test d’indépendance)

6.5 Tests nonparamétriques

6.5.1 Test de Wilcoxion-Mann-Whitney

6.5.1.1 Exercices (Test de Wilcoxion-Mann-Whitney)

6.5.2 Test de Kruskal-Wallis

6.5.2.1 Exercices (Test de Kruskal-Wallis)

6.5.3 Test exact de Fisher

6.5.3.1 Exercices chapitre 6.5.3 (Test exact de Fisher)

6.5.4 Test de Kolmogorov-Smirnov

6.5.4.1 Exercices (Test de Kolmogorov-Smirnov)

6.6 Comparaisons multiples

6.6.1 Exercices (Comparaisons multiples)

 

7 L’analysee de corrélation

7.1 Le coefficient de corrélation linéaire

7.1.1 Propriétés du coefficient de corrélation linéaire de Pearson
7.1.2 Le modèle Normal bivarié (*)
7.1.3 Test de la corrélation linéaire
7.1.4 Intervalle de confiance pour une corrélation
7.1.5 Taille d’échantillon pour détecter une corrélation linéaire non nulle
7.1.6 Taille d’échantillon pour une précision donnée pour une corrélation
7.1.7 Le modèle Normal trivarié (*)
7.1.8 La corrélation de rang ou de Spearman

7.1.8.1 Test de la corrélation de rang
7.1.8.2 Intervalle de confiance pour la corrélation de rang

7.1.9 Exercices (L’analyse de corrélation)

7.2 Mesures d’association entre variables discrètes et continues

7.2.1 Mesures d’association entre variables dicrétes ordinales (quantitatives ou qualitatives)

7.2.1.1 La Tau (τ) de Kendall (1938)

7.2.2 Mesures d’association entre variables qualitatives nominales

7.2.2.1 Le V de Cramér (1946)
7.2.2.1 Le coefficient phi (φ)

7.2.3 Mesure d’association entre une variable continue et une variable binaire

7.2.3.1 La corrélation bisériale ponctuelle

7.2.4 Autres mesures d’association
7.2.5 Exercices (Mesures d’association entre variables discrètes et continues)

 

8 L’analyse de régression linéaire simple
8.1 Phénoméne de régression vers la moyenne
8.2 Définition et hypothèses du modèle de régression linéaire simple

8.2.1 Terminologie
8.2.2 Etude observationnelle / étude expérimentale
8.2.3 Le modèle de régression linéaire simple (*)
8.2.4 Hypothèses du modèle de régression linéaire simple

8.2.4.1 L’hypothèse d’existence
8.2.4.2 L’hypothèse d’indépendance
8.2.4.3 L’hypothèse d’exogénéité)
8.2.4.4 L’hypothèse de linéarité
8.2.4.5 L’hypothèse d’homoscédasticité
8.2.4.6 L’hypothèse de Normalité
8.2.4.7 L’hypothèse d’absence d’erreurs de mesure

8.3 Estimation des coefficents: La méthode des moindres carrés
8.4 Interprétation des coefficients de la droite de régression
8.5 Test de la pente de la droite de régression
8.6 Intervalle de confiance pour la pente de la droite de régression
8.7 Le coefficent de détermination (empirique)
8.8 Contribution de chaque observation à l’estimation de la droite de régression: Le levier
8.9 L’anaylse de l’adéquation du modèle aux données

8.9.1 L’analyse des résidus
8.9.2 L’analyse de l’influence

8.10 Intervalle de confiance pour la droite de réression
8.11 Intervalle de prédiction
8.12 Les transformations
8.13 Exercices (Régression linéaire simple)

 

9 L’analyse de régression linéaire multiple

9.1 Intérêt de la régression linéaire multiple

9.1.1 Relation brute versus relation ajustée
9.1.2 Facteur pronostique, facteur confondant et biais de confusion

9.2 Définition et hypothèses du modèle de régression linéaire mutliple
9.3 Estimation des coefficients: La méthode des moindres carrés
9.4 Interprétation des coefficients de la surface de régression

9.4.1 Le cas d’un modèle additif simple

9.4.1.1 Interprétation du coefficient associé à une variable continue
9.4.1.2 Interprétation de la constante
9.4.1.3 Interprétation du coefficient associé à une variable discrète

9.4.2 Le cas d’un modèle non-additif (i.e. avec interactions)

9.4.2.1 Interaction entre une variable continue et une variable discrète
9.4.2.2 Interaction entre deux variables discrètes
9.4.2.3 Interaction entre deux variables continues

9.4.3 Le cas d’un modèle polynômial
9.4.4 Le cas d’un modèle semi-logarithmique
9.4.5 Le cas d’un modèle log-log

9.5 Test de significativité des coefficients de la régression

9.5.1 Test de significativité d’un seul coefficient
9.5.2 Test de significativité d’un plusieurs coefficents

9.6 Intervalle de confiance pour les coefficients de la surface de régression
9.7 Le coefficient de détermination
9.8 L’analyse de l’adéquation du modèle aux données
9.9 Intervalles de confiance et de prédiction
9.10 La sélection des variables explicatives dans les différents types d’études

9.10.1 Les études descriptives
9.10.2 Les études prédictives
9.10.3 Les études étiologiques

9.11 Les critéres de sélection d’un modèle
9.12 Les algorithmes de recherche du modèle optimal
9.13 L’importance relative des variables
9.14 Exercices (Régression linéaire multiple)

 

10 Le modèle d’analyse de variance
10.1 Exercices (Le modèle d’analyse de variance)

 

Introduction à l’utlilisation de Stata
Corrigés succincts des exercices
Bibliographie

Index général (PDF)

Index

 

© Copyright 1996–2023 StataCorp LLC

Author: Patrick Taffè
ISBN-13: 978-1-59718-145-7
©Copyright: 2014

Cet ouvrage (en français) non seulement présente, de façon rigoureuse, les concepts et méthodes statistiques, mais aussi utilise des exemples concrets pour illustrer chaque concept théorique nouvellement introduit.