chapitre 6: Ecart type pour les proportions

1.  Ecart type pour les proportions


Considérons le cas d'un sondage politique.

Ici, on ne désire plus estimer la moyenne d'une grandeur sur une population, mais la proportion des individus de cette population qui se rangent dans une catégorie (p.ex., qui déclarent voter pour le P.U.B.).

Exemple:

Un institut de sondage interroge un échantillon représentif de 200 électeurs, qui ont le choix entre 4 partis politiques.

Les résultats du sondage sont les suivants:

parti

nombre d'intentions de vote

PUB
PET
PAF
PIF
ne se prononcent pas

24
35
69
61
11


Notons p la proportion d'individus d'une classe dans l'échantillon.

Si n1 est le nombre d'individus dans la classe 1 et n le nombre total d'individus dans l'échantillon, on a:


et de même



Dans notre sondage, les proportions sont les suivantes:

parti

proportion

PUB
PET
PAF
PIF
n.s.p.

0,120
0,175
0,345
0,305
0,055



Si l'échantillon est représentatif, la proportion p dans l'échantillon est une approximation de la proportion dans la population.

Pour des échantillons suffisamment grands, les proportions suivent une loi normale, avec un écart type d'échantillon de:


En général, la proportion dans la population n'est pas connue. On la remplace alors par la proportion
p dans l'échantillon



Les proportions obéissent à des lois comparables à celles des moyennes.

Une différence importante est que l'écart type peut être calculé à partir des proportions (pour les moyennes, il devait être connu par ailleurs).

Nous pouvons donc calculer les intervalles de confiance à 95 % sur les intentions de vote:


Les intervalles de confiance à 95 % sont de 2P

Les résultats du sondage sont les suivantes:

parti

intentions de vote

PUB
PET
PAF
PIF

12,0 ± 4,6 %
17,5 ± 5,4 %
34,5 ± 6,8 %
30,5 ± 6,6 %


2.  Les proportions sont des moyennes


Considérons une élection opposant deux partis A et B

Considérons la grandeur x = nombre de voix qu'un électeur apporte au parti B.

C'est une variable discrète qui peut prendre deux valeurs:

x = 0

si l'électeur vote pour A

x = 1

si l'électeur vote pour B


Soient:

nA

le nombre d'électeurs votant pour A

nB

le nombre d'électeurs votant pour B

n

le nombre total d'électeurs

p

la proportion d'électeurs votant pour B


Calculons la valeur moyenne de x:

La proportion est donc la moyenne de x

Calculons l'écart type sur x (ou plutôt son carré, appelé variance)



On a donc

Et donc,


3.  Exemples


EXEMPLE 1:

Afin de prédire le résultat d'une élection opposant deux partis, on interroge un échantillon représentatif de 100 électeurs. 60 déclarent voter pour le parti 1 et 40 pour le parti 2.

Quelle est la probabilité que le parti 1 gagne les élections ?

Solution:

Pourquoi ?



On ne peut pas calculer:

car les 2 échantillons ne sont pas indépendants !

Le parti 1 gagne les élections si p1 > 0,5

table Prob = 0,021
il y a 2,1 % de chances que p1 < 0,5
il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les élections


EXEMPLE 2:

On constate un défaut dans 20 % des voitures d'un modèle. Un garagiste, qui a vendu 50 voitures de ce modèle, fait revenir tous ses clients afin de remplacer une pièce aux voitures défectueuses. Pour cela, il a commandé 12 pièces de rechange.

Quelle est la probabilité qu'il n'ait pas suffisamment de pièces?

Solution:

La proportion de voitures défectueuses vaut  = 0,2.

Dans l'échantillon de 50 voitures, on s'attend à la même proportion, avec un écart type:

Il n'aura pas suffisamment de pièces si le nombre de voitures défectueuses est supérieur à 12, ou au moins égal à 13.

On a le choix entre deux critères:

Dans ce cas, on obtient un meilleur résultat en appliquant la correction de continuité et en choisissant 12,5 plutôt que 12 ou 13.

Nous retiendrons donc

Pour qu'il n'ait pas assez de pièces de rechange, il faut donc que la proportion s'écarte de la valeur moyenne de plus de

 = 0,25 - 0,2 = 0,05

On obtient donc:

La probabilité d'avoir un écart au moins aussi élevé est, d'après la table de la loi normale, de 0,189.

Il y a donc 18,9 % de risques que le garagiste n'ait pas assez de pièces de rechange.

4.  Illustration: test de la fiabilité des horoscopes


Lors de deux leçons, nous organisons un test destiné à mesurer la fiabilité des horoscopes.

Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la semaine précédente.

Chaque étudiant présent lit ces horoscopes et indique:

  • son signe astrologique;

  • lequel de ces horoscopes correspond le mieux à ce qui lui est arrivé lors de la semaine écoulée.

Pour le premier test, les signes astrologiques sont indiqués.

Dans le second test, ces signes ne sont pas indiqués et l'ordre en est modifié.

Ce test a pour but de répondre à deux questions:

  • les horoscopes sont-ils fiables ?

  • la connaissance du signe a-t-elle une influence sur les réponses des individus testés ?

Nous désignerons par "coïncidences positives" (CP) les cas où l'étudiant a reconnu son signe, c'est-à-dire les cas où l'horoscope qu'il a sélectionné correspond bien à son signe.

Les résultats des deux tests effectués de 1998 à 2008 sont résumés dans ce tableau suivant:

année

signes connus

signes inconnus

n

CP

n

CP

1998-2001
2002
2003
2004
2007
2008

145
71
57
81
61
55

46
9
10
15
12
6

275
71
72
44
58
64

22
9
5
2
6
5

total

470

9

584

49


1. Test de la fiabilité des horoscopes

Nous considérons l'ensemble des quatre années et retenons les tests où les signes n'étaient pas connus, afin d'éviter des biais éventuels

Nous avons un échantillon de 584 réponses, avec 49 coïncidences positives

Si ces coïncidences positives étaient dues au hasard uniquement, c'est-à-dire si chaque individu répondait au hasard, il aurait une chance sur 12 de choisir l'horoscope correcpondant à son signe.

Par le hasard seul, nous nous attendrions donc à:

Or, nous avons 49 CP, ce qui est pratiquement égal au nombre attendu par l'action du hasard.

C'est très mauvais signe pour la fiabilité des horoscopes !

Nous allons cependant utiliser nos connaissances en statistique pour analyser ces tests de manière plus quantitative.

(a) le nombre de coïncidences positives est compatible avec l'action du hasard seul.

Dans le cas d'une répartition au hasard, le nombre de CP doit être, en moyenne, du nombre de réponses.
La proportion de CP, p+, vaut donc:

avec un écart type

L'intervalle de confiance à 95 % vaut donc:

0,083 ± 0,022

ou encore:

[0,061;0,105]

La valeur obtenue par l'étude de notre échantillon vaut:


Elle se trouve dans l'intervalle de confiance pour une répartition due au hasard.

On peut donc conclure que la petite différence entre la valeur mesurée et la valeur attendue est parfaitement compatible avec le hasard: c'est ce qu'on appelle une fluctuation statistique.

Exemple de fluctuation statistique

Si on lance une pièce de monnaie, on s'attend à avoir, en moyenne, autant de "pile" que de "face".
Sur 100 lancers, on s'aura que rarement 50 "pile" et 50 "face" exactement. Les écarts par rapport à ce nombre moyen sont les fluctuations statistiques.

ex:


47 pile et 53 face,
52 pile et 48 face,
...

(b) Avec quelle confiance pouvons-nous conclure à la non-fiabilité des horoscopes ?

Nous devons tout d'abord définir ce que nous entendons par fiabilité des horoscopes.

Si l'astrologie était une science exacte, elle devrait être capable de prédire avec certitude ce qui va nous arriver.

Toutefois, nous ne lui en demonderons pas tant.

Nous dirons que les horoscopes sont fiables à 50 % si les prédictions concernant notre signe sont celles qui correspondent le mieux à ce qui nous arrive, dans au moins un cas sur deux.

Dans ce cas, au moins la moitié des individus devraient reconnaître leur signe.

Remarque: cette définition est très peu contraignante pour l'astrologie. En effet:

  • Nous ne lui demandons pas de prédire avec précision ce qui va nous arriver, mais seulement que la prédiction concernant notre signe soit la plus proche de ce qui va nous arriver, parmi les 12 prédictions;

  • nous ne demandons pas que cela se produise pour tous les individus, mais seulement pour la moitié d'entre eux.


Soit p+ la proportion des individus qui reconnaissent leur signe.
Dans notre échantillon, nous avons:

avec un écart type:

Pour que les horoscopes soient fiables à 50 %, il faudrait, dans la population, une proportion p+  0,5, donc un écart minimum avec notre valeur d'échantillon:

et donc

Cette valeur est si grande qu'elle ne figure pas dans notre table de la loi normale.

En fait:

Il n'y a pas une chance sur des millards de milliards pour que les horoscopes testés soient fiables à 50 %

Notre échantillon nous permet d'exclure cette hypothèse avec une certitude quasi absolue.


Les horoscopes pourraient-ils être fiables à 25 % ?

Pourrait-il y avoir une chance sur 4 pour que la prédiction qui correspond le mieux à un individu soit celle de son signe ?

Dans ce cas, au moins un quart des individus devraient reconnaître leur signe.

Il faudrait donc p+  0,25, et donc un écart

et:

Cette valeur est, une fois de plus, en dehors de la table de la loi normale.

Notre test nous permet d'exclure avec une quasi certitude que les horoscopes testés soient fiables une fois sur 4.

Tester une fiabilité plus faible n'a pas beaucoup de sens car:

  • être fiable moins d'une fois sur 4, c'est plutôt être non fiable.

  • le hasard seul donne une fiabilité d'une fois sur 12 on risque évidemment de trouver que les horoscopes sont fiables une fois sur 12 !

En résumé:

Nous pouvons conclure que la fiabilité des horoscopes testés est nulle, puisque l'on obtiendrait le même résultat en choisissant les signes au hasard.

Si vous lisez les horoscopes, rien ne sert de connaître votre signe. Les prévisions des autres signes s'appliquent tout aussi bien (ou plutôt: tout aussi mal) à vous !

2. La connaissance du signe a-t-elle influencé les réponses ?

Nous allons tâcher de déterminer si les individus testés se sont laissé influencer par la connaissance de leur signe, lorsque celui-ci était indiqué.

Dans les tests avec signes connus, nous avons 79 coïcidences positives sur 470 réponses , soit une proportion

avec un écart type:

Avec les signes inconnus, nous avons 49 coïcidences positives sur 584 réponses, soit une proportion

avec un écart type:

On a donc une proportion plus grande de coï:ncidences positives lorsque les signes sont connus, ce qui laisse supposer que certains individus se sont laissé influencer par la connaissance de leur signe.

Cette différence est-elle statistiquement significative ?

Avec quelle confiance pouvons-nous affirmer que cette différence ne peut pas être due à l'action du hasard (fluctuation statistique).

Nous pouvons supposer que les deux échantillons sont indépendants car nous ne voyons pas comment la réponse à un des tests pourrait influencer la réponse à l'autre.

Nous avons une différence de proportion

entre les CP avec signes connus et inconnus.

L'écart type sur cette différence vaut:

Nous obtenons donc

D'après la loi normale, la probabilité qu'un tel écart soit dû au hasard est de 0,00003 = 0,003%.

Nous pouvons donc conclure avec 99,997 % de confiance que la connaissance du signe a effectivement influencé les réponses.

Ce résultat illustre l'importance de réaliser les tests "à l'aveugle", sans que les sujets testés puissent se laisser influencer par la connaissance d'informations de nature à influencer le résultat. Même en essayant de ne pas tenir compte de ces informations, on risque fort de se laisser influencer.


Chapitre:       1       2       3       4       5       6       7