CHAPITRE 8 L’ESTIMATION ET LE TEST D’HYPOTHÈSE

     1   2   3   4   5   6   7   8   9   Tables
 

Lorsqu’on veut connaître les caractéristiques ou les opinions d’une population, on a souvent recours à un échantillon. Cependant, comme le hasard s’en mêle parfois, toute estimation faite à partir d’un échantillon comporte une marge d’erreur plus ou moins grande. Nous verrons dans ce chapitre comment évaluer cette marge d’erreur. On dira, par exemple, que 79 % des Canadiens trouvent les tribunaux trop complaisants envers les criminels (avec une marge d’erreur de plus ou moins 3 %, 19 fois sur 20), ou que la taille moyenne des Américains de sexe masculin âgés est comprise entre 174,7 cm et 175,7 cm (avec un niveau de confiance de 95 %). Les deux premières sections de ce chapitre seront consacrées à ce genre d’estimation.

Les échantillons peuvent aussi nous permettre de vérifier des hypothèses. Peut-on affirmer, par exemple, que les criminels ont une capacité crânienne inférieure à la moyenne, ou encore que les jeunes filles ont une estime de soi inférieure à celle des jeunes garçons? Là encore, puisque nous utilisons des échantillons, le hasard peut nous jouer des tours. Nous verrons, dans les sections 3 et 4 du présent chapitre, comment évaluer les chances de nous tromper en acceptant ou en rejetant une hypothèse.

Pour nous aider dans notre démarche, nous utiliserons des outils familiers : la moyenne, l’écart type et la courbe de distribution normale. Comme il arrive parfois que les échantillons soient très petits, surtout lorsqu’on étudie un groupe d’individus bien particulier, nous aurons parfois recours à une autre distribution, bien connue des chercheurs en laboratoire : la distribution de Student. Nous pourrons alors, sans grand effort supplémentaire, soutirer plus d’information à l’échantillon.

 

Au terme de ce chapitre, vous devriez être en mesure de répondre aux questions suivantes :

  • Comment peut-on, à partir d’un échantillon, estimer la proportion d’individus possédant telle ou telle caractéristique dans une population donnée?
  • Comment peut-on, à partir d’un échantillon, estimer la valeur moyenne d’une caractéristique des membres d’une population?
  • Quelle est, lorsque l’on fait une estimation, la marge d’erreur possible correspondant à un niveau de confiance donné?
  • Comment peut-on vérifier une hypothèse fondée sur une caractéristique d’une population?
  • Comment peut-on vérifier une hypothèse fondée sur la comparaison d’une même caractéristique dans deux populations différentes?


 

1. ESTIMER DES PROPORTIONS

Grâce à un échantillon, nous commencerons par déterminer comment la population se répartit entre les diverses catégories d’une variable. Il nous restera ensuite à évaluer les risques de faire ainsi une estimation éloignée de la réalité.

 

1.1. Calcul de l’erreur type

Le sondage dont il est question dans le tableau 8.1 porte sur l’opinion des Canadiens concernant la criminalité dans les années 1990. On constate qu’une forte majorité de gens trouvent que les tribunaux manquent de sévérité envers les criminels. En guise de consolation pour le Québec, signalons que, selon la même enquête, ceux qui croient que le taux de criminalité violente est en augmentation dans leur localité s’avèrent moins nombreux à Montréal (45 %) qu’à Toronto (57 %). À vous de vérifier si les gens d’aujourd’hui sont aussi sévères que leurs aînés.

Nous voulons savoir dans quelle mesure les caractéristiques de l’échantillon observé risquent d’être éloignées de celles de la population que nous cherchons à connaître.

Pour savoir que 79 % de la population pense que les tribunaux manquent de sévérité, les sondeurs ont observé un échantillon de 1016 individus : ils ont fait une estimation. Il reste maintenant à quantifier le degré de fiabilité (ou la marge d’erreur) de cette estimation. C’est grâce au calcul de cette marge d’erreur que le chercheur pourra déterminer si l’estimation est suffisamment précise pour les besoins de sa recherche. Inversement, cette méthode permettra d’évaluer la taille minimale de l’échantillon à observer compte tenu de la précision recherchée.

Plus les échantillons sont grands, plus ils sont groupés autour de leur valeur moyenne, ou, si l’on préfère, moins ils sont dispersés.

Nous savons déjà un certain nombre de choses sur les échantillons choisis au hasard. Il est possible de tirer d’une population une quantité considérable d’échantillons. Certains de ces échantillons sont tout à fait représentatifs de la population et d’autres s’en écartent plus ou moins. Lorsque la taille des échantillons est suffisamment grande*, les différentes valeurs des paramètres mesurés à partir de ces échantillons se distribuent selon le modèle de la courbe normale : cela signifie que les échantillons correspondent, en moyenne, à la population, et que l’on peut évaluer leur degré de dispersion.

L’erreur type mesure le degré de dispersion des échantillons autour de leur valeur moyenne.

Ce degré de dispersion des échantillons, qui se nomme erreur type, est relativement facile à calculer et à interpréter (c’est le pendant de l’écart type, vu au chapitre 3). Étant donné que l’erreur type est très utilisée, notamment dans les sondages électoraux et les enquêtes sociales, nous allons maintenant expliquer comment on doit s’en servir.

Essayons donc d’évaluer le degré de fiabilité de l’opinion exprimée dans notre sondage du tableau 8.1 (« une proportion de 79 % des gens croit que… ») en obtenant tout d’abord son erreur type. La formule ci-dessous indique comment calculer l’erreur type et, malgré les apparences, elle est plutôt simple.

La valeur p représente la proportion de la catégorie étudiée (estimée) et n la taille de l’échantillon. En principe, on devrait utiliser les proportions de la population, mais comme on ne connaît pas ces proportions on doit se contenter de celles de l’échantillon.

  • On calcule d’abord le produit des deux proportions (celle de la catégorie qui nous intéresse et celle des autres catégories réunies). Pour simplifier, on peut écrire les deux proportions sous leur forme décimale (la somme des deux proportions est alors égale à 1).

    Ici, les deux proportions sont respectivement 0,79 (« une proportion de 79 % des gens croit que… ») et 0,21. Leur produit est égal à 0,79 x 0,21 = 0,1659

  • On divise le résultat obtenu par le nombre d’éléments dans l’échantillon.

    Ici, l’échantillon est de 1016 individus. On obtient donc 0,1659/1016 = 0,0001633

  • On calcule la racine carrée du résultat obtenu.

√(0,0001633) = 0,0128 = 1,28 % (disons 1,3 %)

 

1.2. Interprétation de la marge d’erreur

La véritable proportion se situe, avec un certain degré de probabilité, dans un intervalle plus ou moins large autour de la valeur estimée.

Rappelons que pour connaître l’opinion des gens sur la criminalité, les sondeurs ont tiré au hasard un échantillon de 1016 individus. Or, il existe une quantité innombrable d’échantillons de 1016 individus, et certains d’entre eux peuvent, par malchance, donner des résultats relativement éloignés de la réalité. Grâce à l’erreur type que nous avons calculée, sa valeur s’établissant à 1,3 %, nous allons maintenant pouvoir chiffrer avec précision ce que nous entendons par les expressions relativement éloignés et par malchance.

Cette probabilité se nomme niveau de confiance et cet intervalle se nomme intervalle de confiance.

On se rappellera que, dans une distribution normale, 68 % (ou 0,68) des éléments sont contenus à une distance de la moyenne ne dépassant pas un écart type. Ici, les éléments sont les différents échantillons que nous aurions pu tirer, et l’écart type de cet ensemble d’échantillons s’appelle l’erreur type. Cela signifie que la proportion estimée grâce à notre échantillon a 68 % de chances de ne pas s’écarter de plus de 1,3 % de la proportion véritable.

En ratissant plus large, on augmente le niveau de confiance.

En pratique, on cherche à ratisser plus large de façon à faire des affirmations un peu plus dignes de confiance. En augmentant le nombre d’erreurs types à 1,96, on récupère 95 % de tous les échantillons (voir la figure 8.1). De façon similaire, 99 % de tous les échantillons sont compris entre -2,57 et +2,57 erreurs types. Dans la phrase précédente, le premier chiffre est le niveau de confiance (99 %) et les deux autres chiffres représentent l’intervalle de confiance (entre -2,57 et 2,57).


Marge d’erreur à un niveau de confiance de 95 % = 1,96 × Erreur type

Marge d’erreur à un niveau de confiance de 99 % = 2,57 × Erreur type

Dans notre exemple, 1,96 erreur type représente environ 2,5 % (on multiplie 1,96 par l’erreur type, soit 1,96 x 1,3 % = 2,5 %). On peut donc dire, en simplifiant un peu, que dans 95 % des cas, la proportion véritable se situera entre [79 % – 2,5 %] et [79 % + 2,5 %], ou entre 76,5 % et 81,5 %. Pour nous donner des allures de journaliste, nous dirions aussi que, 19 fois sur 20*, le résultat peut varier au maximum de plus ou moins 2,5 %.

Étant donné que la proportion véritable est fixe et que c’est en réalité notre estimation qui a des chances de coïncider plus ou moins bien avec la réalité, on devrait plutôt dire que cet intervalle de confiance (situé entre 76,5 % et 81,5 %) a 95 % de chances de contenir la proportion véritable.

Dans le tableau 8.1 vu précédemment, il y a trois catégories d’opinion et donc trois proportions. Étant donné que l’erreur type dépend de la valeur de la proportion, chaque proportion possède sa propre erreur type et sa propre marge d’erreur. Voilà qui est un peu fastidieux pour le chercheur et ennuyeux pour le lecteur. Pourquoi ne pas mettre les choses au pire en calculant l’erreur type d’une proportion de 50 % (c’est cette proportion qui donne l’erreur type la plus élevée)? C’est ce que font la plupart des instituts de sondage lorsqu’ils publient les résultats de leur enquête dans les journaux. Vérifions si c’est bien le cas dans le tableau 8.1, où la marge d’erreur indiquée est de 3,1 % pour le Canada.

Erreur type = √(0,5 × 0,5)/1016 = √(0,25/1016) = √(0,000246) = 0,0157 = 1,57 %

Marge d’erreur (pour un niveau de confiance de 95 %) = 1,96 x 1,57 % = 3,1 %

Voici une autre manière de calculer l’erreur type :

√(0,5 × 0,5)/√(1016) = √(0,25)/√(1016) = 0,5/31,8 = 0,0157 = 1,57 %

 

1.3. Le coefficient de variation

Parfois, la marge d’erreur d’une estimation s’avère trop grande pour jouir de la moindre valeur. Lorsqu’une proportion estimée à 40 % possède une erreur type de 1 %, on ne peut pas se plaindre. Par contre, une estimation de 1 % avec une erreur type de 0,5 % ne vaudrait pas grand-chose. On comprend intuitivement que l’erreur type doit pouvoir être comparée à la proportion à laquelle elle se rapporte : ce rapport s’appelle le coefficient de variation.

Selon l’Enquête sociale générale de Statistique Canada, on comptait 20 525 000 parents adoptifs potentiels au Canada en 1990. On peut constater, par exemple, dans le tableau 8.2 que 4 447 000 d’entre eux n’avaient jamais vécu en couple et que 163 000 d’entre eux ont adopté au moins deux enfants au cours de l’année. Ces données ont été estimées à partir d’un échantillon portant sur 13 495 individus. On peut en déduire que chaque parent sondé représente 20 535 000/13 495 = 1521 parents dans la population. C’est ce qu’on appelle le poids d’échantillonnage (voir chapitre 7).

Dans le tableau 8.2, les estimations sont exprimées en quantités. Mais il s’agit en réalité de proportions déguisées. Sur un total de 20 525 milliers de parents adoptifs potentiels, on compte, par exemple, 307 milliers de parents qui ont été « mariés » une seule fois dans leur vie et qui ont adopté un seul enfant : la proportion est de 307/20 525 = 1,5 %.

Calculons d’abord l’erreur type de cette proportion en utilisant la formule vue un peu plus haut :

p = 1,5 % = 0,015 (la proportion des parents qui appartiennent à cette catégorie)

(1 – p) = 0,985 (la proportion des parents qui n’appartiennent pas à cette catégorie)

n = 13 495 (la taille de l’échantillon interrogé)

Erreur type = √[(0,015 x 0,985)/13 495] = √[0,0148/13 495] = 0,00105 = 0,105 %

Il ne nous reste plus qu’à calculer le coefficient de variation:

Coefficient de variation = 0,105 %/1,5 % = 0,07 = 7 %

Lorsque le coefficient de variation dépasse 16 % (environ), on doit interpréter les estimations avec prudence. Lorsque le coefficient dépasse 33 %, les estimations n’ont tout bonnement aucune valeur. Dans un tel cas en effet, et avec un niveau de confiance de 95 % (soit 1,96 erreur types… disons 2 pour simplifier), cela signifie que les bornes de l’intervalle de confiance seraient situées à plus ou moins 66 % (2 x 33 %) de l’estimation calculée. Si l’estimation était de 3 %, par exemple, cela signifierait qu’un intervalle compris entre 1 % (soit 3 % – [66 % x 3 %] et 5 % (soit 3 % + [66 % x 3 %]) aurait 95 % de chance de contenir la proportion véritable. Ce serait beaucoup trop vague.


 

EXERCICES 1

1. Échantillon réduit, erreur type accrue

Dans le tableau 8.1, l’institut Gallup évalue que, dans 95 % des cas, la marge d’erreur ne dépasse pas 6 % pour les estimations concernant le Québec.

a) Calculez l’erreur type pour le Québec en vous basant sur une proportion de 50 %.

b) Vérifiez s’il est exact que, 19 fois sur 20, la marge d’erreur ne dépasse pas 6 % pour le Québec.

2. Coefficient de variation

Calculez le coefficient de variation des résultats pour le Québec à partir du tableau 8.1, toujours en vous basant sur une proportion de 50 %.


 

2. ESTIMER UNE MOYENNE

Dans la section précédente, nous avons vu comment un échantillon permet, avec un degré plus ou moins grand de fiabilité, d’estimer une proportion. Nous avions par exemple estimé que 79 % des Canadiens trouvaient leurs tribunaux trop indulgents, ou que 163 000 parents sur 20 525 000 (soit 7,9 % d’entre eux) avaient adopté deux enfants ou plus.

Un principe similaire s’applique lorsqu’il s’agit d’évaluer une moyenne à partir d’un échantillon. Quelle est la taille moyenne des quinquagénaires américains? Quel est le QI moyen des gens originaire de l’Extrême Orient? Quel est le niveau moyen d’estime de soi des élèves québécois? Dans tous ces cas, on pourrait faire une estimation de la moyenne en observant un simple échantillon de la population.

La taille de l’échantillon n’a pas besoin d’être très grande, car tout dépend du degré de précision désiré et des informations dont on dispose sur la population sondée. Lorsque l’échantillon contient au moins 30 éléments, on utilise encore une fois la distribution normale pour calculer la marge d’erreur. Lorsque l’échantillon est plus petit (ce qui est souvent le cas lors d’expériences de laboratoire), il y a encore moyen de s’en sortir grâce à une autre distribution : le t de Student.

Évidemment, il n’est pas interdit de travailler avec des échantillons relativement grands. Nous allons voir dans l’exemple qui suit que quelques centaines d’individus bien choisis nous permettent d’évaluer avec une précision étonnante une caractéristique d’une population de plusieurs millions de personnes.

 

2.1. Un gros échantillon : la taille des anciens combattants

En Europe, les Américains ont la réputation d’être un grand peuple (en centimètres), surtout depuis un certain 6 juin 1944. Pour vérifier la chose et faire des comparaisons, nous avons demandé aux fonctionnaires de Washington, Québec et Ottawa de nous fournir des données précises. Les fonctionnaires américains ont été les premiers à nous répondre, sans nous poser de questions ni nous demander d’argent, et ils nous ont fourni toute une série de paramètres sur la taille de leurs concitoyens par groupe d’âge et origine ethnique : moyenne, écart type, mode, centiles, taille des échantillons correspondants pour chaque groupe étudié. Une véritable aubaine pour le chercheur en sciences humaines. Certains de ces paramètres sont reproduits au tableau 8.3.

Ainsi, 690 hommes âgés de 45 à 54 ans ont été examinés à travers le pays entre 1976 et 1980, ce qui a permis d’estimer la taille moyenne des gens de ce groupe à 175,2 cm. Essayons d’établir la marge d’erreur de cette estimation, en prenant un niveau de confiance de 0,95. Pour cela, nous devons calculer, ici aussi, l’erreur type de la distribution des moyennes d’échantillons.

En principe, on devrait utiliser l’écart type de la population (qui est généralement inconnu) et le diviser par la racine carrée de n, soit le nombre d’éléments dans l’échantillon. En pratique, on peut se contenter de l’écart type de l’échantillon étudié, pourvu que l’échantillon contienne au moins 30 éléments. On divise alors l’écart type par √(n), comme dans la formule ci-dessus.

Pour calculer l’écart type d’un échantillon, on utilise la formule étudiée au chapitre 3 à un détail près : on doit diviser la somme des écarts au carré par (n – 1) et non par n comme c’est le cas pour l’écart type d’une population (n représente le nombre d’éléments dans l’échantillon). Dans l’exemple illustré ici, l’écart type de l’échantillon avait déjà été calculé par ceux qui nous ont communiqué les données. Nous donnerons un exemple détaillé du calcul de l’écart type d’échantillon au tableau 8.4, un peu plus loin.

L’écart type de l’échantillon est de 6,6 cm. L’erreur type est donc ici égale à 6,6/√(690) = 6,6/26,25 = 0,25 cm

Notre intervalle de confiance, pour un niveau de 0,95, se situera à 1,96 erreur type de part et d’autre de la moyenne (revoir la figure 8.1 si nécessaire).

Intervalle de confiance : entre [175,2 – (1,96 x 0,25)] et [175,2 + (1, 96 x 0, 25)]

entre (175,2 – 0,5) et (175,2 + 0,5)

entre 174,7 cm et 175,7 cm

Formulé autrement : la marge d’erreur est de 1,96 x 0,25, soit 0,5 cm.

Cela signifie qu’il y a 95 % de chances pour que l’intervalle compris entre 174,7 cm et 175,7 cm contienne la véritable taille moyenne des Américains de ce groupe-là. Dans la plupart des cas, on pourra considérer que la moyenne estimée (à 175,2) est suffisamment précise. La figure 8.2 illustre ce résultat.


Étapes de l’estimation : échantillon contenant au moins 30 éléments tirés d’une population normale

  • 1. Choisir un niveau de confiance.
  • 2. Trouver la valeur correspondante à ce niveau de confiance dans la table de distribution normale.
  • 3. Calculer l’erreur type de l’échantillon.
  • 4. Calculer la marge d’erreur.
  • 5. Calculer les deux bornes de l’intervalle de confiance

Nous allons maintenant estimer la taille moyenne des hommes de race noire âgés de 45 à 54 ans en suivant les étapes que nous venons de résumer. Cette fois, l’échantillon est beaucoup plus réduit (n = 62) et la moyenne légèrement différente (174,2 cm), mais l’écart type est identique, soit 6,6 cm (revoir le tableau 8.3).

  • 1. Niveau de confiance : nous choisissons 0,95. Si jamais nous passons à côté de la cible 1 fois sur 20 (ou 0,05), ce ne sera pas tragique dans un cas semblable.
  • 2. Valeur correspondante dans la table : en prenant une surface de 0,475 de part et d’autre de la moyenne, on obtient une surface totale de 0,95 (soit 0,475 x 2); cela correspond à une valeur de 1,96 dans la table de distribution normale.
  • 3. Erreur type = Écart type/√(n) = 174,2 cm/√(62) = 6,6 cm/7,87 = 0,84 cm.
  • 4. Marge d’erreur : 1,96 x 0,84 cm = 1,6 cm.
  • 5. Intervalle de confiance : entre [174,2 – 1,6] et [174,2 + 1,6], soit entre 172,6 et 175,8 cm.

On constate que cet intervalle de confiance est plus large que le précédent. Cet échantillon, parce que plus petit, est moins fiable que le précédent.

On constate également que la borne supérieure de cet intervalle dépasse la borne équivalente pour l’ensemble de la population (qui était de 175,7 cm). Si, en apparence, la moyenne est moins élevée pour les Noirs que pour l’ensemble, il est toujours possible que cet écart observé soit l’effet du hasard d’échantillonnage.

 

2.2. Un petit échantillon : le prix des abonnements

Les spécialistes de la publicité connaissent fort bien les ficelles quantitatives du métier.

Depuis que les produits sont devenus plus difficiles à vendre qu’à fabriquer, les agences de mise en marché ont inventé toutes sortes de formules pour écouler disques, livres et revues. La maison Publisher Clearing House propose par exemple plus d’une centaine d’abonnements annuels à prix réduit sous la forme d’un dépliant coloré accompagné d’une feuille de timbres. Le client n’a qu’à détacher le timbre correspondant à la revue désirée et à coller ce timbre sur le bon de commande pour bénéficier d’une réduction substantielle. Voilà pour le consommateur une façon amusante d’avoir l’impression d’économiser. Pour renforcer cette perception, il va de soi que le montant de la réduction est imprimé en plus gros caractères que le prix effectif de l’abonnement. C’est sans doute la raison pour laquelle les réductions sont libellées en dollars (et non en proportion) : ainsi, l’œil est automatiquement attiré vers les réductions les plus grandes et, par le fait même, vers les revues les plus chères. Notons enfin que l’entreprise dont il est question n’a pas jugé bon de mélanger les réductions en dollars (« 25 $ de rabais sur 499 $ ») avec des réductions exprimées en proportions (« 25 % de rabais sur 2 $ ») comme c’est souvent le cas dans les dépliants publicitaires.

Nous avons essayé d’estimer le prix moyen d’un abonnement annuel, à l’aide d’un petit échantillon de 12 éléments (voir le tableau 8.4). Étant donné que la population totale n’est pas très élevée (il y a 103 abonnements annuels offerts dans le dépliant), il aurait été facile de l’observer directement sans passer par un échantillon, avouons-le. Cependant, notre unique but est ici d’illustrer la façon d’estimer une moyenne avec un petit échantillon.

Le procédé d’estimation est le même que dans le cas précédent (la taille moyenne des anciens combattants), sauf que la table de la distribution normale (utilisée à l’étape 3) doit être remplacée par la table de la distribution de Student, mieux adaptée aux petits échantillons.

La table de distribution de Student (voir la figure 8.3) fonctionne un peu à l’envers de la table de distribution normale, puisqu’elle donne, pour une surface donnée, le seuil à atteindre (appelé valeur t de Student). Supposons que le niveau de confiance choisi soit de 0,95. On sélectionnera dans la table la colonne 0,025, ce qui éliminera une surface (et une probabilité) de 0, 025 (ou 2,5 %) sur chacune des deux extrémités de la courbe. Il nous reste maintenant à identifier la bonne ligne dans la table (degrés de liberté). C’est la taille de l’échantillon qui détermine le nombre de degrés de liberté, selon la formule suivante :

Degrés de liberté (dans une estimation de moyenne) = n – 1

où n est la taille de l’échantillon observé.

Dans notre exemple, la valeur t de Student pour une surface de 0,025 et 11 degrés de liberté est de 2,20.


Étapes de l’estimation : échantillon contenant moins de 30 éléments tirés d’une population normale

  • 1. Choisir un niveau de confiance.
  • 2. Calculer le nombre de degrés de liberté.
  • 3. Trouver la valeur correspondante à ce niveau de confiance et au nombre de degrés de liberté dans la table de distribution de Student.
  • 4. Calculer l’erreur type de l’échantillon.
  • 5. Calculer la marge d’erreur.
  • 6. Calculer les deux bornes de l’intervalle de confiance.

Avant de suivre ces étapes, il nous faut déterminer nous-mêmes la moyenne et l’écart type (ces deux chiffres nous étaient déjà fournis dans l’exemple précédent). Deux méthodes s’offrent à nous. Nous pouvons faire le calcul complet ou utiliser les fonctions d’un chiffrier électronique. Le tableau 8.4 illustre ces deux méthodes et donne une moyenne de 24,56 $ et un écart type de 5,19 $ pour notre échantillon de 12 éléments.

  • Niveau de confiance : nous choisissons à nouveau 0,95, c’est-à-dire que nous rejetons 0,025 de chaque côté.
  • Nombre de degrés de liberté : 12 – 1 = 11.
  • Valeur t de Student correspondant à une surface de 0,025 et 11 degrés de liberté (voir la figure 8.3) : 2,20.
  • Erreur type : 5,19 $/√(12) = 1,50 $.
  • Marge d’erreur : Valeur t de Student x Erreur type = 2,20 x 1,50 $ = 3,30 $.
  • Bornes de l’intervalle de confiance : entre [24,56 – 3,30] et [24,56 + 3,30], soit entre 21,26 $ et 27,30 $. Cela signifie qu’il y a 95 % de chances que le véritable prix moyen de l’abonnement soit compris entre 21,26 $ et 27,30 $. C’est plutôt vague, mais c’est mieux que rien!

Comme on peut le constater, il est difficile de faire une estimation précise dans ce cas-ci, car deux facteurs jouent simultanément contre nous : l’échantillon est très petit et l’écart type est relativement grand. Nous pourrions contourner la difficulté en augmentant la taille de l’échantillon. C’est ce que nous avons fait en sélectionnant 36 éléments au hasard, ce qui nous donne une moyenne de 22,30 $ et un écart type de 4,63 $.

  • Erreur type : 4,63 $/√(36) = 0,77 $.
  • Niveau de confiance : toujours 0,95.
  • Nombre de degrés de liberté : 36 – 1 = 35.
  • Valeur dans la table de Student (colonne 0,025 et ligne 35) : 2,03. Notons que lorsque la taille de l’échantillon dépasse 30, la distribution de Student commence à ressembler sérieusement à la distribution normale : nous aurions obtenu une valeur de 1,96 (très proche de 2,03) si nous avions utilisé la table normale pour un niveau de confiance de 0,95. C’est la raison pour laquelle on peut généralement se contenter d’utiliser la distribution normale lorsque la taille de l’échantillon atteint ou dépasse 30 éléments.
  • Marge d’erreur : 2,03 x 0,77 $ = 1,56 $.
  • Intervalle de confiance : entre [22,30 $ – 1,56 $] et [22,30 $ + 1,56 $], soit entre 20,74 $ et 23,86 $.

À titre d’information, notez que la véritable moyenne (que nous avons calculée à partir de l’ensemble de la population) se situe à 21,79 $ par abonnement. La figure 8.4 illustre la portée de notre dernière estimation. La moyenne véritable se trouve bien à l’intérieur de notre intervalle de confiance (il y avait seulement une chance sur 20 pour que cet intervalle ne contienne pas la moyenne), tout en étant quelque peu éloignée de la moyenne estimée à partir de notre échantillon (un écart de 0,51 $ les sépare).



 

EXERCICES 2

1. Les petits actuels sont-ils des ex-grands?

Il paraît que l’on rapetisse avec l’âge. D’autre part, on a observé que la taille moyenne des soldats américains augmente d’une génération à l’autre : 171 cm pendant la Première Guerre mondiale, 174 cm pendant la Deuxième, 175 cm pendant la Guerre du Vietnam et 176 cm pendant la Guerre du Golfe.

a) En vous servant des données du tableau 8.3, calculez l’intervalle de confiance pour les hommes âgés de 18 à 24 ans et pour les hommes âgés de 65 à 74 ans, avec un niveau de confiance de 0,95.

b) Même question avec un niveau de confiance de 0,99.

c) Commentez les écarts de taille entre les deux groupes d’âge.

2. Les abonnés absents

Nous avons tiré au hasard un nouvel échantillon de 12 abonnements de la société Publisher Clearing house (voir le tableau 8.4). Les prix de l’abonnement annuel sont respectivement les suivants : 29,97 $; 11,25 $; 21,97 $; 23,97 $; 21,95 $; 18,97 $; 22,97 $; 21,95 $; 19,67 $; 20,98 $; 24,97 $ et 27,97 $.

a) Calculez la moyenne du prix de l’abonnement.

b) Calculez l’écart type (d’échantillon).

c) Calculez l’erreur type.

d) Calculez l’intervalle de confiance, pour un niveau de confiance de 0,95.


 

3. VÉRIFIER UNE HYPOTHÈSE À L’AIDE D’UN ÉCHANTILLON

Dans la section précédente, nous avons montré dans quelle mesure un échantillon peut nous aider à mieux connaître la population dont il est issu. Nous avons utilisé la courbe normale pour estimer, avec une marge d’erreur plus ou moins grande, un paramètre d’une population comme, par exemple, la taille moyenne des Américains. Lorsque l’échantillon était plus petit, comme dans le cas du prix moyen des abonnements, nous avons remplacé la courbe normale par la courbe de Student.

Ici, la démarche est un peu différente, quoiqu’elle fasse appel aux mêmes outils. L’échantillon n’est plus utilisé pour estimer un paramètre, mais plutôt pour vérifier une hypothèse concernant la population. Nous nous demanderons par exemple comment un échantillon peut nous permettre d’affirmer avec un certain degré de certitude, que le QI des Asiatiques est plus élevé que la moyenne, ou que le volume crânien des criminels ne diffère pas de celui de la population en général.

Plus l’échantillon est petit, plus le hasard peut nous jouer des tours, mais il ne tient qu’à nous de garder le contrôle de la situation en évaluant le degré de risque encouru lorsque nous posons une hypothèse.

 

3.1. Un test unilatéral : le QI des Asiatiques

Le QI (quotient intellectuel) est un indicateur controversé. On ne sait pas exactement ce qu’il mesure : l’inné ou l’acquis? L’intelligence en général ou certaines aptitudes particulières choisies arbitrairement? Chose certaine, il est abusif d’évaluer l’intelligence d’un individu en se basant sur le QI du groupe auquel il appartient : ce n’est pas parce que le QI moyen de votre classe est faible cette année que vous êtes moins intelligent que d’habitude. Cette mise en garde étant faite, cherchons maintenant à satisfaire notre curiosité : les Asiatiques ont-ils, en moyenne, un QI supérieur à celui que l’on retrouve dans la population en général?

Une enquête qui porte sur la jeunesse américaine à travers les décennies (National Longitudinal Survey of Youth) nous fournit quelques chiffres. Un échantillon de 42 jeunes Américains originaires d’Extrême-Orient montre que ces derniers ont un QI moyen de 106 (contre 100 pour l’ensemble de la population, en 1990). La même enquête indique d’autre part que le QI est distribué de façon normale avec un écart type de 15. L’écart est-il suffisamment grand, compte tenu de la faible taille de l’échantillon, pour qu’on ne puisse l’attribuer au hasard?

Étapes du test d’hypothèse sur une moyenne

L’hypothèse selon laquelle la moyenne tirée de l’échantillon est la même que celle de la population s’appelle l’hypothèse nulle.

1. Formuler l’hypothèse. Généralement, l’hypothèse est formulée de façon positive : le QI moyen des Asiatiques (les gens de l’échantillon) est le même que le QI moyen de la population. Il faut aussi formuler une solution de rechange au cas où notre hypothèse serait rejetée : le QI moyen des Asiatiques est supérieur à celui de la population. L’hypothèse à vérifier est appelée hypothèse nulle. La solution de rechange, qui aurait pu prendre une autre forme, est appelée hypothèse alternative.

Le seuil de signification représente le risque de rejeter à tort l’hypothèse nulle.

2. Quel est le seuil de signification désiré? Autrement dit, quel est le risque de rejeter à tort une hypothèse vraie? Ici, nous pouvons par exemple décider de prendre le risque maximum de nous tromper 1 fois sur 20 (ou 0,05).

La valeur critique (il peut y en avoir deux) délimite la zone de rejet de l’hypothèse.

3. Trouver, à partir de la table de la distribution normale, le seuil à ne pas dépasser pour accepter l’hypothèse. Ici, le seuil, ou valeur critique est de +1,64 erreur type (voir la figure 8.5 ci-après). Dans la table normale, on cherchera la valeur correspondant à 0,45, ce qui nous permettra d’englober 0,05 dans la zone de rejet.

L’écart réduit représente le nombre d’erreurs types qui séparent la moyenne de l’échantillon de celle de la population.

4. Calculer l’écart réduit entre la moyenne estimée et la moyenne de la population. Pour cela, il faut diviser l’écart entre les deux moyennes (celle de l’échantillon moins celle de la population) par l’erreur type (dont la formule a été vue dans la section précédente).

Ici, Erreur type = Écart type/√(n) = 15/√(42) = 2,3 unités de QI. L’écart réduit est donc de (106 – 100)/2,3 = 2,61.

5. Accepter ou rejeter l’hypothèse après avoir comparé l’écart réduit (calculé à l’étape 4) à la valeur critique (calculée à l’étape 3). Ici, nous sommes dans la zone de rejet, puisque l’écart réduit (2,61) dépasse la valeur critique (1,64). Cet écart est assez grand pour que nous puissions rejeter l’hypothèse nulle (« le QI moyen des Asiatiques est le même que celui de la population ») et accepter l’hypothèse de rechange (« le QI moyen des Asiatiques est supérieur à celui de la population »).

En acceptant l’hypothèse alternative, nous courons encore le risque de nous tromper. Cependant, ce risque est inférieur aux limites que nous nous sommes fixées à l’étape 2 (soit 0,05 ou 5 %). La figure 8.5 illustre ce résultat.


Lorsque la taille de l’échantillon est inférieure à 30, il est toujours possible d’effectuer un test d’hypothèse, à condition toutefois que la population soit distribuée de façon normale. On remplacera alors, dans l’étape 3, la table de distribution normale par la table de distribution de Student, comme nous l’avons fait dans la section précédente pour l’estimation de moyenne.

 

3.2. Un test bilatéral : les crânes de Lombroso

Encore un sujet délicat…

Non, il ne s’agit pas d’une nouvelle marque de pâtes. À la fin du XIXe siècle, Cesare Lombroso, dans le cadre d’une vaste étude, a mesuré la capacité crânienne de 121 criminels pour voir si elle différait de ce qu’on pouvait observer dans la population en général. Même si certaines de ses conclusions ont été remises en question par la suite, Lombroso peut être considéré comme un des fondateurs de la criminologie moderne.

La capacité crânienne des 121 têtes criminelles était en moyenne de 1450 cm3, tandis que celle de la population était de 1475 cm3 avec un écart type de 110 cm3.

Lors d’un test d’hypothèse bilatéral, il y a deux zones de rejets. Cela signifie que la moyenne de l’échantillon peut aussi bien être inférieure que supérieure à la moyenne de la population.

1. Formuler l’hypothèse nulle : « la capacité crânienne moyenne des criminels est la même que celle de la population ». Hypothèse alternative : « la capacité crânienne moyenne des criminels est différente de celle de la population ». Comparez cette hypothèse alternative avec celle que nous avions formulée dans l’exemple précédent. Nous voulions savoir si le QI moyen des Asiatiques était supérieur (ou bien égal) à celui de la population, car rien ne nous laissait croire que ce QI puisse être inférieur. Cette fois, nous n’avons pas d’idée préconçue sur le sujet. Si jamais la capacité crânienne de criminels devait être différente de celle de la population, rien ne nous laisse présupposer qu’elle soit supérieure ou inférieure. Il faudra alors établir deux valeurs critiques (une valeur minimum et une valeur maximum), d’où le nom de test bilatéral.

2. Seuil de signification : nous décidons de prendre moins de risque que dans l’exemple précédent, étant donnée la gravité de la question, aussi nous choisissons un seuil de signification de 0,01

3. Valeurs critiques : puisque le test est bilatéral, il y a deux zones de rejets (une à gauche du minimum et une à droite du maximum) totalisant en tout 0,005 + 0,005 = 0,01 des possibilités. Les valeurs critiques correspondantes sont de –2,57 et +2,57 erreurs types (voir la figure 8.6 ci-après).

4. Erreur type de l’échantillon = 110/√(121) = 110/11 = 10 cm3.

Écart réduit = (1450 – 1475)/10 = –25/10 = –2,5.

On pourrait aussi convertir les valeurs critiques dans l’unité de mesure de la variable, on obtient respectivement de 1475 – (2,57 x 10) et 1475 + (2,57 x 10) : la zone d’acceptation est comprise entre 1449 et 1501 cm3. Dans ce dernier calcul, 1475 représente la moyenne, 2,57 la valeur critique trouvée dans la table normale et 10 l’erreur type.

5. Décision : l’écart réduit se trouve dans la zone de non-rejet. En d’autres mots, la capacité crânienne des criminels se trouve à l’intérieur des valeurs critiques, quoique de justesse. Jusqu’à nouvel ordre, et tant que nous n’aurons pas de données plus convaincantes, nous acceptons l’hypothèse nulle (« la capacité crânienne moyenne des criminels est la même que celle de la population »).



 

EXERCICES 3

1. Encore le QI

Selon l’enquête longitudinale sur la jeunesse américaine de 1990 dont il a été question dans cette section, le QI moyen des Américains de confession juive serait de 114,5. Ce chiffre a été obtenu à partir d’un échantillon de 99 personnes. On sait d’autre part que l’écart type de ce QI est de 15 pour l’ensemble de la population américaine.

Formulez une hypothèse et testez-la.

2. Encore des crânes

Une enquête d’Ernest Hooton basée sur un très large échantillon (1672 individus) indique que la circonférence de la tête des Bostoniens blancs est en moyenne de 563 mm avec un écart type de 10 mm (Ernest Hooton, The American Criminal, 1939). Un petit échantillon de 25 Bostoniens membres d’une profession libérale révèlent que ces derniers ont une circonférence moyenne de tête de 569,9 mm.

a) L’hypothèse nulle est la suivante : « la circonférence de la tête des membres de l’échantillon observé ne diffère pas de façon significative de celle de la population bostonienne en général ». Compte tenu de cette formulation, testez l’hypothèse nulle avec un seuil de signification de 0,05.

b) Même question avec un échantillon de 194 commerçants dont la circonférence moyenne de tête est de 565,7.


 

4. TEST D’HYPOTHÈSE SUR DEUX MOYENNES

Dans la section précédente, nous voulions déterminer si un groupe d’individus particulier avait des caractéristiques différentes de celles de l’ensemble de la population. C’est pourquoi nous avons comparé la moyenne obtenue grâce à un échantillon à la moyenne de la population. Cette fois, nous allons comparer directement deux échantillons issus de deux populations apparentées. Nous vérifierons par exemple si les Américains de race noire sont plus grands (ou moins grands) que leurs compatriotes de race blanche, ou si l’estime de soi est plus élevée au Québec chez les garçons que chez les filles.

Nous utiliserons encore une fois des outils familiers : la courbe normale (lorsque chacun des deux échantillons contient au moins 30 éléments) et la courbe de Student (dans la situation contraire). Dans ce dernier cas, il faut aussi que la population d’où sont extraits les échantillons soit distribuée sur le modèle de la courbe normale.

 

4.1. Qui est le plus grand?

Selon l’enquête menée aux États-Unis dont nous avons parlé un peu plus haut (voir tableau 8.3), les hommes de race blanche de ce pays mesurent en moyenne 175,8 cm contre 175,5 cm pour les hommes de race noire. L’écart entre ces deux moyennes est-il significatif? Même si la notion de race est plus ou moins arbitraire*, ce genre de données peut avoir une réelle utilité pour un concepteur de vêtement ou pour un chercheur qui étudie les conséquences de certaines habitudes alimentaires. En sciences humaines, il ne faut jamais avoir peur de mesurer. Ce qui compte, c’est de traiter les chiffres avec rigueur et honnêteté.

Où l’on constate qu’il est facile de dire des âneries.

Il ne nous a pas été difficile de vérifier, à partir d’échantillons, que la taille moyenne des Scandinaves dépasse celle des Philippins, que celle des hommes dépasse celle des femmes et que celle des jeunes gens de la génération actuelle dépasse celle de leur parent. Ces faits établis, il est facile de les interpréter de façon erronée comme dans les exemples suivants : « les Scandinaves sont supérieurs aux Philippins », « tu es une femme, je suis un homme, donc je suis plus grand que toi ». On ne peut se baser sur les caractéristiques moyennes d’une population pour déduire les caractéristiques d’un individu en particulier. Ce serait faire preuve de bêtise encore plus que de racisme. D’autre part, il ne faut pas confondre différent avec inférieur. La première notion est vérifiable alors que la seconde relève d’un jugement de valeur et non de la science. Enfin, si tout le monde s’entend sur le concept de taille et sur la longueur des centimètres, il en va autrement lorsqu’on mesure l’estime de soi, le sentiment d’échec ou le quotient intellectuel. Dans ces derniers cas, il faut alors redoubler de prudence, même si les enquêtes peuvent fournir des résultats intéressants.

Étapes du test d’hypothèse sur deux moyennes

1. Formuler l’hypothèse de la façon suivante : la moyenne du premier échantillon est égale à la moyenne du second échantillon (c’est l’hypothèse nulle). Formuler aussi une hypothèse alternative qui sera retenue si on rejette l’hypothèse nulle. L’hypothèse alternative peut être formulée de trois façons selon les circonstances (c’est au chercheur de choisir) :
– Moyenne 1 ≠ Moyenne 2 (test bilatéral)
– Moyenne 1 > Moyenne 2 (test unilatéral)
– Moyenne 1 < Moyenne 2 (test unilatéral).

2. Choisir un seuil de signification. Le hasard peut faire en sorte que même si deux populations possèdent la même caractéristique moyenne, les deux échantillons tirés soient si différents qu’ils nous font rejeter l’hypothèse nulle. Quel est le risque, que nous sommes prêts à prendre, de rejeter ainsi à tort l’hypothèse nulle?

3. Trouver, à partir de la table de distribution normale, la valeur critique (ou les valeurs critiques)qui nous permettra d’accepter ou de rejeter l’hypothèse nulle. Pour cela, il faut tenir compte de l’hypothèse alternative : le test est-il unilatéral ou bilatéral? (On note que ces trois premières étapes sont les mêmes que pour le test d’hypothèse sur une moyenne vu dans la section précédente.)

4. Calculer l’écart entre les deux moyennes (ou écart réduit) de la façon suivante :

5. Décision : accepter l’hypothèse nulle si l’écart réduit que l’on vient de calculer ne déborde pas de la valeur critique (ou des valeurs critiques) définie à l’étape 3.

Application de la démarche à notre exemple

  • 1. Hypothèse nulle : « La taille moyenne des Noirs est la même que celle des Blancs ». Hypothèse alternative : « La taille moyenne des Noirs est différente de celle des Blancs. »
  • 2. Nous choisissons un seuil de signification de 0,05.
  • 3. Il s’agit d’un test bilatéral. Les valeurs critiques pour un seuil de signification de 0,05 sont de –1,96 et +1,96. L’hypothèse nulle sera rejetée si l’écart réduit n’est pas compris à l’intérieur de ces limites.
  • 4. Écart réduit :
    nous reproduisons dans le tableau 8.5 ci-après les valeurs pertinentes du tableau 8.3 accompagnées de quelques données dérivées.
    Numérateur de l’écart réduit : Moyenne1 – Moyenne2 = 175,5 – 175,8 = –0,3
    Dénominateur de l’écart réduit :
    √[(Écart type1²/n1) + (Écart type2²/n2)] = √[0,072 + 0,010] = √[0,082] = 0,286
    Écart réduit = –0,3/0,286 = –1,05
  • 5. Décision : l’écart entre les deux moyennes est trop faible pour que nous rejetions l’hypothèse nulle. Jusqu’à preuve du contraire, nous considérons que la taille moyenne des Noirs est égale à la taille moyenne des Blancs (voir la figure 8.7).

 

4.2. L’estime de soi chez les garçons et les filles

Le corps humain se transforme rapidement lors de la puberté. La taille augmente de 25 centimètres environ et le poids de 11 kilogrammes. On change de voix, on change de visage, on se demande parfois si on n’est pas dans le corps de quelqu’un d’autre. Les garçons gagnent surtout en muscles et en os, tandis que les filles gagnent plutôt en graisses. Ce changement d’image peut parfois diminuer ou accroître l’estime de soi, selon qu’il répond ou non aux stéréotypes véhiculés par la société. D’après une enquête menée au Québec*, il semble, à première vue, que ce soit les filles qui sont le plus désavantagées à cet égard (voir le tableau 8.6).

L’estime de soi a été mesurée à partir d’un questionnaire contenant 10 questions. Les 309 adolescents choisis, tous âgés de 11 à 18 ans, devaient s’autoévaluer sur une échelle ordinale de 1 à 4. Les scores pouvaient donc varier de 10 (faible estime de soi) à 40 (forte estime de soi). En prime, nous avons ajouté sur le tableau le score du test de croyances irrationnelles contenant 50 questions basées sur une échelle ordinale de 1 à 6 (plus le score est bas, plus les croyances irrationnelles sont grandes).

Le niveau d’estime de soi est-il le même chez les deux sexes? Essayons de déterminer si l’écart entre le score moyen des garçons et des filles est suffisant, compte tenu de la taille de l’échantillon, pour nous permettre de rejeter cette hypothèse.

  • 1. Hypothèse nulle : « Le niveau d’estime de soi est le même chez les deux sexes ». Hypothèse alternative : « le niveau d’estime de soi est plus faible chez les filles ».
  • 2. Nous choisissons un seuil de signification de 0,95.
  • 3. Nous avons affaire à un test unilatéral. La valeur critique, pour un seuil de signification de 0,45, est de 1,64 dans la table normale. Nous rejetterons donc l’hypothèse nulle si l’écart réduit que nous calculerons à l’étape 4 est inférieur à –1,64 (voir la figure 8.8).
  • 4. Écart réduit = (30,49 – 32,77)/√[(4,93)²/156 + (4,29)²/153] = –2,28/0,53 = –4,34.
  • 5. Décision : l’écart réduit (–4,34) est en deçà de la valeur critique (–1,64). Nous rejetons l’hypothèse nulle.


 

EXERCICES 4

1. La pensée cartésienne? Moi, je n’y crois pas du tout.

En vous basant sur les données du tableau 8.6, testez l’hypothèse suivante : le niveau de croyances irrationnelles est le même chez les filles que chez les garçons.


 

EXERCICES SUPPLÉMENTAIRES

1. Un peu de vocabulaire

a) Identifiez dans la phrase suivante : le niveau de confiance, l’intervalle de confiance et la marge d’erreur.

« Dans 95 % des cas, la proportion véritable des gens qui trouvent les tribunaux trop peu sévères se situe entre [79 % – 2,5 %] et [79 % + 2,5 %] (ou entre 76,5 % et 81,5 %). Pour faire plus journaliste, on dira aussi que, 19 fois sur 20, le résultat peut varier au maximum de plus ou moins 2,5 %. »

b) Identifiez, dans la phrase suivante : le seuil de signification, les valeurs critiques. Formulez l’hypothèse nulle.

« Étant donné que l’écart réduit entre les deux moyennes estimées dépasse 1,96 nous acceptons, avec une probabilité de nous tromper inférieure à 5 %, l’hypothèse alternative qui veut que le QI moyen des Quadrifluviens de l’Est soit différent de celui des Quadrifluviens de l’Ouest. »

2. Des réfugiées politiques

Selon une étude publiée dans Santé mentale au Québec (vol. 21, no 1, printemps 1996, par Marta Yong), un échantillon de 94 Somaliennes habitant la région d’Ottawa possède les caractéristiques suivantes :

  • L’âge des membres de l’échantillon varie de 18 à 50 ans avec une moyenne de 32,72 ans et un écart type de 8,27 ans;
  • Il y a 59 membres de l’échantillon qui sont mariées et 15 qui sont célibataires;
  • Il y a 44 % des membres de l’échantillon qui ont terminé leurs études secondaires et 29 % qui ont terminé des études universitaires (apparemment, il s’agit de deux catégories exclusives);
  • Il y a 49 % des membres de l’échantillon qui sont des résidentes permanentes et 25 % qui sont des citoyennes canadiennes;
  • Il y a 82 % des membres de l’échantillon qui ont immigré pour des raisons politiques et 13 % pour des raisons familiales.

(On suppose que l’échantillon est aléatoire.)

a) Identifiez les cinq variables dont il vient d’être question, indiquez leur échelle de mesure, et indiquez leurs catégories s’il s’agit de variables qualitatives.

b) Faites une estimation de l’âge moyen, pour un niveau de confiance de 0,95.

c) Calculez la marge d’erreur des proportions, pour un niveau de confiance de 0,95.

3. Test controversé sur des crânes

Le tableau 8.7 ci-après reproduit les données d’Ernest Hooton dont il a été question dans ce chapitre.

a) Testez l’hypothèse selon laquelle les manœuvres ont la même circonférence moyenne de tête que les membres de la population en général. (Utilisez un seuil de signification de 0,05.)

b) Testez l’hypothèse selon laquelle la circonférence moyenne de la tête des cadres est la même que celle des manœuvres. (Utilisez un seuil de signification de 0,05.)

4. Laboratoire

a) À l’aide d’un chiffrier électronique, construisez un tableau vous permettant de calculer automatiquement l’erreur type et le coefficient de variation à partir des données pertinentes (vous pouvez vous inspirer du tableau 8.2b).

5. Recherche : une taxe bien visible

Au Canada, les taxes de vente sont rarement incluses dans les prix affichés. Les porte-parole gouvernementaux prétendent que cette manière d’agir favorise la transparence en permettant aux consommateurs-contribuables de « voir » les taxes. Vous devez faire une mini-enquête pour vérifier, dans la mesure de vos moyens, si ce point correspond à la réalité.

Sélectionnez un échantillon de 30 à 50 personnes, en faisant en sorte, si possible, qu’il soit relativement représentatif. Posez à ces personnes des questions pour vérifier:

1) s’ils connaissent le taux de la taxe de vente fédérale (TPS) et de la taxe provinciale pour divers produits (vêtements, aliments, bière, livres, etc.);

2) s’ils ont tendance, de façon spontanée, à sous-estimer la taxe lorsque les prix sont hauts et à la surestimer lorsque les prix sont bas (ou l’inverse);

c) s’ils trouvent que la façon d’afficher les prix sans la taxe favorise la transparence.

Identifiez les variables correspondant à chaque question et les échelles de valeurs qui leur sont associées. Compilez les résultats. Calculez la marge d’erreur des proportions (en faisant la supposition que votre échantillon est aléatoire). Si vous le pouvez, faites des hypothèses et vérifiez-les. Commentez les résultats.

6. Recherche : la taille des gens de votre entourage

Dans cette mini-enquête, vous allez essayer d’estimer la taille moyenne des gens de votre entourage afin de la comparer à celle des Canadiens en général (176,2 cm pour les hommes avec un écart type de 7 cm, et 161,9 cm pour les femmes avec un écart type de 6 cm).

a) Définissez la population dont vous voulez estimer la taille : lieu (quartier, région, institution), sexe, âge (adultes, enfants de 12 ans), etc.

b) Sélectionnez un échantillon d’au moins 30 personnes appartenant à la population que vous avez définie, en faisant en sorte, dans la mesure du possible, que l’échantillon soit représentatif.

c) Faites une estimation de la taille moyenne de votre population et calculez l’intervalle de confiance correspondant, pour un niveau de confiance de 0,95.

d) Testez l’hypothèse suivante : « la taille moyenne de la population observée est la même que celle de la population canadienne en général ».