Le suréchantillonnage est souvent mal compris comme une méthode d'études qui introduit un biais dans les résultats ou les données. Dans cet article, nous démontrerons qu'il est, en fait, un outil important et nécessaire pour réduire le biais dans les études sociales et de marché. En pratique, il nécessite des calculs mathématiques complexes, mais nous laisserons de côté les complexités pour nous concentrer sur les concepts généraux.
Interprétations difficiles sans suréchantillonnage
Pour votre projet d'études de marché ou sociales, vous pourriez étudier un échantillon de 300 personnes. Si nous utilisions un échantillon vraiment aléatoire, n=300 nous donnerait une marge d'erreur d'environ 6 points de pourcentage.
Dans un échantillon de 300 personnes des États-Unis, il y aurait probablement environ 6 personnes avec un doctorat (2 %), 24 personnes âgées de 74 ans ou plus (8 %) et 45 personnes dans des foyers de 3 personnes (15 %). Encore une fois, en supposant un échantillon vraiment aléatoire, la marge d'erreur serait d'environ 14 points pour le sous-échantillon de 45 personnes dans des foyers de 3 personnes, d'environ 20 points pour le sous-échantillon de 24 personnes âgées de 74 ans ou plus, et d'environ 45 points pour le sous-échantillon de 6 personnes avec un doctorat.
Effectuons une enquête en ligne hypothétique pour illustrer cela. Nous avons demandé aux gens s'ils préféraient la nouvelle saveur A ou la nouvelle saveur B ajoutée à leur paquet préféré de bonbons fruités. Notre outil d'analyse d'enquête révèle que 69 % des 300 personnes préfèrent la saveur B. Sachant que les erreurs d'échantillonnage et non d'échantillonnage peuvent s'infiltrer dans les données à de nombreux endroits, nous utilisons la marge d'erreur pour apprendre que la vérité est probablement quelque part entre 63 % et 75 %. Nous pouvons être confiants que, globalement, les gens préfèrent la saveur B.

Cependant, interpréter les résultats des sous-échantillons n'est pas simple. En raison de leurs hautes marges d'erreur, il est difficile d'être confiant quant aux saveurs que les gens préfèrent. Les personnes dans les foyers de trois personnes préfèrent probablement la saveur A, comme la plus haute marge d'erreur le suggère, jusqu'à 25 % peuvent préférer la saveur B. Pendant ce temps, les personnes âgées de 74 ans ou plus préfèrent probablement la saveur B. Cependant, les personnes avec un doctorat pourraient facilement préférer A ou B. Il est impossible de savoir. Les énormes marges d'erreur pour les petits sous-échantillons obscurcissent complètement les préférences réelles.
Le suréchantillonnage apporte de la confiance dans la prise de décision
Maintenant, faisons les choses différemment. Prenons toujours un échantillon aléatoire de 300 personnes car nous devons préserver les caractéristiques démographiques et la représentation de la population au sein d'un échantillon de taille appropriée. Mais cette fois, ajoutons des personnes supplémentaires afin que chacun des sous-échantillons ait 50 personnes. Aux 300, nous suréchantillonnerons 5 personnes dans des foyers de 3 personnes, 26 personnes âgées de 74 ans ou plus, et 44 personnes avec un doctorat pour un nouveau total de 375 personnes.
Ces ajouts signifient que les personnes dans les foyers de trois personnes représentent maintenant 13 % au lieu de 15 % de l'échantillon, les personnes âgées de 74 ans ou plus représentent maintenant 13 % au lieu de 8 %, et les personnes avec un doctorat représentent maintenant 13 % au lieu de 2 %. En augmentant chaque sous-échantillon à 50 personnes, nous avons perdu la représentativité de la population, mais nous avons amélioré la marge d'erreur.
Maintenant que nous avons des tailles de sous-échantillon plus grandes, le Tableau 2 montre des scores de préférence plus précis parmi les sous-échantillons : seulement 5 % des personnes dans des foyers de 3 personnes, 65 % des personnes âgées de 74 ans ou plus, et 10 % des personnes avec un doctorat préfèrent B. Après avoir pris en compte les marges d'erreur, nous réalisons que les personnes dans des foyers de 3 personnes préfèrent A, les personnes âgées de 74 ans ou plus préfèrent B, et les personnes avec un doctorat préfèrent A. Et, parmi les 375 personnes au total, 59 % préfèrent B.

Comment s'assurer que le suréchantillonnage n'introduit pas de biais
Bien que nous puissions déterminer que 59 % des 375 personnes préfèrent B, ce score ne reflète pas la population car nous avons suréchantillonné sur trois caractéristiques. Au lieu de cela, nous devons rapporter un score de préférence où les personnes dans des foyers de 3 personnes sont 15 % et non 13 % de l'échantillon, les personnes âgées de 74 ans ou plus sont 8 % et non 13 %, et les personnes avec un doctorat sont 2 % et non 13 %.
En pondérant les résultats totaux selon ces pourcentages, nous pouvons déterminer que 66 % de l'échantillon total préfèrent la saveur B. Avec la marge d'erreur, nous savons que la vérité se situe probablement entre 60 % et 72 %. Nous pouvons être confiants que la population préférerait la saveur B.
Le suréchantillonnage nous a apporté deux avantages majeurs. D'abord, nous avons découvert que l'utilisation de tailles d'échantillon insuffisamment petites a conduit à une surestimation des préférences pour la saveur B parmi les sous-échantillons. Et, nous avons légèrement surestimé la préférence globale pour la saveur B parmi l'échantillon total. En exploitant le suréchantillonnage, nous avons réduit le biais d'échantillon et augmenté la précision pour à la fois l'échantillon total et les trois sous-échantillons.
Résumé
Choisir parmi des saveurs, des formes, des tailles et des couleurs n'est pas nécessairement révolutionnaire mais cela peut l'être. Par exemple, nous pourrions avoir besoin de comprendre quelle forme d'emballage faciliterait l'ouverture des médicaments par les personnes, quel ensemble d'instructions convaincrait davantage de personnes à terminer leurs médicaments, ou quelle couleur de signalisation attirerait les gens dans un établissement de santé. Il y a des
situations commerciales et d'études infinies où il est profondément important que la précision par le suréchantillonnage et la pondération soit atteinte.
Le suréchantillonnage et la pondération ne sont pas des concepts faciles à saisir, et ils ne sont pas statistiquement simples à mettre en œuvre. Heureusement, parce que nous disposons de logiciels spécialisés et de statisticiens experts à nos côtés, la plupart des professionnels des études n'ont besoin que de comprendre pourquoi le suréchantillonnage et la pondération sont importants, comment ils fonctionnent généralement, et quand rapporter les résultats pondérés et non pondérés.
Si vous souhaitez en savoir plus sur l'échantillonnage et la pondération, n'hésitez pas à contacter l'un de nos experts en enquêtes. Nous serions heureux de vous aider à naviguer dans cette technique essentielle !