Normes et lignes directrices sur l'échantillonnage

Le point de départ pour les membres du comité a été une section du rapport sur les sondages téléphoniques intitulée Développement des bases de sondage et échantillonnage.

Les membres du comité ont pris en compte les points suivants :

  • la modification d'une « procédure d'échantillonnage » générale pouvant s'appliquer à toutes les méthodes d'échantillonnage;
  • la modification des normes relatives à l'échantillonnage pour les sondages probabilistes;
  • les circonstances en vertu desquelles un échantillon de visiteurs d'un site Web intercepté peut constituer un échantillon probabiliste;
  • les sondages non probabilistes : la méthode d'échantillonnage téléphonique par CA (composition aléatoire) qui permet de tirer un échantillon aléatoire parmi le public en général n'a pas d'équivalent pour les sondages en ligne. Il en résulte qu'il est possible que les sondages non probabilistes peuvent être plus fréquents dans l'environnement des sondages en ligne. Plusieurs sujets concernant l'échantillonnage ont été examinés en ce qui a trait aux sondages non probabilistes :
    • traitement statistique : rapport sur la marge d'erreur de l'échantillonnage, et tests sur la valeur significative/statistique des écarts;
    • si les membres du comité devraient oui ou non donner des orientations par rapport à la détermination de la taille de l'échantillon;
    • la modification d'une norme relative au sondage non probabiliste qui se trouve dans le rapport sur les sondages téléphoniques;
    • une norme relative à la justification du recours à des sondages non probabilistes;
    • une norme visant à maximiser la représentativité des échantillons des sondages non probabilistes;
    • si les membres du comité devraient oui ou non fournir des orientations par rapport à l'utilisation appropriée/acceptable des sondages non probabilistes.
  • Les sondages qui sont des tentatives de recensement : les membres du comité ont étudié la question de savoir si les tentatives de recensement devraient être séparées en tant que méthode différente d'échantillonnage aux fins de la spécification des normes et des lignes directrices. Un élément clé de cette décision était de savoir si oui ou non le traitement statistique des données provenant des tentatives de recensement est différent de celui qui convient aux sondages probabilistes.

Normes générales relatives aux procédures d'échantillonnage

On retrouve dans le rapport sur les sondages téléphoniques la norme qui suit en rapport avec le titre « procédures d'échantillonnage » : toutes les entreprises de recherche doivent définir précisément le groupe cible (l'univers) pour le projet d'étude de recherche et indiquer clairement la méthode qui sera utilisée pour obtenir un échantillon représentatif de ce groupe cible.

Le comité consultatif sur les sondages en ligne a recommandé une version révisée de cette norme pour ajouter les exigences suivantes : (1) il doit indiquer explicitement si les non usagers de l'Internet font partie ou non de la définition de la population cible d'un sondage, et (2) indiquer la méthode d'échantillonnage choisie, c.-à-d. s'il s'agit d'un échantillon probabiliste, d'une tentative de recensement ou d'un sondage non probabiliste.

Normes - Procédure générale d'échantillonnage

Toutes les entreprises de recherche doivent :

  • énoncer clairement la définition du groupe cible (universelle) utilisée pour la recherche, en ce qui concerne une recherche en ligne, cela inclut un énoncé clair indiquant si les personnes qui n'utilisent pas l'Internet font partie ou non de la définition du groupe cible;
  • énoncer clairement la(les) méthode(s) employée(s) pour obtenir un échantillon représentatif de ce  groupe cible,  indiquant si la méthode est une enquête probabiliste aléatoire, un recensement ou un sondage non probabiliste.

Normes relatives à l'échantillonnage pour les sondages probabilistes aléatoires

Le rapport sur les sondages téléphoniques présente des normes d'échantillonnage pour les échantillons probabilistes. Les membres du comité consultatif recommandent l'adoption de ces normes pour les sondages en ligne probabilistes et que le texte soit modifié pour convenir aux sondages en ligne plutôt qu'aux sondages téléphoniques.

Normes - Sondages probabilistes aléatoires

  • La liste ou la source de l'échantillon doit être clairement énoncée, y compris toute limitation ou exclusion qui réduit l'universalité de la représentation de l'échantillon cible et la possibilité de biais.
  • Une description complète du plan de sondage et de la procédure de sélection, dont :
    • les variables de stratification de l'échantillon (le cas échéant);
    • toutes les étapes d'échantillonnage à plusieurs degrés;
    • à chaque stade de l'échantillonnage, la méthode suivie pour atteindre une sélection aléatoire systématique doit être expliquée, et tous les sous-ensembles de l'univers qui ont été exclus ou sont sous représentés (p. ex. les personnes qui n'utilisent pas l'Internet);

      Note : lorsque c'est possible, une estimation de la proportion de l'univers qui a été exclue ou est sous-représentée doit être fournie.

    • le nombre d'appels de relance et la procédure d'appel de relance doivent être indiqués;
    • l'admissibilité des répondants ou les critères de présélection, y compris tous les contrôles de quotas utilisés (p. ex. la région, le sexe).
  • Si l'on a présumé qu'une procédure d'échantillonnage probabiliste appropriée a été suivie, il faut énoncer l'erreur d'échantillonnage en se basant sur une taille donnée de l'échantillon selon un niveau de confiance donné. Les entreprises de recherche doivent cependant veiller à :
    • ne pas amener le client à croire à tort qu'une erreur d'échantillonnage citée sur l'échantillon total sera la même que celle qui a été établie pour un sous-ensemble de l'échantillon total;
    • exprimer si possible les erreurs d'échantillonnage en se reportant à la nature particulière des variables les plus importantes ou caractéristiques du sondage.
  • Indiquer qu'il existe de nombreuses sources possibles d'erreur autres que d'échantillonnage et inclure un renvoi aux autres sources possibles d'erreur de toute étude de manière à de ne pas donner une fausse impression sur l'exactitude et la précision d'ensemble des résultats.

Échantillons de visiteurs interceptés sur un site Web

On a demandé au comité de se prononcer sur les circonstances où un échantillon de visiteurs interceptés sur un site Web peut constituer un échantillon probabiliste.

Les membres du comité en sont venus à un consensus à la fois en ce qui concerne le moment où un échantillon de visiteurs de sites Web se qualifie comme un échantillon probabiliste et sur certaines lignes directrices relatives à la réalisation de sondages à partir de visiteurs interceptés sur les sites Web.

Un échantillon de visiteurs interceptés sur un site Web constitue un échantillon probabiliste lorsque les deux conditions suivantes sont satisfaites :

  • si pendant la période de temps que dure le sondage sur le terrain le nombre de visiteurs du site Web peut être évalué et que des invitations sont transmises à un échantillon aléatoire de ces visiteurs;
  • si la population est définie comme étant l'ensemble des visiteurs du site Web durant la période de temps où le sondage est effectué.

Il est important de garder en tête le dernier point lorsqu'on planifie un sondage à partir des visiteurs interceptés sur le site Web et d'indiquer le besoin de considérer soigneusement la définition de la période de temps durant laquelle le sondage est effectué. Par exemple, il peut être désirable de se doter d'une période prolongée de travail sur le terrain pour agrandir la population cible.

Dans le cas des études fondées sur les visiteurs interceptés sur les sites Web, les résultats du sondage ne peuvent pas être utilisés pour tirer des conclusions qui s'appliquent à une population autre que celle pour laquelle l'échantillon a été conçu. Ceci est dû au fait que la définition du groupe cible a un impact direct sur la façon dont l'échantillon va être traité comme un échantillon probabiliste ou non probabiliste aux fins d'analyses ou de présentation de rapport, par exemple :

  • si le sondage sur le terrain a été effectué durant une période d'un mois, mais que le rapport d'enquête définit la population cible comme les gens qui ont visité le site Web au cours de la dernière année, l'échantillon doit alors être considéré comme un échantillon non probabiliste;
  • si le sondage intercepte les visiteurs d'un site Web particulier, mais que le rapport définit la population cible comme étant les visiteurs des sites Web du gouvernement, l'échantillon doit alors être considéré comme un échantillon non probabiliste.

Le texte ci-dessus décrit les critères en vertu desquels un échantillon des visiteurs d'un site Web constitue un échantillon probabiliste. Une interception des visiteurs d'un site Web constitue une tentative de recensement si le premier critère de sondage définit que des invitations sont adressées à tous les visiteurs durant la période d'étude sur le terrain, plutôt qu'un échantillon aléatoire de visiteurs.

Lignes directrices relatives aux sondages effectués par interception des visiteurs d'un site Web

Voici les pratiques exemplaires recommandées lorsqu'on effectue un sondage par interception des visiteurs d'un site Web :

  • éudier les visiteurs du site Web pour déterminer le point d'entrée au site commun. Placer simplement l'invitation sur une page de redirection peut ne pas être suffisant pour obtenir un bon échantillon des visiteurs sur site Web;
  • utiliser une méthode appropriée pour maximiser l'accessibilité, c.-à-d. une méthode pour la redirection;
  • assurez-vous de minimiser les chances qu'un visiteur soit plus d'une fois invité à remplir le questionnaire.

Sondages non probabilistes

Aperçu

L'obtention de résultats permettant de prendre des mesures et statistiquement fondés pose un défi important lorsqu'on effectue des sondages d'opinion publique en ligne. Il faut souligner qu'il n'existe aucun équivalent pour les sondages en ligne de la méthode de composition aléatoire (CA) utilisée lors des sondages téléphoniques pour tirer un échantillon probabiliste du public.

Les panels d'accès dirigés par les fournisseurs de recherche de même que ceux développés et gérés par les ministères/agences du gouvernement du Canada sont significatifs du point de vue de la recherche sur l'opinion publique (ROP), car ils peuvent potentiellement être utilisés pour mener des sondages en ligne auprès du public. Toutefois, on considère souvent que ces panels sont fondés sur des échantillons non probabilistes : l'exactitude pose problème, on ne peut invoquer aucune marge d'erreur et souvent aucun test de signification des écarts entre les sous-groupes ne peut être offert.

L'industrie de la recherche effectue un travail considérable afin de surmonter ces limites, et des résultats prometteurs sont en vue – par exemple les prédictions des résultats électoraux aux É-U. (Note : nous avons choisi de citer cet exemple, car il s'agit d'un domaine où l'industrie a publié des données exactes). L'exactitude des données publiées est impressionnante, particulièrement lorsqu'il s'agit de prédire les résultats pour une population qui inclut des personnes qui n'utilisent pas l'Internet. Toutefois, plusieurs progrès méthodologiques et validations empiriques sont requis avant qu'on ne puisse utiliser les sondages non probabilistes avec autant de confiance que les sondages probabilistes en ce qui a trait à l'exactitude et à la précision de la description de la population cible.

À l'heure actuelle, les résultats des sondages non probabilistes devraient être utilisés avec prudence :

  • lorsque les enjeux sont élevés en terme d'impact sur les politiques importantes, les décisions relatives aux programmes ou aux budgets, l'utilisation d'un échantillon probabiliste lors de la conception de la recherche est de beaucoup préférable; les sondages non probabilistes sont bons pour les études exploratoires, pour aider à mieux comprendre la portée et le genre d'opinions du public face à une question et pour les concepts expérimentaux, pour comparer l'impact de divers stimuli (par exemple différents concepts publicitaires, différents concepts de site Web, etc.);
  • voici les normes et les lignes directrices recommandées pour les échantillons non probabilistes :
    • officialisez les avertissements à l'égard des échantillons non probabilistes en termes de considérations requises pour certaines questions et de la publication de ces considérations (par exemple les normes de justification, normes d'échantillonnage, normes relatives au traitement statistique, lignes directrices concernant l'évaluation de la représentativité);
    • encouragez l'attention portée à la maximisation de l'exactitude potentielle des résultats (normes pour maximiser la représentativité, ligne directrice concernant l'évaluation de la représentativité).

Les membres du comité consultatif recommandent que le gouvernement du Canada suive les développements méthodologiques relatifs aux sondages non probabilistes et qu'il participe activement à l'évolution de cette méthode de sondage en effectuant des recherches fondées sur ses propres recherches sur l'opinion publique. On peut être optimiste par rapport à la croissance future de la portée de l'utilisation appropriée des sondages non probabilistes, dans la mesure où certaines conditions sont respectées.

Les membres du comité ont accordé une attention importante à divers sujets associés aux sondages non probabilistes. Les sujets étudiés peuvent être divisés en deux groupes :

Normes et lignes directrices

  • Traitement statistique : marge d'erreur de l'échantillonnage, test de signification statistique des écarts, incluant les rapports sur les écarts entre les sous-groupes.
  • Énoncé de l'AAPOR (American Association for Public Opinion Research) pour indiquer pourquoi la marge d'erreur de l'échantillonnage ne devrait pas être rapportée.
  • Normes générales d'échantillonnage pour les sondages non probabilistes.
  • Justification du recours à un sondage non probabiliste.
  • Maximiser la représentativité des sondages non probabilistes.

Lignes directrices

  • Lignes directrices relatives à la définition de la taille de l'échantillon.
  • Lignes directrices relatives aux utilisations appropriées/acceptables des sondages non probabilistes.

Note : cette section traite de tous les sujets abordés plus haut. Les recommandations qui touchent les autres sections du rapport – par exemple les documents du projet de recherche et les renseignements sur l'enquête – ont été également intégrés dans ces autres sections.

Les membres du comité ont fait les recommandations suivantes en ce qui concerne les normes et les lignes directrices relatives aux sondages non probabilistes.

Normes relatives aux sondages non probabilistes

Justification pour le recours aux sondages non probabilistes

  • Lorsqu'on a recours à un sondage non probabiliste, le choix doit être justifié dans le projet de recherche et le rapport de recherche. La justification doit tenir compte des limites statistiques imposées par des données tirées d'un échantillon non probabiliste et des limites quant à la généralisation des résultats à la population cible.

Échantillonnage pour échantillon non probabiliste

  • Comme c'est le cas pour l'échantillonnage probabiliste, il faut faire état de la liste ou de la source de l'échantillon, y compris ses limites concernant les estimations de population de l'échantillon cible.
  • Il faut donner une description complète des contrôles appliqués aux variables de classification régionale, démographique ou d'autre nature utilisées pour équilibrer l'échantillon et en assurer la représentativité.
  • Il faut énoncer les cibles de contrôle des quotas et les critères de présélection exacts, y compris la source de ces cibles (p. ex. données du recensement ou autre source de données).
  • Il faut faire état, dans le rapport, des écarts comparativement à la cible (chiffres réels comparés à la cible).

Maximiser la représentativité des échantillons non probabiliste

  • Dans la mesure où les résultats seront utilisés pour se prononcer à propos d'une population, des mesures doivent être prises pour maximiser la représentativité de l'échantillon par rapport à la population cible et on doit documenter ces mesures dans le projet de recherche et dans le rapport d'enquête (dans le présent contexte, le mot « représentativité » est utilisé au sens large). Ces mesures peuvent inclure, par exemple, un choix de méthodes d'échantillonnage qui offrent un plus grand contrôle sur les caractéristiques et la composition de l'échantillon (par exemple panel d'accès versus « river sampling », l'utilisation de caractéristiques démographiques et autres pour la construction de l'échantillon et le recours à des mécanismes de pondération.
  • Le rapport d'enquête doit discuter du niveau de succès probable au niveau de la détermination d'un échantillon représentatif par rapport aux variables principales du sondage et des limites ou des incertitudes relatives au niveau de représentativité atteinte.

Traitement statistique des échantillons non probabilistes

  • On ne peut parler de marges d'erreur d'échantillonnage pour les estimations de population dans le cas d'échantillons non probabilistes.
  • Le rapport d'enquête doit expliquer ce fait, en se fondant sur l'énoncé suivant : « Les répondants à ce sondage ont été recensés parmi ceux [qui se sont portés volontaires ou qui se sont inscrits pour participer au sondage en ligne]. [S'il y a eu pondération, ajouter l'énoncé suivant :] Les données ont fait l'objet d'une pondération afin de représenter la composition démographique de (la population cible). Étant donné que l'échantillon est basé sur les personnes qui se sont portées volontaires pour participer [au panel], on ne peut donner une estimation des erreurs d'échantillonnage. »
  • Cet énoncé doit être mis en évidence dans les descriptions de la méthode comprises dans le rapport d'enquête.
  • Dans le cas de sondages non probabilistes, les tests d'hypothèse statistiques ou autres processus par inférence visant à comparer les résultats des sous-groupes ou faire des inférences statistiques sur la population ne s'appliquent pas. Le rapport d'enquête ne peut comporter d'énoncé sur les différences entre les sous-groupes ou toute autre observation qui présuppose des tests statistiques (par ex. le rapport ne peut affirmer qu'une différence est « significative »).

    Toutefois, la statistique descriptive est permise, notamment la description des différences applicables aux types de variables et de relations que l'on retrouve dans les analyses. Toute utilisation d'une telle statistique descriptive doit indiquer clairement qu'elle n'est applicable qu'à l'échantillon faisant l'objet de l'étude et qu'elle ne peut être généralisée, et que l'échantillon ne peut en aucun cas représenter, par inférence, une population plus importante.

    L'exception à cette règle est les sondages non probabilistes où des répondants sont aléatoirement affectés à des cellules différentes dans le cadre d'un concept expérimental. Dans ce cas, on peut faire appel à des tests d'hypothèse statistiques pour comparer les résultats obtenus des différentes cellules du concept.

Lignes directrices relatives aux sondages non probabilistes

Évaluation de la représentativité des échantillons non probabilistes

  1. Les preuves confirmant que l'échantillon obtenu pour un sondage non probabiliste correspond bien à la population cible en ce qui concerne les paramètres connus devraient être présentées si possible. Pour ce faire, utilisez des sources de données de haute qualité comme Statistique Canada ou des sondages probabilistes bien conçus effectués antérieurement.
  2. En ce qui concerne l'importance des ressources et des sondages, tenez compte de ce qui suit :
    • inclure de façon proactive dans différents sondages non probabilistes des questions communes qui peuvent être utilisées de façon continue pour comparer les résultats obtenus à l'aide de différentes méthodes de sondage – par exemple, les résultats apportés par des questions communes pourraient être comparés lorsqu'elles sont demandées dans un sondage téléphonique du groupe cible et dans un sondage probabiliste en ligne du même groupe cible;
    • utilisez une méthode mixte pour un projet de sondage afin de pouvoir, par exemple, effectuer une comparaison entre les résultats produits par une composante probabiliste du sondage et une composante non probabiliste du sondage ou permettre l'exploration des effets de mode du questionnaire pour déterminer si un mode particulier peut apporter des réponses plus réalistes, plus honnêtes ou plus élaborées qu'un autre mode.

Traitement statistique des sondages non probabilistes

  • Songez à utiliser d'autres moyens pour placer des statistiques descriptives dans leur contexte, par exemple :
    • Si des études similaires ont déjà été effectuées, il pourrait être utile d'indiquer comment les valeurs statistiques obtenues dans l'étude se comparent aux études effectuées dans le passé.
    • En ce qui a trait aux statistiques comme les corrélations, faites référence aux guides indiquant ce qui est considéré comme une valeur faible, moyenne ou élevée des statistiques descriptives corrélatives.

    Vous trouverez ci-après des notes supplémentaires issues des discussions des membres du comité en ce qui a trait aux normes et aux lignes directrices discutées précédemment.

Normes relatives à la « Justification »

L'intention de normes relatives à la justification est d'assurer que les limites d'ordre statistique associées aux sondages non probabilistes sont prises en compte lors de la planification et de la présentation de rapports sur des sondages de ce genre.

Cela dit, comme nous l'avons noté au début de cette section, un travail considérable est présentement effectué par l'industrie de la recherche pour outrepasser ces limites statistiques et il existe des développements et des résultats intéressants. Il se peut que l'avenir apporte des solutions à ces problèmes statistiques.

Normes pour « maximiser la représentativité » et lignes directrices pour « l'évaluation de la représentativité »

Le mot « représentativité » peut être interprété de diverses façons et certaines discussions ont porté sur la pertinence de définir ce terme de façon plus précise. Toutefois, les membres du comité ont décidé que le terme devrait être utilisé dans son sens le plus large pour l'instant, en considérant qu'au fur et à mesure que la méthodologie relative aux sondages en ligne et les expériences se développent au fil du temps la signification de « maximiser la représentativité » pourrait être précisée plus tard.

En ce qui concerne les lignes directrices relatives à « l'évaluation de la représentativité » :

  • la première ligne directrice a été suggérée par les membres du comité dans le contexte d'un accord général sur le fait qu'on ne peut pas associer une marge d'erreur d'échantillonnage dans le cas d'un sondage non probabiliste. Comme un des membres du comité l'a indiqué, il pourrait y avoir une comparaison démographique avec les données du recensement, ou une comparaison avec les résultats d'études similaires dont les variables dépendantes sont également similaires. Cela pourrait apporter une certaine perspective sur le degré « d'erreur » dans les estimations de population;
  • la seconde ligne directrice a été suggérée par le comité en ce qui concerne à la fois l'évaluation de la représentativité pour les sondages particuliers et le développement de cadre de travail élargi permettant d'explorer les questions relatives aux sondages en ligne et d'autres méthodologies par le truchement de recherches méthodologiques qui font usage d'études de recherche sur l'opinion publique existante.

    En ce qui concerne ce dernier aspect des lignes directrices recommandées :

    • une suggestion était d'inclure dans le sondage des variables d'attitude/évaluatives afin de permettre d'explorer les changements qui peuvent s'être produits au fil du temps en ce qui concerne les éléments non démographiques d'un sondage en ligne. On a toutefois également noté que l'obtention d'un accord sur ces variables peut constituer un défi, et que cela pourrait plus facilement être réalisé au niveau des ministères ou agences particuliers;
    • certains membres du comité ont particulièrement appuyé l'utilisation d'une méthode mixte. Bien que les concepts mixtes puissent potentiellement entraîner une hausse du coût d'une étude, on a suggéré que les méthodes mixtes peuvent s'avérer utiles non seulement pour évaluer la représentativité d'un sondage précis, mais également comme moyen de créer des ensembles de données qui peuvent permettre d'explorer comment les résultats des sondages en ligne et leur couverture évoluent au fil du temps par rapport à d'autres méthodes (sondages téléphoniques en particulier). Cette dernière suggestion pourrait être utile à l'avenir lorsqu'il sera peut-être approprié de revoir les normes et les lignes directrices relatives aux sondages en ligne.

Normes et lignes directrices relatives au « traitement statistique »

En ce qui concerne les deux premières normes relatives à la marge d'erreur d'un échantillon :

  • les membres du comité appuient la position de l'ARIM à l'effet que les entreprises de recherche doivent « éviter de faire référence à la marge d'erreur sur les estimations de population lorsqu'elles n'utilisent pas des échantillons probabilistes. »;
  • l'énoncé sur la divulgation concernant la non-publication d'une marge d'erreur pour un échantillon est modelée sur un énoncé de l'AAPOR.

En ce qui a trait à la norme relative à « l'utilisation d'un test de la valeur significative/statistique pour déterminer si oui ou non les différences entre deux groupes sont réelles », la plupart des membres du comité étaient d'avis qu'il n'est pas approprié de faire des rapports sur les tests de la valeur significative/statistique lorsqu'on utilise un échantillon non probabiliste.

Un des membres du comité soutenait toutefois une position différente quant au rapport sur les tests de signification statistique. Selon lui, le test de la valeur significative/statistique appliqué à des sous-groupes est valable dans la mesure où l'on mentionne que les résultats doivent être interprétés avec prudence puisque les différences peuvent ne pas être représentatives de la population (par exemple les échantillons de commodité d'étudiants, de consommateurs, etc.) et que c'est dans ce genre de recherches que l'on trouve souvent des tests de la valeur significative/statistique sur les différences entre les sous-groupes. Le membre du comité était d'avis qu'il est raisonnable que les ROP du GC suivent ces pratiques communes pour les recherches en sciences sociales. Le membre croyait également qu'il existe de très bons arguments en faveur de la représentativité des échantillons non probabilistes. Cela a apporté plus d'appuis à la préparation de rapports sur l'écart statistiquement significatif entre sous-groupes.

« Lignes directrices » relatives à la définition de la taille de l'échantillon pour les sondages non probabilistes

On a demandé aux membres du comité quelles sont, s'il en existe, les lignes directrices qui devraient être fournies en ce qui concerne la définition de la taille des échantillons pour les sondages non probabilistes étant donné que le concept de la marge d'erreur de l'échantillon ne s'applique pas à ce genre d'échantillon lorsqu'on veut évaluer les paramètres d'une population. La question est que la marge d'erreur offre une mesure pour évaluer les tailles d'échantillons possibles et que sans cette mesure, d'autres critères doivent être utilisés pour décider de la taille appropriée de l'échantillon.

Les membres du comité ont fait les recommandations suivantes par rapport aux lignes directrices.

Lignes directrices relatives à la définition de la taille de l'échantillon pour les sondages non probabilistes

Puisque les échantillons non probabilistes ne peuvent pas être utilisés pour produire des inférences sur la population, le nombre de cas n'a pas d'effet sur la précision des estimations de population produites. Néanmoins, certains facteurs doivent être pris en compte lorsqu'on définit la taille d'un échantillon pour un sondage non probabiliste, incluant :

  • la description des données de l'échantillon : la taille de l'échantillon devrait prendre compte de la complexité de l'analyse descriptive qui sera présentée. Par exemple :
    • ne considérez pas seulement l'échantillon total, mais également le nombre et l'importance de l'incidence des sous-groupes au sein de l'ensemble de l'échantillon à propos duquel des statistiques descriptives seront présentées;
    • en ce qui concerne les analyses descriptives multivariables, la taille de l'échantillon devrait être suffisante pour appuyer ce genre d'analyse.
  • maximisez la représentativité de l'échantillon : pour adhérer aux normes relatives à la maximisation pour les sondages non probabilistes, une personne doit tenir compte du nombre et de l'importance de l'incidence des différents sous-groupes jugés importants afin de prétendre de façon crédible à une représentativité apparente.

« Lignes directrices » relatives aux utilisations courantes appropriées et inappropriées des sondages non probabilistes pour les recherches sur l'opinion publique menées par le GC

Les membres du comité étaient divisés en deux camps en ce qui concerne la présentation de lignes directrices relatives au caractère approprié ou inapproprié du recours à des échantillons non probabilistes pour les recherches sur l'opinion publique :

  • Plusieurs membres du comité étaient d'avis qu'aucune ligne directrice additionnelle ne devrait être énoncée en se basant sur le fait que les diverses normes et lignes directrices déjà recommandées par les membres du comité au sujet des échantillons non probabilistes sont suffisantes. Aux fins de référence, ces normes et lignes directrices traitent des domaines suivants :

    Normes :

    • Maximiser la représentativité de l'échantillon
    • Traitement statistique
    • Justification du recours à des sondages non probabilistes

    Lignes directrices :

    • Évaluation de la représentativité
    • Traitement statistique

    En travaillant avec ces normes et ces lignes directrices, il devrait être du ressort des chercheurs effectuant un projet précis de tirer les conclusions qui s'imposent par rapport à l'utilisation d'un échantillon non probabiliste pour le projet en question.

  • Plusieurs membres du comité étaient d'avis que le comité devrait au moins énoncer des exemples des utilisations les plus appropriées de sondages non probabilistes dans le contexte de la recherche sur l'opinion publique, même si ces exemples ne sont pas fournis comme des lignes directrices.

Les points qui suivent sont ceux qui ont suscité le plus d'accords entre les membres du comité :

  • Bien que des progrès encourageants aient été réalisés en ce qui concerne l'exactitude qui peut être atteinte en utilisant des échantillons non probabilistes, il n'existe pas encore de preuves empiriques (ou théoriques) suffisantes de l'exactitude et de la précision des estimations de population pour justifier l'utilisation d'échantillons non probabilistes comme alternative aux échantillons probabilistes.

    Par exemple, on a discuté de la capacité d'utiliser des sondages non probabilistes pour prédire les résultats électoraux aux É.-U. Le niveau de précision atteint est impressionnant, plus précisément des résultats pour une population qui inclut des non-utilisateurs d'Internet. Par contre :

    • les exemples publiés se concentrent sur la prédiction du vote total, mais la question de savoir si on peut prédire les résultats pour un sous-groupe précis demeure sans réponse. Il s'agit d'une question portant essentiellement sur l'exactitude des analyses « multivariables ». Les analyses de ce genre sont souvent importantes dans le domaine des sondages en ROP, par exemple pour comprendre comment les résultats varient en fonction des régions, du sexe, de l'âge, etc.;
    • on ne peut pas assumer que la capacité de prédire le comportement des électeurs signifie que la capacité de prédire d'autres genres de variables dépendantes importantes en ROP, par exemple la sensibilisation, la satisfaction, les préférences, l'importance perçue, la fréquence d'utilisation, etc., sera elle aussi couronnée de succès;
    • en raison de l'importance commerciale de l'exactitude des prévisions des résultats, il existe une raison d'être préoccupé par le « biais de la publication », par exemple les prédictions erronées pourraient ne pas être publiées autant que les prédictions exactes;
    • il n'est pas toujours évident de savoir quel échantillonnage, quelle pondération et quelles étapes méthodologiques étaient requis pour obtenir des prédictions exactes comme résultat – et, de fait, il arrive quelquefois que ces renseignements ne soient pas fournis pour protéger les renseignements de nature exclusive. Le problème est que cela devient difficile de connaître les étapes qui doivent être suivies pour atteindre un niveau de succès similaire en ce qui a trait à l'exactitude des prévisions.
  • Les membres du comité ont tous convenu que les échantillons non probabilistes doivent être utilisés avec prudence, même s'il n'y a pas eu de consensus à propos de la caractérisation des circonstances où il est approprié d'utiliser des échantillons non probabilistes.

    Parmi les membres qui ont essayé de définir les utilisations appropriées/inappropriées des sondages non probabilistes, les suggestions incluaient :

    • recherche exploratoire;
    • théorie/recherche visant à offrir une perspective;
    • l'utilisation des sondages non probabilistes de façon similaire à l'utilisation des groupes de consultation/des recherches qualitatives – par exemple pour obtenir une idée de ce peut être l'opinion du public, mais pas pour mettre l'accent sur une valeur quantitative précise obtenue;
    • l'utilisation de sondages non probabilistes pour déterminer une orientation (par exemple lors d'élaboration de politique ou de programme), mais pas lorsque l'on essaie d'évaluer avec précision l'ampleur/le degré;
    • obtenir rapidement un aperçu d'une situation avant de valider celui-ci au moyen d'un sondage probabiliste;
    • protocole expérimental où l'accent est placé sur la découverte de différences en réponse à divers stimulus;
    • les sondages non probabilistes ne devraient pas être utilisés pour concevoir les programmes importants ou planifier les décisions coûteuses à moins qu'il n'existe pas d'alternative disponible et que toutes les mesures possibles soient prises pour placer les résultats dans une sorte de cadre formel permettant d'évaluer l'exactitude pour représenter la population pertinente.
  • Les membres du comité ont tous convenu que le GC devrait continuer à suivre les développements sur le plan méthodologique concernant l'exactitude et la précision des estimations de population obtenues au moyen d'échantillons non probabilistes.

    Il s'agit d'un domaine dynamique et il semble que des progrès soient accomplis. Il se pourrait fort bien que dans un avenir pas trop distant qu'il soit approprié d'élargir le champ des ROP à l'utilisation acceptable de méthodes d'échantillonnage non probabilistes qui satisfont aux critères de conception approuvés.

    À ce propos, certains membres du comité se sont dits préoccupés par le fait que la prépondérance accordée aux limites d'ordre statistique des échantillons non probabilistes soit perçue par certains comme un indice que les méthodologies non probabilistes demeureront en marge en ce qui concerne la ROP. Ils étaient d'avis qu'il est important de souligner que du travail est accompli dans ce domaine sur la façon de produire des résultats représentatifs de la population, à partir d'échantillons non probabilistes, et que ces travaux ont déjà commencé à offrir des résultats prometteurs. Il est également pertinent ici de mentionner les difficultés rencontrées par les échantillons probabilistes téléphoniques (refus, faible taux de participation, questions relatives au champ d'observation de l'enquête posées par l'utilisation des téléphones cellulaires), et la nécessité d'avoir une perspective équilibrée lorsque l'on décide du choix de la méthodologie qui, en termes concrets, apportera les résultats les plus exacts et les plus précis pour un projet donné.

  • On a suggéré que le GC utilise les sondages de ROP existants pour mener une recherche méthodologique dans le but d'aider au développement de pratiques exemplaires relatives à l'utilisation et à l'interprétation de différentes méthodologies de recherche – en incluant particulièrement (mais sans s'y limiter) les sondages non probabilistes en ligne et les sondages téléphoniques probabilistes.

    Les initiatives pourraient inclure, par exemple, le genre d'activités suivantes :

    • des mesures d'étalonnage communes pourraient être utilisées pour comparer les différentes méthodologies de sondage et pour suivre les tendances ayant trait à la fois à la couverture démographique et non démographique des méthodologies en ligne par rapport aux autres méthodologies;
    • des analyses ultérieures pourraient être effectuées sur les propriétés statistiques des données produites par les sondages non probabilistes afin d'explorer l'exactitude et la précision des estimations. Ces analyses pourraient inclure, par exemple, les techniques de rééchantillonnage (bootstrap, jacknife, etc.) et des tests de conformité indiquant comment les prévisions d'un échantillon non probabiliste changent suite à un changement de la taille de l'échantillon, des facteurs de pondération, etc.;
    • les concepts de recherches multivariables pourraient être utilisés afin de faciliter les comparaisons entre des méthodologies différentes.

Sondages avec méthode mixte

On parle de « méthode mixte » quand les chercheurs utilisent différentes façons de faire remplir les questionnaires. Dans bien des cas, les sondages avec méthode mixte combinent le téléphone et l'Internet, mais d'autres combinaisons sont aussi possibles (par exemple en personne, courrier, télécopieur).

Les sondages avec méthode mixte peuvent être effectués pour plusieurs raisons :

  • les sondages avec méthode mixte peuvent être une façon d'incorporer l'administration d'un sondage en ligne dans un échantillon probabiliste. Par exemple, lorsque l'on construit un échantillon probabiliste pour un sondage téléphonique par composition aléatoire du public en général, on peut offrir aux répondants le choix de répondre à une version téléphonique ou en ligne du questionnaire;
  • les sondages avec méthode mixte peuvent être utiles pour augmenter de taux de réponse à un sondage si, pour quelque raison que ce soit, certains répondants sont plus facilement atteignables en utilisant un mode plutôt que l'autre;
  • les sondages avec méthode mixte peuvent être très utiles pour explorer les forces, les faiblesses et la comparabilité de différents modes d'administration d'un questionnaire;
  • les sondages avec méthode mixte peuvent aider à répondre à différentes nécessités liées à l'accessibilité ou aux préférences différentes des répondants;
  • les sondages avec méthode mixte peuvent aider dans certain cas à réduire le coût en remplaçant certaines entrevues prévues par une méthode plus coûteuse (par exemple le téléphone) par une méthode dont le coût est moindre (par exemple en ligne).

Un défi que posent les sondages avec méthode mixte est la possibilité d'un « effet du mode » sur les réponses. On note que les sondages en ligne (visuel et exécutés de façon autonome) et les sondages téléphoniques (auditif et exécutés par entrevue) sont des modes dont les caractéristiques sont très différentes en ce qui a trait à la façon dont les répondants vivent l'expérience du sondage, et ces différences peuvent potentiellement mener à répondre différemment aux questions.

Le but général des normes qui suivent est d'assurer que les effets de mode potentiels sur les résultats des recherches sont pris en compte.

Normes relatives aux sondages avec méthode mixte

Quand on utilise une méthode de réponse mixte pour réaliser un sondage :

  • Il faut indiquer pourquoi on a privilégié une méthode mixte plutôt qu'une méthode unique, tant dans le projet de recherche que dans le rapport d'enquête.
  • Lorsqu'il s'agit de combiner des données obtenues au moyen de différentes méthodes, il faut prendre les mesures nécessaires afin d'optimiser la comparabilité des différents modes proposés, tant au chapitre de la formulation des questions que de la présentation des réponses possibles.
  • Il faut prendre les mesures nécessaires pour éviter la duplication de répondants dans les différents modes de cueillette. Il faut documenter les mesures et les résultats.
  • Le rapport d'enquête doit indiquer quelles répercussions pourraient avoir, sur la qualité des données, le fait de combiner des données obtenues au moyen de différents modes de cueillette. À titre d'exemple, on pourra décrire l'effet que le mode de cueillette peut avoir sur les principales variables de l'enquête, de même que l'effet de la variation des taux de réponse selon le mode de cueillette, en plus d'analyser les biais de non-réponse selon le mode de cueillette.

Tentatives de recensement

Dans le cas d'un recensement, on tente de recueillir des données auprès de l'ensemble des membres d'une population. Par exemple, une organisation peut vouloir effectuer un sondage auprès de l'ensemble de ses employés. Dans ce cas, la population est formée de « tous les employés de l'organisation », ce qui peut passer pour une tentative de recensement puisque tous les membres de cette population sont invités à participer.

Puisque tous les membres de la population sont invités à participer au sondage, plutôt qu'un échantillon choisi de façon aléatoire, il n'y a pas de marge d'erreur liée à l'échantillonnage. Il existe toutefois deux autres sources d'erreurs liées à l'échantillonnage qui doivent être prises en compte :

  • erreur de la couverture due aux différences entre la source de l'échantillon et la population.

    En utilisant l'exemple mentionné précédemment : il se peut que la liste d'employés ne soit pas complètement mise à jour et que certains nouveaux employés n'y figurent pas et ne fassent pas partie de la source de l'échantillon (sous-couverture); ou encore que certaines des adresses courriel dans la source de l'échantillon appartiennent à des non-employés comme des travailleurs sous contrat (surdénombrement);

  • erreurs dues aux non-réponses : idéalement tous les membres de la population devraient remplir le questionnaire du sondage. Toutefois il est peu probable que cela se produise, ce qui entraîne la possibilité d'erreurs dues aux non-réponses.

Puisque la marge d'erreur due à l'échantillonnage ne s'applique pas à un recensement, les tests statistiques permettant de déceler les écarts entre les sous-groupes qui sont fondés sur l'évaluation de l'erreur due à l'échantillonnage ne peuvent pas être utilisés.

Les membres du comité recommandent les normes suivantes :

Normes relatives aux tentatives de recensement

  • La liste ou la source de l'échantillon doit être clairement énoncée, y compris toute limitation ou exclusion qui réduit l'universalité de la représentation de l'échantillon cible et la possibilité de biais.

    Remarque : lorsque c'est possible, une estimation de la proportion de l'univers qui a été exclue ou est sous-représentée doit être fournie.

  • Le nombre de tentatives de relance et les procédures qui s'y rattachent doivent être énoncés.
  • Ne pas énoncer de marge d'erreur d'échantillonnage puisque cela ne s'applique pas à une tentative de recensement.

Navigation pour Document « Comité consultatif sur la qualité des sondages en ligne sur l'opinion publique - Final le 4 juin 2008 »