Teoria e pratica nei sondaggi non probabilistici – 1

INTRODUZIONE

Negli ultimi anni è cresciuto l’utilizzo di sondaggi non probabilistici, a causa di costi minori e tassi di risposta più elevati. In questo tipo di sondaggi tuttavia c’è una auto-selezione dei rispondenti, ciò rende i metodi basati sulla progettazione dell’inferenza dei sondaggi inapplicabili, sollevando dubbi riguardo il potenziale di avere risultati distorti.

Il bias di selezione si riferisce alle differenze sistematiche tra una stima statistica e il parametro reale della popolazione causate da problemi riguardanti la composizione del campione (piuttosto che da errori di misurazione).

Di solito, il bias di selezione derivata da:

  • non copertura: la lista di campionamento omette parti della popolazione target
  • non risposta: le unità selezionate non completano il sondaggio

Questi concetti sono legati a un processo che inizia con una popolazione completa e seleziona casualmente un sottoinsieme.

Molti sondaggi non probabilistici non hanno origine da qualcosa che assomiglia a una lista di campionamento. Per questo tipo di sondaggi, i processi che portano a includere un rispondente nel campione sono numerosi, potenzialmente arbitrari e potrebbero non assomigliare affatto al tradizionale processo di indagine basato sulla probabilità.

La ricerca si è concentrata sull’individuazione delle condizioni in base alle quali possono essere fatte inferenze statistiche valide sugli effetti casuali utilizzando dati osservati. Ci sono due contesti,quello causale (dove il parametro di interesse è il contrasto tra trattamenti sperimentali) e quello delle indagini (dove si misura una vasta gamma di stime, incluse medie, totali, correlazioni e altre misure di associazione).

Nonostante le differenze, le condizioni che producono bias di selezione nelle analisi causali si applicano anche in un contesto di indagine.

Identifichiamo tre componenti che determinano se l’auto selezione può portare a risultati distorti:

  • INTERCAMBIABILITÀ: le variabili confondenti sono interamente conosciute e misurate per tutte le unità campionate?
  • POSITIVITÀ: il campione include tutti i tipi necessari di unità nella popolazione target o alcuni gruppi con caratteristiche distinte sono mancanti?
  • COMPOSIZIONE: la distribuzione del campione corrisponde alla popolazione target rispetto alle variabili confondenti o può essere adattata in modo corrispondente?

L’articolo si divide in due fasi:

  1. Descriviamo come le componenti si applicano nel contesto di esperimenti casuali e di indagini probabilistiche, prima di dimostrare come si estendono alla copertura degli studi osservazionali e delle indagini non probabilistiche.
  2. Forniamo una revisione critica delle pratiche correnti nella raccolta dei dati non probabilistiche e le loro implicazioni per i bias di selezione.

RANDOMIZZAZIONE E INFERENZA NON DISTORTA IN ESPERIMENTI E SONDAGGI

Negli esperimenti, l’esito per un paziente può essere diverso se gli viene somministrato il trattamento A o il trattamento B. Prima di scegliere un trattamento, entrambi i risultati sono possibili, ma osserviamo solo i risultati sotto il trattamento effettivamente fornito al paziente.

L’effetto causale è la differenza tra i due risultati potenziali. Sebbene non possiamo mai osservare entrambi i risultati su un singolo individuo, possiamo confrontare il risultato medio per le persone che ricevono il trattamento A con quelle delle persone che ricevono il trattamento B per fare inferenza su quale sia il trattamento migliore.

Quando i trattamenti vengono assegnati in modo casuale, possiamo essere ragionevolmente sicuri che le differenze osservate nei risultati tra le condizioni di trattamento siano dovute alle terapie stesse e non a qualche altra differenza tra i due gruppi.

Quando i trattamenti non vengono assegnati in modo casuale, queste valutazioni sono più difficili.

Ad esempio, se i pazienti che ricevono il trattamento A tendono a peggiorare, ma il trattamento A è di solito somministrato a pazienti più malati, è difficile sapere se la differenza è dovuta al trattamento o al fatto che i pazienti che lo hanno ricevuto erano in condizioni di forma peggiore per cominciare. Il livello di base della malattia è noto come un confondente. I confondenti sono variabili associate sia alla scelta del trattamento che al risultato di interesse, e sono la fonte primaria di bias di selezione nelle analisi causali.

Un sondaggio basato sulla probabilità è essenzialmente un esperimento casuale in cui il gruppo di soggetti è l’insieme di unità nella lista di campionamento e il trattamento è la selezione nel sondaggio. A differenza degli esperimenti in cui osserviamo i risultati su entrambi i soggetti trattati e non trattati, nei sondaggi osserviamo gli esiti solo sulle unità selezionate, con l’aspettativa che non ci debba essere differenza tra unità selezionate e non selezionate.

FORTE IGNORABILITÀ- INTERCAMBIABILITÀ E POSITIVITÀ

Con “forte ignorabilità” si intendono le condizioni per le quali l’inferenza sugli effetti causali può essere valutata senza errori di selezione:

  • INTERCAMBIABILITÀ: richiede il meccanismo per il quale ai soggetti viene assegnato un trattamento per essere indipendente dal risultato misurato, sia incondizionatamente che condizionatamente alle covariate osservate.
  • POSITIVITÀ: dev’essere possibile, per ogni soggetto, ricevere uno qualsiasi dei trattamenti. Ciò richiede che tutti i soggetti abbiano una probabilità positiva di ricevere un trattamento.

Negli esperimenti, l’assegnazione casuale del trattamento garantisce che in media siano soddisfatte le condizioni di intercambiabilità e positività. Ciò funziona allo stesso modo nei sondaggi probabilistici.

COMPOSIZIONE

Negli esperimenti casuali, per consentire la generalizzazione dei risultati sperimentali per le popolazioni target, ci sono vari metodi (es. strategie di ri-ponderazione che mirano ad equiparare il campione sperimentale e la popolazione rispetto alle caratteristiche osservate).

Mentre gli esperimenti devono riguardare la comparabilità del trattamento e del controllo, nonché il campione e la popolazione, le indagini devono riguardare solo il campione e la popolazione. Resta inteso che la composizione di un campione corrisponderà a quella della popolazione quando tutte le unità hanno un’uguale probabilità di selezione, implicando l’intercambiabilità incondizionata.

Quando le probabilità di selezione sono disuguali ma conosciute per ogni unità nella lista, la situazione è equivalente alla scambiabilità condizionata e le osservazioni ponderate inversamente alla probabilità di selezione producono stime di popolazione imparziali.

In entrambi i casi, la selezione casuale assicura che in media il campione corrisponderà alla popolazione target sulla distribuzione di qualsiasi variabile misurata nel sondaggio.

ESTENSIONE DEL QUADRO SU CAMPIONI NON CASUALI

Le condizioni viste in precedenza tuttavia, sono garantite solo quando la randomizzazione ha successo al 100%, e ciò succede molto raramente. Negli esperimenti, i soggetti abbandonano le prove o vengono persi al follow-up. Nei sondaggi, le liste di campionamento potrebbero non coprire perfettamente la popolazione target e una parte delle unità campionate non viene mai osservata. Quando si verificano tali problemi, la soluzione abituale è eseguire aggiustamenti statistici per correggere eventuali squilibri. Facendo ciò, ci basiamo su un modello che presuppone che la positività e l’intercambiabilità siano valide, e che l’aggiustamento ricostruisca la composizione del campione corretta per le covariate confondenti.

Lo stesso vale per i sondaggi che non utilizzano il campionamento probabilistico. Quando le unità non sono selezionate a caso dalla popolazione target, i ricercatori devono fare affidamento su modelli statistici. I sondaggi basati sulla probabilità con problemi di sotto copertura o non risposta devono anche specificare un modello che mette in relazione le unità osservate con ciò che non è stato osservato. Per i campioni probabilistici, il progetto iniziale esegue la maggior parte del lavoro garantendo l’intercambiabilità, la positività e la corretta composizione del campione. I modelli statistici sono impiegati durante la stima per correggere quelli che si spera siano bias minori. Al contrario, i campioni non probabilistici non possono contare sulla casualità per aiutare a soddisfare questi requisiti, devono invece fare affidamento sui modelli in tutte le fasi del processo di indagine dalla selezione del campione alla stima. Come nelle analisi causali, i ricercatori non possono mai sapere con certezza che questi requisiti sono stati soddisfatti.


Autori:
ANDREW W. MERCER*, FRAUKE KREUTER, SCOTT KEETER, ELIZABETH A. STUART

Lascia un commento

EnglishItalian