Confronto Qualità dei Dati dei Campioni in Internet Non Probabilistici e Probabilistici a Bassa Frequenza di Risposta

Alcuni ricercatori di indagini sostengono che i sondaggi telefonici siano “morti” e che dovrebbero essere sostituiti con campioni non probabilistici dai panel online. Negli ultimi anni abbiamo osservato un calo dei tassi di risposta per i campioni RDD, con molti sondaggi di questo tipo che riportano tassi di risposta costantemente inferiori al 10%. 

Di interesse non è solo la questione riguardante la qualità dei sondaggi telefonici a bassa percentuale di risposta, ma anche se e quando campioni non probabilistici, come quelli ottenuti attraverso i panel Internet, potrebbero servire come sostituti o alternative fattibili e affidabili.

Per ridurre le distorsioni nei campioni non probabilistici, l’industria della ricerca dei sondaggi online ha sviluppato diversi metodi, tra cui:

  • Raking
  • Modellazione della propensione: viene costruito un modello di regressione logistica per “predire” la probabilità appartenere a un campione rispetto ad un altro. I campioni non probabilistici possono quindi essere ponderati utilizzando l’inverso della probabilità prevista derivata da questi modelli di propensione.
  • Abbinamento dei campioni: è una tecnica in cui un campione probabilistico viene utilizzato come gold standard e i panelisti online non probabilistici ne sono abbinati su base uno a uno basandosi su un numero specificato di variabili.

A differenza del metodo della propensione, l’abbinamento del campione non è una tecnica di ponderazione esplicita, ma un metodo che essenzialmente tenta di bilanciare un campione non probabilistico con un campione probabilistico basato su delle variabili target.

Questo articolo confronta campioni probabilistici aventi bassi tassi di risposta con campioni non probabilistici in termini di qualità dei dati di base, utilizzando un approccio elementare che utilizza i dati di indagine fondamentali disponibili: quelli demografici.

Metodi e Dati:

I dati utilizzati per questo studio provengono da cinque fonti principali:

  1. Panel Internet non probabilistico dal sondaggio di Centris su comunicazione, intrattenimento e telefonia. (Panel 1)
  2. Sondaggio omnibus RDD telefonico (Telephone, con anche versione limitata a soli telefoni cellulari)
  3. Sondaggio RDD telefonico su una popolazione generale di età compresa tra i 18 e i 54 anni (Telephone 2)
  4. Panel internet non probabilistico da un sondaggio sullo sport (Panel 2)
  5. NHIS del 2013

I due campioni non probabilistici sono stati ottenuti da due diversi panel Internet.

Mentre il nostro studio riunisce diversi campioni non probabilistici e probabilistici di varie dimensioni e ambiti, le variabili demografiche sono comuni a tutti. Per facilitare i confronti, sono state identificate un insieme chiave di variabili che non sono suscettibili a soddisfazione, bias di desiderabilità sociale o altri errori di misurazione che potrebbero confondere l’impatto del tipo di campione con quello della modalità di intervista utilizzata.

Per le nostre analisi, consideriamo quattro variabili demografiche specifiche: gruppo di età (18-34, 35-49, 50-64, 65+); razza / etnia (non ispanico bianco, non ispanico nero, ispanico, non ispanico altro); istruzione (meno di High School, High School, Some College, College o Beyond); e regione (Nordest, Sud, Midwest, Ovest).

Abbiamo utilizzato l’American Community Survey (ACS) del US Census Bureau del 2012 come fonte “gold standard” per i parametri di riferimento della popolazione al fine di valutare i bias stimati.

Per ogni coppia possibile (A, B) di variabili demografiche, vengono valutate le distribuzioni condizionate usando la tabulazione incrociata della variabile demografica A (righe) e la variabile demografica B (colonne).

La nozione dietro il nostro approccio di tabulazione elementare è semplice: quantificare il bias delle stime di una variabile demografica all’interno di ciascun livello della seconda variabile demografica o, più semplicemente, esaminare la distribuzione condizionale di una variabile demografica data una categoria di un’altra .

Tutto ciò viene fatto utilizzato i campioni non pesati e quelli pesati tramite le comuni tecniche di ponderazione (punteggio di propensione, raking, abbinamento) confrontando i risultati.

Risultati:

Nella nostra analisi, i campioni non probabilistici non ponderati provenienti da panel Internet hanno mostrato bias stimati più alti e vari rispetto a campioni probabilistici con bassi tassi di risposta, senza che emerga nessun modello sistematico. Gli errori più grandi nei campioni non probabilistici esaminati sono dovuti in gran parte all’educazione e all’etnia. Una volta ponderati, i campioni non probabilistici non “recuperano” sui campioni telefonici, il bias medio stimato, infatti, seppur calato, risulta comunque più elevato di quello relativo ai campioni probabilistici.

Ci sono molti che sono stati rapidi nel dire che, dati i bassi tassi di risposta attualmente raggiunti nella ricerca sui sondaggi telefonici, il concetto stesso di “campionamento probabilistico” è nullo. Il tasso di risposta non determina se un campione estratto probabilisticamente si traduce in un campione rappresentativo di rispondenti.

Ciò che è critico è il grado in cui la mancata risposta è sistematica piuttosto che casuale. Dal nostro punto di vista, l’industria della ricerca non comprende ancora quando la mancata risposta nelle indagini campionarie probabilistiche è casuale o sistematica. Una ricerca che ha trovato pochi o nessun bias suggerisce che la mancata risposta è forse meno sistematica di molti sospetti.

Ciò non contraddice la minaccia rappresentata dalla mancata risposta, ma, in questo articolo, le indagini telefoniche basate sulla probabilità con bassa frequenza di risposta ottengono due volte e mezzo meno bias e metà della dimensione del campione richiesta per potenza statistica equivalente, rispetto ai campioni non probabilistici testati. Se questi benefici valgono il costo dell’approccio probabilistico, questo spetta capirlo allo sperimentatore e alle sue esigenze di ricerca.


Autori:
DAVID DUTWIN, TRENT D. BUSKIRK

Lascia un commento

EnglishItalian