Teoria e pratica nei sondaggi non probabilistici – 2

Pratiche correnti per gestire il bias nei sondaggi online non probabilistici

RECLUTAMENTO

La forma più comune di reclutamento consiste nell’invitare le persone ad aderire ai panel.
I panel offrono l’opportunità di raccogliere una grande quantità di informazioni sul profilo dei propri membri. L’alternativa principale ai panel è il campionamento a fiume, in cui i potenziali intervistati sono reclutati tramite fonti simili ma sono destinati a un’indagine una tantum anziché a un gruppo a lungo termine. Il campionamento fluviale non fornisce in anticipo dati sui profili dei rispondenti. Entrambi i campionamenti affrontano una minaccia per il requisito di positività perché le persone che non usano Internet non possono partecipare.
Ottenere una vasta gamma di potenziali intervistati è fondamentale per il successo di qualsiasi metodo di reclutamento, e si è visto che gli intervistati reclutati attraverso diversi siti Web possono esibire distribuzioni demografiche (e di altre caratteristiche) estremamente diverse. 
Il reclutamento da una serie diversificata di fonti migliora necessariamente la probabilità di soddisfare il requisito di positività; tuttavia, aumenta anche la complessità del processo di assunzione, creando potenzialmente un trade-off tra positività e intercambiabilità. 
Ad oggi, la stragrande maggioranza delle ricerche sui sondaggi non probabilistici si è basata sui dati dei panel online ma al momento non c’è abbastanza ricerca per raccomandare un metodo di reclutamento rispetto all’altro.

CAMPIONAMENTO

Le indagini non probabilistiche generalmente si basano sulla selezione finalizzata ad ottenere la composizione campionaria desiderata mentre la raccolta dati è in corso. Ciò è di solito raggiunto mediante le quote, in cui il ricercatore costruisce una particolare distribuzione attraverso una o più variabili. Di solito si tratta di celle definite da una classificazione incrociata di caratteristiche demografiche come il sesso per età, con ogni cella che richiede un numero specifico di interviste completate all’interno di quella categoria. Il risultato finale è un campione che corrisponde alla distribuzione pre specificata tra le variabili scelte. L’uso delle quote si basa sul presupposto che gli individui compresi in ciascuna cella di quota siano scambiabili con individui non campionati che condividono tali caratteristiche. Se tale ipotesi è soddisfatta, il campione avrà la composizione corretta sulle variabili di confondimento, consentendo la stima delle medie e delle proporzioni che si generalizzano alla popolazione target.
Tuttavia, vi è un crescente consenso sul fatto che le variabili demografiche di base come età, sesso, razza e istruzione siano insufficienti per raggiungere l’interscambiabilità.
I metodi di campionamento che consentono ai ricercatori di controllare diverse dimensioni possono migliorare la capacità di condizionare una serie più appropriata di potenziali fattori di confusione.

Vediamo ora tre metodi:

1. Abbinamento utilizzando distanze come quella euclidea

Questo metodo è stato utilizzato da YouGov su sondaggi condotti utilizzando il suo panel negli Stati Uniti e si articola nei seguenti passaggi:

  • Progetto un campione casuale di casi resi anonimi da un’origine di alta qualità, che si ritiene
  • rifletta la vera distribuzione congiunta di un gran numero di variabili nella popolazione target.
  • Uso questo sotto campione come lista di campionamento sintetica (SSF) che funge da modello per l’eventuale campione del sondaggio
  • Ogni aderente al panel che completa il sondaggio è abbinato a un caso nell’SSF con caratteristiche simili utilizzando misure di distanza come quella euclidea. Quando ogni record dell’SSF è stato abbinato a un rispondente adeguatamente simile, il sondaggio è completo.


Questo approccio è attraente per la sua capacità di abbinare in modo flessibile la popolazione target a un numero maggiore di covariate di quanto sia possibile con i metodi di quota tradizionali. Affinché questo approccio abbia successo, la composizione delle variabili corrispondenti nell’SSF deve corrispondere esattamente alla popolazione target e qualsiasi modello utilizzato per combinare i dataset dev’essere specificato correttamente. Ancora più importante, le variabili di corrispondenza devono essere corrette per garantire l’intercambiabilità.

2. Propensity score matching (PSM)

Questo metodo utilizza il punteggio di propensione per la costruzione di celle di quota e si articola nel seguente modo:

  • Un’indagine probabilistica che si presume rispecchi accuratamente la popolazione target viene messa in campo parallelamente con un’indagine non probabilistica.
  • Utilizzando un insieme di covariate comuni raccolte in ciascuna indagine, viene stimato un modello di propensione combinando i due campioni e prevedendo la probabilità che ciascun rispondente appartenga al sondaggio probabilistico.
  • Quando vengono utilizzati i sondaggi successivi, il modello di propensione viene utilizzato per calcolare un punteggio di propensione per ciascun rispondente mentre vengono sottoposti a screening per il nuovo sondaggio. Le quote non sono impostate su particolari caratteristiche del rispondente, ma sono basate su quantili della distribuzione del punteggio di propensione.

Anche qui, molto dipende da quanto l’indagine parallela di riferimento corrisponda alla popolazione target. Se l’indagine di riferimento soffre di bias di non risposta e di non copertura, tali problemi saranno trasferiti nel sondaggio non probabilistico.


3. Routing

Un altro metodo meno studiato per molti sondaggi non probabilistici è l’uso di router. La maggior parte di attuatori di sondaggi non probabilistici ne ha molti attivi contemporaneamente. Quando un router viene impiegato, piuttosto che progettare campioni in modo separato per ogni sondaggio, gli intervistati sono invitati a partecipare a un sondaggio non specificato. L’indagine effettiva è determinata dinamicamente in base alle caratteristiche del rispondente e alle esigenze dei sondaggi attivi rispetto alle quote o ai criteri di selezione.
Ciò consente un uso più efficiente del campione, ma significa che esso per ogni sondaggio dipende da quali altre indagini si trovano attive contemporaneamente.


AGGIUSTAMENTO POST SONDAGGIO

Poiché potrebbe non essere possibile raggiungere la composizione del campione desiderata attraverso il solo campionamento, è ancora necessario un aggiustamento post-sondaggio. Ce ne sono di più tipi:


1. Ponderazione

La ponderazione è stata studiata in due ambiti:

1.1 Calibrazione

I metodi di calibrazione regolano direttamente la composizione del campione per far corrispondere una distribuzione nota di variabili nella popolazione target. La forma più semplice di calibrazione è la post stratificazione, in cui il campione è suddiviso in celle mutuamente esclusive che sono ponderate in modo tale che la proporzione di ciascuna cella nel campione corrisponda alla proporzione obiettivo nella popolazione target.

1.2 Ponderazione del punteggio di propensione

La ponderazione del punteggio di propensione comporta la combinazione di un campione non probabilistico con una fonte di dati probabilistica o gold standard come campione di riferimento. Un modello che prevede l’appartenenza al campione viene adattato a questi dati combinati e le osservazioni nel campione non probabilistico sono ponderate inversamente alla loro probabilità di apparire in tale campione.


2. Matching

Con l’abbinamento, l’idea è di creare gruppi contenenti una o più osservazioni sia da un campione di riferimento sia da un campione non probabilistico che sono simili su un insieme di variabili ausiliarie che si ritiene siano associate alla selezione. I gruppi nel campione non probabilistico vengono quindi pesati in modo che la distribuzione corrisponda alla distribuzione del campione di riferimento.

L’abbinamento è molto simile alla post stratificazione e al punteggio di propensione, con una eccezione importante. In molte applicazioni, le osservazioni per le quali non esiste una corrispondenza accettabile vengono rimosse dal set di dati finale. Quando ciò accade, le informazioni vengono perse e l’inferenza è possibile solo per quelle osservazioni dei campioni che si abbinano.


3. Regressione multi livello e stratificazione successiva (MRP)

Quando il numero di celle diventa grande, il numero di osservazioni in ognuna di esse diventa piccolo e le stime diventano instabili. La pianificazione MRP consente la post stratificazione utilizzando un numero elevato di celle adottando un modello multi livello che raggruppa informazioni sulle celle che condividono caratteristiche simili e consente la stima delle medie di cella anche quando le celle sono sparse.


Tutti questi metodi falliscono se non vengono soddisfatti i requisiti di intercambiabilità e positività o se la specificazione del modello non replica correttamente la composizione target sulle variabili di confusione. Se l’intercambiabilità e la positività sono soddisfatte, il metodo migliore è quello che può rispecchiare più fedelmente la corretta composizione del campione utilizzando i dati e le informazioni disponibili. Se l’intercambiabilità e la positività non vengono soddisfatte, non vi è alcuna ragione a priori per ritenere che uno di questi metodi possa funzionare meglio di qualsiasi altro.


SELEZIONE DELLE VARIABILI

I ricercatori saranno agevolati identificando una serie di fattori confondenti teoricamente fondati prima della raccolta dei dati e usandoli come punto di partenza per un progetto di ricerca.
In assenza di una forte teoria per quanto riguarda il tema del sondaggio, il raggiungimento dell’intercambiabilità si rivelerà estremamente impegnativo. Ricordiamo infatti la centralità dell’intercambiabilità e della positività nel raggiungere stime imparziali da indagini di non probabilistiche.

Discussione

Una cosa è sapere in linea di massima che l’intercambiabilità, la positività e la composizione devono essere raggiunte al fine di evitare bias di selezione nelle stime dell’indagine non probabilistica. Un’altra cosa è raggiungerle con successo nella pratica. Anche quando l’argomento è ben noto e molti probabili fattori confondenti vengono identificati, può risultare difficile avere la piena certezza che non ci sia un fattore ancora sconosciuto che introduca distorsioni nelle stime del sondaggio. Il suggerimento quindi è quello di identificare i probabili fattori di confondimento e progettare la raccolta e l’analisi dei dati in modo che siano misurati e attivamente considerati.

Lascia un commento

EnglishItalian