Scraping & Big Data
Scraping
Web scraping (detto anche web harvesting o web data extraction) è una tecnica che permette l’estrazione di informazioni dai siti web con l’utilizzo di programmi. Spesso include la trasformazione di dati non strutturati di pagine web in database per l’analisi o il riutilizzo del contenuto.
Vengono realizzati e lanciati programmi web che simulano la navigazione umana. Visitando pagine web questi software effettuano la raccolta dei dati necessari e li trascrivono su file (o database). Questi dati vengono utilizzati per le analisi offline.
Nelle ricerche di mercato il web scraping si utilizza spesso per raccogliere informazioni di contatto di target particolari. Ad esempio, per alcune indagini su aziende vengono prima raccolte le informazioni di contatto su pagine gialle per poi utilizzarli nelle survey CATI o CAWI.
Raccolta dati sui Social Network, Twitter, Blog …
I Big Data sono le informazioni generate dagli utenti involontariamente (navigando) o volontariamente (scrivendo nei blog), sui Social Network. Ci sono poi anche le informazioni generate per alcune operazioni amministrative come ad esempio i pagamenti via carta di credito.
Public Opinion Quarterly (POQ), la rivista trimestrale di AAPOR, ha dedicato un numero monografico sul passato, il presente ed il futuro delle indagini. Cooper ha denominato questa tipologia di dati gli “organic data”. Questa denominazione non la usa quasi nessuno per cui noi li chiameremo Big Data per chiarezza.
I Big Data non sostituiscono le ricerche statistiche, i sondaggi di opinione o le ricerche di mercato per un semplice motivo: spesso raccolgono poche informazioni. Le informazioni più comunemente condivise sono del genere: mi piace una determinata marca, genere, età, località, ora del post. Il vantaggio è che i big data possono comprendere decine di migliaia di casi (es. mi piace su Facebook), mentre una indagine di norma non supera 2.000 rispondenti. Un questionario d’altro canto è normalmente composto di decine di domande su cui è possibile analizzare eventuali relazioni (es. che prodotto consumo, per quali motivi, etc).
Un altro aspetto da tenere in considerazione sono i due bias dei Big Data:
- coverage: qual è la copertura di quel determinato Social Network rispetto alla popolazione?
- measurement: quanti appartenenti a quel Social Network hanno piacere nel dire (e far sapere) la propria opinione su un determinato prodotto?
Questo servizio consiste nel raccogliere e sistematizzare le informazioni che volontariamente o involontariamente vengono lasciate sul web dai “naviganti”. Ad esempio, like di un brand su facebook, opinione su un politico lasciata su twitter o sui blog, percorsi dei naviganti da un sito all’altro.
Questa tipologia di informazioni è in continua crescita e sono un’occasione per i tecno-ricercatori di Demetra opinioni.net per fornire un nuovo servizio ai propri clienti.
Hai delle domande o vuoi chiederci un preventivo?