I dati sono al giorno d’oggi un bene prezioso. Non cercare, leggere e analizzare i dati che ci circondano (e che le piattaforme social ci danno) è un enorme spreco di risorse e energie.
Ogni giorno apriamo il nostro browser, digitiamo un indirizzo web o googoliamo una domanda e dopo qualche secondo vediamo un pagina. Ci siamo ormai talmente abituati e diamo per scontato che ciò avvenga che potrei scommettere che 9 su 10 di voi non sanno cosa succede nel loro pc tra un click e l’altro.. sbaglio?
Il libro promette di insegnare come “trovare ed estrarre dati dalla Rete e dai principali social media utilizzando semplici programmi realizzati da zero e alcune soluzioni professionali”. E infatti si apre gettando le basi dell’informatica e spiegando, per i profani, la differenza tra internet e web, tra server e client, tra IP e https, tra html, css e javascript.
In poche pagine viene spiegato come creare una pagina in html, a cosa servono il css e javascript. Devo dire che è spiegato talmente bene che l’ho capito pure io. E io sono una che non ha mai scritto una riga di codice o si è interessata alla programmazione. Il 18 nell’esame di ITC all’università ne è testimone.
Si passa poi a Python, un linguaggio di programmazione sviluppato nel 90′. Non posso dire che è stato facile capire quelle pagine.. per quanto tutto spiegato passo a passo la mia mancanza di basi (leggere le pagine precedenti non è bastato) e di logica ha influito notevolmente sulla lettura. Ma sono andata avanti perchè l’autore è talmente coinvolgente che mi sembrava brutto mollare prima ancora di arrivare all’argomento principale.
Mining di Facebook e Scraping
Si arriva finalmente a parlare, e analizzare, il primo social network: Facebook. E qui all’inizio mi sono ripresa dalla disfatta di Python. So cos’è un Api, conosco la sezione Developers di Facebook e so anche cos’è un token e come generalo. Insomma: pensavo di sapere già tutto. E ovviamente mi sono ritrovata a non sapere niente. Lavorare integrando l’Api di Facebook con Python va oltre le mie possibilità. E se voi vorrete mettermi alla prova vi consiglio di farlo tenendo il pc da un lato e il libro dall’altro, perchè anche qui i passaggi sono ben spiegati.
A cosa serve tutto questo? A ricavare dati. Nel caso analizzato nel libro, dati di una pagina Facebook, degli iscritti ad una pagina per essere più precisi. Oppure di un post, che scoprirete come me, nel momento in cui lo visualizzate quel post è presente nel vostro computer perché è stato scaricato proprio dal nostro browser. Ed è qui che entra in gioco lo scraping. Ovvero un sistema che installato e programmato con Python analizza e raccoglie tutti i dati (contact e basic info, details about, foto, ecc) di profili e pagine, salvando i vari contenuti in cartelle.
Magia? No pura programmazione.
E vi dico, in teoria sembra pure quasi semplice per come è spiegata!
Analoga cosa fatta per Facebook la si può fare per Twitter, Instagram e Linkedin con processi che differiscono di poco e legati alla struttura della piattaforma stessa. Il tutto sempre spiegato passo passo dall’autore che in questo manuale ha davvero messo l’anima, ve lo assicuro. Idem per quanto riguarda estrarre dati da un sito web.
Una volta raccolti i dati e ben organizzati (il problemino della Public Health England che in piena pandemia si è persa migliaia di dati per un errore tecnico di conversione con file XLS insegna!) si possono leggere davvero tante informazioni ricavate da Social e da Siti. Un esempio? Il Sentiment. Ovvero capire, analizzando tweet, post, eccetera, il valore “positivo o negativo” che si dà ad una situazione, persona, notizia.
Estrarre dati dal web è legale?
Domanda più che lecita che io per prima mi sono fatta. La risposta è contenuta nel libro ed è: DIPENDE. Da cosa? Dalla legislatura vigente nel parse che ospita la pagina web o chi la possiede, dalla licenza dei contenuti, dalle condizioni di ogni sito ma soprattutto dall’utilizzo che se ne fa di quei dati.
Cambridge Analytica insegna. E ho detto tutto!