#165 – DatiBeneComune

Pillole di Bit
Pillole di Bit
#165 - DatiBeneComune
Loading
/

Pillole di Bit è tra i promotori della lettera aperta al Governo di #datibenecomune, perché solo con i dati aperti, disponibili a tutti e machine readable si può sapere cosa si sta facendo davvero per il bene dei cittadini durante questa pandemia del COVID-19.

Pillole di Bit (https://www.pilloledib.it/) è un podcast indipendente realizzato da Francesco Tucci, se vuoi metterti con contatto con me puoi scegliere tra diverse piattaforme:
Telegram (o anche solo il canale dedicato solo ai commenti delle puntate)
TikTok (per ora è un esperimento)
Twitter
BlueSky
– Il mio blog personale ilTucci.com
– Il mio canale telegram personale Le Cose
Mastodon personale
Mastodon del podcast
– la mail (se mi vuoi scrivere in modo diretto e vuoi avere più spazio per il tuo messaggio)

Rispondo sempre

Se questo podcast ti piace, puoi contribuire alla sue realizzazione!
Con una donazione diretta:
– Singola con Satispay
Singola o ricorrente con Paypal
Usando i link sponsorizzati
– Con un acquisto su Amazon (accedi a questo link e metti le cose che vuoi nel carrello)
– Attivando uno dei servizi di Ehiweb
– Iscrivendoti a FiscoZen, se hai la Partita IVA (prima consulenza gratuita e 50€ di sconto sul primo anno)

Se hai donato più di 5€ ricordati di compilare il form per ricevere i gadget!

Il sito è gentilmente hostato da ThirdEye (scrivete a domini AT thirdeye.it), un ottimo servizio che vi consiglio caldamente e il podcast è montato con gioia con PODucer, un software per Mac di Alex Raccuglia

Ciao a tutti e bentornati all’ascolto di Pillole di Bit, questa è la puntata 165 e io sono, come sempre, Francesco.

Il nostro mondo, più di quanto siamo abituati a pensarlo, è data driven. Oh, che parolone difficile.
Tradotto, per i non addetti ai lavori, si può dire che le scelte fatte per determinate azioni sono decise in base alla disponibilità di dati.
Partiamo da un po’ più indietro, come siamo abituati a fare da queste parti.
La mattina ci alziamo, assonnati, guardiamo fuori dalla finestra e vediamo che piove.
Questa è una informazione, tradotta in dato, il nostro cervello, se fosse un calcolatore, assegnerebbe alla variabile “oggi piove” il valore “1”, cioè, sì, piove.
Visto che piove, devo prendere l’ombrello.
Ho fatto una scelta basata su un dato.
La seconda scelta che posso fare basata su un dato può essere empirica, aprendo la finestra, o numerica, guardando sull’app del meteo che temperatura c’è oggi, in base alla sensazione che ho sulla pelle o al numero che vedo sull’app decido come vestirmi e che tipo di giacca indossare.
Seconda scelta basata su un dato. E non sono ancora uscito di casa.
Il nostro mondo è basato sui dati, molti dati, moltissimi dati che devono essere analizzati in modo sempre più rapido per fare scelte sempre più complesse.
Il problema adesso però sono i dati.
Come mi arrivano i dati?
Di solito, come dice un noto divulgatore di nome Barbascura, MALE.
I dati arrivano da fonti diverse, non organizzati, non ben descritti, solitamente anche impossibili da capire.
Un dato, per essere capibile da un umano, deve avere un certo formato, come ad esempio una temperatura. Se noi vediamo su un foglio una tabellina con i giorni della settimana e dei numeri decimali con a fianco il simbolo del grado celsius li capiamo al volo, le macchine non fanno così.
Alla macchina devi dire “ciao, questa tabella rappresenta le temperature, i valori sono decimali e la prima colonna contiene i giorni della settimana, la seconda le temperature in gradi celsius”
A questo punto la macchina è in grado di interpretare i dati che gli vengono passati con un algoritmo che qualcuno avrà scritto. Perché senza un algoritmo, le macchine le accendiamo e loro sono lì, ferme a consumare corrente e a non fare nulla.
I dati però devono essere messi lì sempre nello stesso modo, nella casella della temperatura le temperature in formato decimale e nella casella del giorno della settimana, il giorno della settimana, scritto nello stesso modo.
Perché questo?
Perché le macchine non sono intelligenti, non sono in grado di astrarre i dati da una informazione generica e non hanno capacità di fantasia, le cose gliele si deve descrivere per bene, per filo e per segno. 
Ma a questo punto qual è il vantaggio delle macchine?
Se noi riusciamo ad analizzare il clima e poco altro in un tempo ragionevole, le macchine, se ben programmate, l’algoritmo di cui prima, riescono ad analizzare una quantità di dati che un cervello di una persona, anche la più dotata non riesce neanche a immaginare.
Intendiamoci, il nostro cervello sa analizzare moltissimi dati in breve tempo, pensate solo mentre siete alla guida e appare un ostacolo imprevisto, siamo in grado di analizzare dove svoltare, quanto frenare, vedere se la strada è libera e se c’è spazio per l’auto in pochissimo tempo. Panico permettendo, ovviamente. Un’altra cosa in cui le macchine eccellono, non si spaventano.
Un computer sa analizzare milioni di dati, e in un tempo ragionevole vi sa dire, ad esempio, che se togliete un po’ di materiale da quell’arcata del ponte, risparmiate qualche tonnellata e il ponte tiene lo stesso il peso del traffico. Lo ripeto, non se lo è immaginato la macchina, lei ha elaborato milioni di dati ben strutturati in base a un algoritmo che ha messo lì un cervello umano, che da solo avrebbe potuto fare lo stesso calcolo, ma magari in mesi o anni di lavoro
Erano ovviamente solo due esempi.
Come già detto i dati devono arrivare alla macchina strutturati, ben descritti e sempre nello stesso modo.
Per questo sono stati inventati dei formati appositi per renderli disponibili alle macchine.
Ad esempio i database.
In una tabella ogni colonna ha un solo tipo di dato e conterrà solo quello, se c’è una data ci deve essere sempre una data e sempre in quel formato, se c’è un numero decimale ci sarà sempre un numero decimale.

Ve lo ricordo ancora una volta, Excel non è un database e non è un modo per scambiarsi dei dati, ci hanno provato molti enti anche grossi e tutti quelli che hanno usato Excel hanno avuto enormi problemi.

Nel mondo di Internet c’è il modo di scambiarsi dati strutturati, anzi, ci sono più modi, tutti ottimi e molto conosciuti, posso citare XML e JSON, chiedi i dati, questi ti arrivano, pronti per essere manipolati ed elaborati.
Solitamente l’accesso ai dati è fornito dalle API, in inglese ei pi ai, ne ho parlato nella puntata 132. Ti registri al servizio, impari a usare le API, fai la richiesta ed ecco lì tutti i tuoi dati correttamente formattati per essere utilizzati come piace a te.

La definizione machine readable indica proprio questo. Dati strutturati che, se mandati ad una macchina sono facilmente elaborabili, senza dover passare per complicati sistemi di conversioni che potrebbero portare a perdita di informazioni preziose.

Volete alcuni esempi di dati che non sono machine readable? Facile.
Documenti Word
Documenti PDF, magari protetti da licenza, blocco di copia incolla o altre amenità di questo tipo
Documenti PDF che sono scansioni di tabelle excel o collage manuale di stampe varie
Documenti Excel
Documenti di testo contenenti enormi file di dati separati da virgola senza descrittori dei campi, o con campi che non rispettano regole e sono buttati lì a caso
Database non normalizzati, con tabelle casuali, senza relazioni o con campi di solo testo, senza indicazione di che tipo di dati ci sono dentro
Tabelle HTML
Qualunque tipo di dato mandato via mail

Poi, ci sono i dati liberi e i dati non liberi.
Un po’ come il software Libero e quello che non lo è.
Il dato libero è quello che è disponibile a tutti, chiunque può accedervi e consultarlo, leggerlo, elaborarlo.
Perché è un bene che i dati siano liberi?
Perché con i dati alla portata di tutti è più difficile, se non impossibile, far dire ai dati quel che si vuole.
Una nota teoria dice che se ben torturati, i dati possono dire qualunque cosa. Vero, ma se questi dati sono nella disponibilità di chiunque, il torturatore maligno salta fuori e da quel momento non godrà più della fiducia, perché conosciuto come torturatore.
Se qualcuno si mette ad analizzare i dati e li porta a dire una cosa che interessa solo a lui, tutti gli altri, con le giuste analisi, potranno dimostrare che quel che è uscito dall’analisi truffaldina è una conclusione di parte.

Tutto questo, se i dati non sono aperti a tutti, non è fattibile, perché non sarà mai possibile analizzare i dati da i quali qualcuno avrà tratto delle conclusioni, per cercare di confutarle o confermarle.

Se basi la libertà di movimento delle persone su dei dati che non sono liberi, mini la libertà complessiva delle persone. Questo è quello che sta succedendo in Italia da qualche tempo, da quando è stato deciso che le regioni entrano in stati di gravità differenti in base a decine di parametri basati su dei dati che non sono pubblici, quindi il colore e la gravità, dai quali deriva la libertà delle persone, può essere decisa in base a parametri non oggettivi e non controllabili.
Per questo è stato lanciato l’hashtag datibenecomune al quale il podcast Pillole di Bit si Associa e del quale vi leggo la lettera aperta inviata al Governo. Tutte le informazioni le trovate sul loro sito, del quale vi lascio il link nelle note dell’episodio, come al solito.

Viviamo una grave crisi. La società civile italiana, una delle più mature e competenti del mondo, è pronta a supportare le Istituzioni nel farvi fronte.
Per farlo, però, ha bisogno di dati. La cittadinanza, stremata, chiede risposte mirate, meno gravose di “tutti in lockdown”. Elaborarle richiede dati pubblici, disaggregati, continuamente aggiornati, ben documentati e facilmente accessibili a ricercatori, decisori, media e cittadini. Il nuovo sistema di classificazione del territorio nazionale in tre aree di rischio rappresenta, in questo senso, un’opportunità, perché comporta un sofisticato sistema di monitoraggio nazionale e quindi genererà, si presume, molti dati di qualità.
Il governo è consapevole di tutto questo. Un recente documento di indirizzo pone “la trasparenza e l’accessibilità dei dati al centro della strategia di gestione del rischio pandemico”. Pandemia a parte, l’Italia si impegna da tempo per la trasparenza amministrativa. In sede internazionale, per esempio, siede nel board dell’Open Government Partnership. Purtroppo, adottare un indirizzo non è sufficiente: bisogna anche tradurlo in pratica. E questo significa lavoro duro: misure attuative, integrazione di flussi informativi, data stores. Come sempre, la differenza tra il dire e il fare è… il fare.
Per questo, chiediamo al Governo Italiano di:
rendere disponibili, aperti, interoperabili (machine readable) e disaggregati tutti i dati comunicati dalle Regioni al Governo dall’inizio dell’epidemia per monitorare e classificare il rischio epidemico (compresi tutti gli indicatori di processo sulla capacità di monitoraggio, di accertamento e quelli di risultato). Fare lo stesso per tutti i dati che alimentano i bollettini con dettaglio regionale, provinciale e comunale, della cosiddetta Sorveglianza integrata COVID-19 dell’Istituto Superiore di Sanità e i dati relativi ai contagi all’interno dei sistemi, in particolar modo scolastici. Tutti i dati devono riportare la data di trasmissione e aggiornamento;
rendere pubbliche le evidenze scientifiche, le formule e gli algoritmi, che mettono in correlazione la valutazione del rischio, le mitasure restrittive e l’impatto epidemiologico ad esso correlato;
recepire nella gestione, pubblicazione e descrizione dei dati tutte le raccomandazioni della task force “Gruppo di lavoro 2 – Data collection and Infrastructure“, presenti nel documento “Analisi dei flussi e mappatura delle banche dati di interesse per la task force dati per l’emergenza COVID-19”;
nominare un/a referente COVID-19 su dati e trasparenza e un/a referente per ogni regione, a cui la società civile possa fare riferimento;
istituire un centro nazionale, in rete con omologhi centri regionali, dedicato ai dati Covid, che non solo imponga standard e formati, ma che coordini e integri nuovi sistemi di raccolta e individui le criticità in quelli esistenti.
Vediamo di continuo decisioni prese per limitare il contagio sulla base di dati che non sono pubblici: la trasparenza è alla base di ogni democrazia! I cittadini hanno il diritto di conoscere su quali dati e quali analisi si basano le decisioni prese dal governo per le restrizioni dei prossimi DPCM. Da questi dati dipende la nostra vita quotidiana, il nostro lavoro, la nostra salute mentale: vogliamo che siano pubblici! E vogliamo che siano in formato aperto, perché dobbiamo permettere agli scienziati e ai giornalisti di lavorare per bene.
I firmatari di questa lettera sono estremamente preoccupati per il crollo di fiducia generato dalla gestione dell’emergenza COVID-19. In questo momento una corretta comunicazione, basata sull’evidenza dei dati, è quanto mai importante per comprendere le scelte istituzionali che hanno profonde conseguenze sulla vita delle persone.


Ho anticipato questa mia scelta nel gruppo telegram del podcast e mi sono state fatte un po’ di contestazioni su alcuni concetti.

I dati, se sono pubblici, possono cadere in mano a produttori di fake news che possono far dire loro quel che vogliono, ne ho parlato prima, il Software Libero, che è l’esempio più calzante secondo me, è alla portata di tutti e questo non ha fatto che migliorarlo, anche lui, se preso da gente pessima potrebbe essere modificato e compilato facendo software malevoli, il mondo è pieno di gente cattiva e purtroppo sta a noi difenderci dai cattivi, non è rendendo il software o i dati non liberi che si annulla la cattiveria nel mondo.

Un’altra cosa che è venuta fuori riguarda le richieste di energie e personale per la gestione dei dati. Siamo in emergenza, abbiamo la necessità di focalizzarci sulla parte sanitaria, di salvare quante più persone possibili, abbiamo bisogno di medici e di posti letto. Vero. Ma abbiamo anche buttato via soldi in una miriade di fesserie, quindi energia ce n’è, risorse economiche anche. I dati pososno salvare vite, famiglie e situazioni difficili, è giusto che vengano gestiti in modo equo e corretto, è giusto destinarci energie, impegno economico e attenzioni.
I contatti
Tutte le informazioni per contattarmi, sostenere il podcast, compresi tutti i link di cui ho parlato in puntata li trovate su www.pilloledib.it
Mi trovate su twitter come pilloledibit o cesco_78 oppure via mail scrivendo a [email protected]. Il gruppo telegram è comunque il miglior modo per partecipare.
Se volete donare qualcosa potete usare Paypal o Satispay, se donate più di 5€ vi spedisco gli adesivi, se vi abbonate a 5€ al mese vi mando la tessera numerata e arriveranno contenuti esclusivi.
Se volete, potete persino donare in bitcoin, il link a borsellino lo trovate sul sito
Grazie a chi ha contribuito!
Per questa settimana potete donare alla causa di datibenecomune, ovviamente, eh!

Se volete una consulenza tecnica in campo informatico o volete un sito più o meno complesso, trovate le informazioni su www.iltucci.com/consulenza e se volete sponsorizzare una puntata del podcast, le informazioni sono su www.pilloledib.it/sponsor


Da qualche tempo, se andate a cercare nel sito, nel menu Informazioni, c’è una nuova pagina, che si chiama Indice delle puntate, lì trovate tutta la lista delle puntate in ordine cronologico inverso, magari vi è più comodo se stavate cercando qualcosa di specifico oppure, se non sapete cosa ascoltare, per farvi ispirare da uno dei titoli.


Il tip

Non so se siete appassionati di cinema, quei posti dove si andava molto tempo fa, dove c’erano tante sedie una vicina all’altra e su un grande schermo proiettavano i film. Al cinema sono andato a vedere alcuni capolavori di animazione dello studio Ghibli, capolavori indimenticabili.
Lo studio Ghibli ha fatto una cosa bellissima.
Sul loro sito, rigorosamente in giapponese, abilmente tradotto dal traduttore di Google, ci sono per ogni film, alcuni fotogrammi, in alta risoluzione, disponibili per essere scaricati, gratuitamente. Non ci sono di tutti i film, ma pian piano arrivano.
Sono tutti dei capolavori, si vedono i tratti della matita e quelli del pastello che li ha colorati, vale la pena anche passare del tempo a sfogliarli e a soffermarsi a guardare i dettagli di ognuno di loro.
Vale come tempo ottimamente speso per far riposare il cervello da questa brutta situazione che abbiamo intorno
Il link, come sempre, nelle note dell’episodio.

Bene è proprio tutto, non mi resta che salutarvi e darvi appuntamento alla prossima puntata,come al solito il lunedì mattina.

Ciao!