Una delle attività del Data Life Lab è promuovere l’Open Notebook Science come strumento di condivisione del sapere accessibile a tutti e formare nuovi talenti della Data Science.

La Open Notebook Science è la pratica di rendere disponibili on-line i dati e le procedure utilizzate in un progetto di ricerca a chiunque desideri analizzarli o riprodurli.

Si tratta di una vera e propria rivoluzione della quale il Data Life Lab si fa promotore attraverso strumenti provenienti dal mondo dell’open source. In particolare sono tre le modalità che utilizziamo con profitto all’interno del laboratorio per promuovere l’Open Notebook Science:

  1. Linguaggi di programmazione / scripting open source e librerie statistiche certificate dalla comunità scientifica
  2. Un linguaggio di markdown per condividere in modo ordinato e documentato l’output della ricerca
  3. Sistemi di controllo di versione e di hosting di codice su web / GitHub

Il Data Life Lab mette a disposizione della comunità tutti i materiali per apprendere l’analisi dei dati attraverso il linguaggio di programmazione Python.

Tutti possono diventare Data Scientist

Il laboratorio promuove ulteriormente la diffusione delle buone pratiche dell’Open Notebook Science in dei corsi intensivi presso l’Università degli Studi di Firenze. I corsi hanno avuto molto successo e sono ormai giunti alla quarta edizione.

Prerequisiti dei corsi

  • nessuna conoscenza pregressa di programmazione informatica
  • concetti base di metodologia della ricerca e di statistica

Il corso è un’introduzione ai software per l’analisi dati basato sul paradigma della Open Notebook Science per ottenere una maggiore trasparenza e riproducibilità della ricerca grazie all’utilizzo sistematico di tre principali elementi:

  1. Open Data – dati liberamente utilizzabili come quelli Eurostat e Istat
  2. Open Source – programmi a sorgente aperta, basati su licenze che permettono il riuso e miglioramento del codice
  3. Open Science – pubblicazione in modo aperto su piattaforme pubbliche come Zenodo (CERN – Unione Europea)

Il corso fornisce un primo approfondimento del linguaggio di programmazione open-source Python e delle relative librerie statistiche largamente usate dalle comunità scientifiche e tecnologiche per l’analisi dati in ambito di open notebook science. Conoscere le basi del linguaggio abilità lo studente all’apprendimento di tecniche di analisi che vanno dalla semplice descrittiva, fino a quelle complesse come la geospaziale e il machine learning.

Scarica il materiale del corso da GitHub