I #datiasn si prendono da qui: http://abilitazione.miur.it/public/pubblicarisultati.php usando questo Scraperwiki: https://scraperwiki.com/dataset/bsrkmqa/view/hnzlity
Attualmente sono composti da due tabelle: sectors
e candidates
. La tabella sectors
serve unicamente come elenco di riferimento ed era necessaria per scaricare i dati ma il settore è indicato anche nella tabella candidates
.
Si scaricano in formato
- XLSX (unico file) https://free-ec2.scraperwiki.com/hnzlity/1a1f15c1ae1f46d/http/all_tables.xlsx
- CSV (due file separati per le due tabelle) https://free-ec2.scraperwiki.com/hnzlity/1a1f15c1ae1f46d/http/sectors.csv e https://free-ec2.scraperwiki.com/hnzlity/1a1f15c1ae1f46d/http/candidates.csv
Questi sono gli URL da usare per il prossimo passaggio: scaricare tutte le domande, i CV e i giudizi. Probabilmente è meglio fare questo scaricamento in locale e non su Scraperwiki. Scriveremo degli script appositi per scaricare blocchi di documenti, e poi altri script separati per estrarre i dati da un insieme di file (es. avete una cartella con 1000 CV in PDF ed eseguite uno script per estrarre i dati anagrafici da tutti i PDF, salvandoli in un CSV).
Sostituire @@ID@@ con l'id univoco della candidatura
- CV (PDF): https://abilitazione.cineca.it/ministero.php/public/getfile/domanda/@@ID@@/tipo/1
- Indicatori (tabella HTML): https://abilitazione.cineca.it/ministero.php/public/indicatori/domanda/@@ID@@
- Giudizio (PDF): http://abilitazione-miur.cineca.it/public/documenti/giudizi/2012/Giudizi@@ID@@.pdf
import requests
pdf = requests.get('https://abilitazione.cineca.it/ministero.php/public/getfile/domanda/%s/tipo/1' % id)
filename = pdf.headers['content-disposition'].split('=')[-1].strip('"')
with open(filename, 'wb') as f:
f.write(pdf.content)
Quali settori hanno maggiore o minore
- numero di domande
- percentuale di abilitati
- numero di donne (in base al nome, ci sono 4621 nomi univoci)
- numero di domande presentate in entrambe le fasce di abilitazione (stesso settore)
Ci sono 34023 nomi unici ma 48423 domande. È possibile che qualche nome doppio non corrisponda alla stessa persona, ma si può sapere solo scaricando i curriculum e facendo un lungo scraping dei dati anagrafici
Per settore:
- età
- genere