steko/asn-scraper.md

## asn-scraper.md

      
    Raw
  

              asn-scraper.md
            
          
    I #datiasn si prendono da qui: http://abilitazione.miur.it/public/pubblicarisultati.php usando questo Scraperwiki: https://scraperwiki.com/dataset/bsrkmqa/view/hnzlity
Attualmente sono composti da due tabelle: sectors e candidates. La tabella sectors serve unicamente come elenco di riferimento ed era necessaria per scaricare i dati ma il settore è indicato anche nella tabella candidates.
Si scaricano in formato

XLSX (unico file) https://free-ec2.scraperwiki.com/hnzlity/1a1f15c1ae1f46d/http/all_tables.xlsx
CSV (due file separati per le due tabelle) https://free-ec2.scraperwiki.com/hnzlity/1a1f15c1ae1f46d/http/sectors.csv e https://free-ec2.scraperwiki.com/hnzlity/1a1f15c1ae1f46d/http/candidates.csv

URL di base

Questi sono gli URL da usare per il prossimo passaggio: scaricare tutte le domande, i CV e i giudizi. Probabilmente è meglio fare questo scaricamento in locale e non su Scraperwiki. Scriveremo degli script appositi per scaricare blocchi di documenti, e poi altri script separati per estrarre i dati da un insieme di file (es. avete una cartella con 1000 CV in PDF ed eseguite uno script per estrarre i dati anagrafici da tutti i PDF, salvandoli in un CSV).
Sostituire @@ID@@ con l'id univoco della candidatura

CV (PDF): https://abilitazione.cineca.it/ministero.php/public/getfile/domanda/@@ID@@/tipo/1
Indicatori (tabella HTML): https://abilitazione.cineca.it/ministero.php/public/indicatori/domanda/@@ID@@
Giudizio (PDF): http://abilitazione-miur.cineca.it/public/documenti/giudizi/2012/Giudizi@@ID@@.pdf

Scaricare i CV

import requests

pdf = requests.get('https://abilitazione.cineca.it/ministero.php/public/getfile/domanda/%s/tipo/1' % id)
filename = pdf.headers['content-disposition'].split('=')[-1].strip('"')

with open(filename, 'wb') as f:
    f.write(pdf.content)

Analisi

Quali settori hanno maggiore o minore

numero di domande
percentuale di abilitati
numero di donne (in base al nome, ci sono 4621 nomi univoci)
numero di domande presentate in entrambe le fasce di abilitazione (stesso settore)

Ci sono 34023 nomi unici ma 48423 domande. È possibile che qualche nome doppio non corrisponda alla stessa persona, ma si può sapere solo scaricando i curriculum e facendo un lungo scraping dei dati anagrafici
Dati anagrafici

Per settore:

età
genere