Skip to content

Instantly share code, notes, and snippets.

@steko
Last active April 22, 2024 10:26
Show Gist options
  • Star 2 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save steko/8869165 to your computer and use it in GitHub Desktop.
Save steko/8869165 to your computer and use it in GitHub Desktop.
Abilitazione Scientifica Nazionale: i #datiasn

I #datiasn si prendono da qui: http://abilitazione.miur.it/public/pubblicarisultati.php usando questo Scraperwiki: https://scraperwiki.com/dataset/bsrkmqa/view/hnzlity

Attualmente sono composti da due tabelle: sectors e candidates. La tabella sectors serve unicamente come elenco di riferimento ed era necessaria per scaricare i dati ma il settore è indicato anche nella tabella candidates.

Si scaricano in formato

URL di base

Questi sono gli URL da usare per il prossimo passaggio: scaricare tutte le domande, i CV e i giudizi. Probabilmente è meglio fare questo scaricamento in locale e non su Scraperwiki. Scriveremo degli script appositi per scaricare blocchi di documenti, e poi altri script separati per estrarre i dati da un insieme di file (es. avete una cartella con 1000 CV in PDF ed eseguite uno script per estrarre i dati anagrafici da tutti i PDF, salvandoli in un CSV).

Sostituire @@ID@@ con l'id univoco della candidatura

Scaricare i CV

import requests

pdf = requests.get('https://abilitazione.cineca.it/ministero.php/public/getfile/domanda/%s/tipo/1' % id)
filename = pdf.headers['content-disposition'].split('=')[-1].strip('"')

with open(filename, 'wb') as f:
    f.write(pdf.content)

Analisi

Quali settori hanno maggiore o minore

  • numero di domande
  • percentuale di abilitati
  • numero di donne (in base al nome, ci sono 4621 nomi univoci)
  • numero di domande presentate in entrambe le fasce di abilitazione (stesso settore)

Ci sono 34023 nomi unici ma 48423 domande. È possibile che qualche nome doppio non corrisponda alla stessa persona, ma si può sapere solo scaricando i curriculum e facendo un lungo scraping dei dati anagrafici

Dati anagrafici

Per settore:

  • età
  • genere
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment