pigreco/estrazione.md

## estrazione.md

      
    Raw
  

              estrazione.md
            
          
    Estrarre un sottoinsieme di dati da un file csv da 24 mln di righe

Il mio laptop è del 2015, CPU ~i5 8 GB RAM SSD

BBOX Calabria

Utility awk da riga di comando


https://it.wikipedia.org/wiki/Awk

tr -d '"' <population_ita_2019.csv | awk -F, 'NR == 1 || ( 15.6 <= $2 && $2 <= 17.25 && 37.9 <= $1 && $1 <= 40.15 && $3 != 0 )' >output_awk.csv

tempo: 1m7s
Utility XSV da riga di comando


https://medium.com/mai-piu-senza/filtrare-un-file-csv-da-24-milioni-di-righe-in-pochi-secondi-531527dbf84

xsv search -s Lat '37\.9|3[8-9]\.|40\.0+|40\.1[0-4]|40\.150*$' population_ita_2019-07-01.csv | xsv search -s Lon '15\.[6-9]|16\.|17\.[0-1]|17\.2[0-4]|17\.250*$' | xsv search -s Population '[^0.0]' >output_xsv.csv

tempo: 13s
Libreria GDAL/OGR da riga di comando


https://gdal.org/drivers/vector/vrt.html#virtual-file-format

ogr2ogr -f "CSV" output_ogr.csv virtual.vrt -sql "SELECT "Lat", "Lon", "Population" FROM "population_ita_2019" where Lon >= 15.6 AND Lon <= 17.25 AND Lat >= 37.9 AND Lat <= 40.15 AND Population > 0.0"

tempo: 4m14s
Utility Miller da riga di comando


https://github.com/johnkerl/miller

mlr --csv filter '($Lat >=37.9 && $Lat <=40.15) && ($Lon >=15.6 && $Lon <=17.25) && ($Population>0)' population_ita_2019-07-01.csv >output_mlr.csv

tempo: 2m13s
PS: Con Miller potrei dare direttamente il file *.zip, risparmiando il tempo di unzip
Quadro sinottico


Utility
tempo


XSV
13s


awk
1m7s


mlr
2m14s


ogr2ogr
4m14s


Visualizzo con VisiData da riga di comando


https://www.visidata.org/