Skip to content

Instantly share code, notes, and snippets.

@josejuan
Last active October 4, 2020 11:53
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save josejuan/ceed6e41c830ec5123fa187645f8ba70 to your computer and use it in GitHub Desktop.
Save josejuan/ceed6e41c830ec5123fa187645f8ba70 to your computer and use it in GitHub Desktop.
Info de descarga en:
https://www.boe.es/datosabiertos/
Para bajar todo desde enero de 2009 por ejemplo:
for y in `seq 2009 2020`
do
for m in 01 02 03 04 05 06 07 08 09 10 11 12
do
php -f traer_borme.php ${y}${m}01 ${y}${m}31 &
done
done
Eso sólo baja los pdf, pero podemos tener los xml de esos pdf haciendo algo como:
find -name *.pdf | \
perl -n -e 'print "$1 $2\n" if /^(.*)\/(BORME-.*)\.pdf$/' | \
while read a b
do
curl -s 'https://boe.es/diario_borme/xml.php?id='$b -o $a/$b.xml
done
Una forma rápida (y chapucera) de obtener los nombres más frecuentes puede ser:
find -name *.xml | \
xargs cat | \
perl -n -e '$_ =~ s/([A-Z][a-z]+ [A-Z][a-z]+ [A-Z][a-z]+)/\n$1/g; print' | \
perl -n -e 'print "$1\n" if /^([A-Z][a-z]+ [A-Z][a-z]+ [A-Z][a-z]+)/' | \
sort | \
uniq -c | \
sort -n
No voy a esperar que baje todo, pero un ejemplo de la salida sería:
...
8 Susana Monje Guti
9 Laboratorio Reig Jofre
10 El Registrador Mercantil
11 Antonio Soler Ramos
11 Juntas Generales Universales
12 Cementos Portland Valderrivas
12 El Administrador Solidario
12 John Bean Technologies
12 Mercado Alternativo Burs
13 Convocatoria Junta General
14 Ciudad Grupo Santander
14 Los Administradores Mancomunados
14 Tenis Las Lomas
16 El Consejero Delegado
18 Obligaciones Ordinarias Serie
19 Juntas Generales Extraordinarias
22 Santander International Debt
41 Junta General Universal
65 La Junta General
71 Real Decreto Legislativo
157 Sociedad Limitada Unipersonal
471 Junta General Extraordinaria
517 Junta General Ordinaria
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment