anilkilic/scrape_mapa.py

## scrape_mapa.py
import requests

import json
from pathlib import Path

def get_json():
    data = {
        'tipoExportacion': 'Productos',
        'dataDto': '{"nombreComercial":"","titular":"","numRegistro":"","fabricante":"","idSustancia":null,"idAmbito":null,"idPlaga":null,"idFuncion":null,"idEstado":"1","idCultivo":null,"idSistemaCultivo":null,"idTipoUsuario":null,"ancestros":false,"fecRenoDesde":"","fecRenoHasta":"","fecInscDesde":"","fecInscHasta":"","fecModiDesde":"","fecModiHasta":"","fecCaduDesde":"","fecCaduHasta":"","fecLimiDesde":"","fecLimiHasta":""}',
    }

    response = requests.post(
        'https://servicio.mapa.gob.es/regfiweb/Exportaciones/ExportJson',
        data=data,
    )

    data = json.loads(response.json())
    return data


def save_pdf(id):
    data = {'idProducto': id,}

    response = requests.post(
        'https://servicio.mapa.gob.es/regfiweb/Productos/ExportFichaProductoPdf',
        data=data,
    )

    with open(f"files/{id}.pdf", "wb") as f:
        print(f"writing to {id}.pdf")
        f.write(response.content)

def main():
	data = get_json()

	content = json.loads(data.get("Contenido"))
	ids = [c.get("IdProducto") for c in content]
	print(f"going to download {len(ids)} pdfs")

	Path("files").mkdir(parents=True, exist_ok=True)

	for id in ids:
	    save_pdf(id)

if __name__ == "__main__":
	main()
	import requests

	import json
	from pathlib import Path

	def get_json():
	data = {
	'tipoExportacion': 'Productos',
	'dataDto': '{"nombreComercial":"","titular":"","numRegistro":"","fabricante":"","idSustancia":null,"idAmbito":null,"idPlaga":null,"idFuncion":null,"idEstado":"1","idCultivo":null,"idSistemaCultivo":null,"idTipoUsuario":null,"ancestros":false,"fecRenoDesde":"","fecRenoHasta":"","fecInscDesde":"","fecInscHasta":"","fecModiDesde":"","fecModiHasta":"","fecCaduDesde":"","fecCaduHasta":"","fecLimiDesde":"","fecLimiHasta":""}',
	}

	response = requests.post(
	'https://servicio.mapa.gob.es/regfiweb/Exportaciones/ExportJson',
	data=data,
	)

	data = json.loads(response.json())
	return data


	def save_pdf(id):
	data = {'idProducto': id,}

	response = requests.post(
	'https://servicio.mapa.gob.es/regfiweb/Productos/ExportFichaProductoPdf',
	data=data,
	)

	with open(f"files/{id}.pdf", "wb") as f:
	print(f"writing to {id}.pdf")
	f.write(response.content)

	def main():
	data = get_json()

	content = json.loads(data.get("Contenido"))
	ids = [c.get("IdProducto") for c in content]
	print(f"going to download {len(ids)} pdfs")

	Path("files").mkdir(parents=True, exist_ok=True)

	for id in ids:
	save_pdf(id)

	if __name__ == "__main__":
	main()