Skip to content

Instantly share code, notes, and snippets.

@mauriciopasquier
Last active September 4, 2015 01:14
Show Gist options
  • Save mauriciopasquier/240282 to your computer and use it in GitHub Desktop.
Save mauriciopasquier/240282 to your computer and use it in GitHub Desktop.
Script para extraer todos los mails de los senadores nacionales de la República Argentina y guardarlos en un txt separados por comas, útil para mandarles mails
# Script para extraer todos los mails de los senadores
# nacionales de la República Argentina y guardarlos en
# un csv/txt separados por comas.
require 'nokogiri'
require 'open-uri'
senadores = Array.new
web = Nokogiri::HTML(open('http://www.senado.gov.ar/web/senadores/senadores.php', :proxy => false))
web.xpath('//td[@class="tdtextolink"]').each do |senador|
senador.attribute_nodes.each do |atributo|
if atributo.to_s.include? "location"
senadores << 'http://www.senado.gov.ar/web/senadores/' + atributo.to_s.sub("location.href = '", '').sub("'", '')
end
end
end
archivo = File.open('senadores.csv', 'w')
senadores.each do |url|
pagina = Nokogiri::HTML(open(url, :proxy => false))
pagina.xpath('//a[@class="textolink"]').each do |link|
if link.content.include? "@"
# algunos suben varios mails separados por ;
archivo.puts link.content.split(';').join(',') + ', '
end
end
end
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment