thomaswpp/netcraft.py

## netcraft.py
import requests
from bs4 import BeautifulSoup

#Aqui vamos capturar o html da página:
url = "https://news.netcraft.com"
response = requests.get(url)
#print(response.text)

#Pronto agora que temos o html, precisamos retirar o texto que nós interessa
#vi que o começo de toda notícia utiliza uma div com uma class="entry-content"
#<div class="entry-content">
#Note que uma class geralmente não é única em documentos e temos que observar bem antes de usa-la em
#nossas buscas, mas neste caso seria uma boa opção
#instanciando o objeto soup
soup = BeautifulSoup(response.text, "lxml")

#vamos aqui buscar todas divs, vai retornar uma lista:
lista = soup.findAll("div", {"class":"entry-content"})
#aqui podemos acessar o primeiro elemento dessa div, que será a primeira notícia
#ps: caso você só queira a primeira notícia de fato, basta usar o find em vez de findAll
print(lista[0])
#agora analisando o html podemos ver que temos que acessar os 3 próximos <b>, caso ele exista,
#pode haver caso que a div com essa class que usamos não comece com um texto neste caso não terá nenhuma tag <b>

#interar na lista
for div in lista:
	lista_b = div.findAll('b')
	#vamos ter que interar em outra lista, é chato for aninhado, mas é o jeito
	for b in lista_b:
		print(b.string)
	import requests
	from bs4 import BeautifulSoup

	#Aqui vamos capturar o html da página:
	url = "https://news.netcraft.com"
	response = requests.get(url)
	#print(response.text)

	#Pronto agora que temos o html, precisamos retirar o texto que nós interessa
	#vi que o começo de toda notícia utiliza uma div com uma class="entry-content"
	#<div class="entry-content">
	#Note que uma class geralmente não é única em documentos e temos que observar bem antes de usa-la em
	#nossas buscas, mas neste caso seria uma boa opção
	#instanciando o objeto soup
	soup = BeautifulSoup(response.text, "lxml")

	#vamos aqui buscar todas divs, vai retornar uma lista:
	lista = soup.findAll("div", {"class":"entry-content"})
	#aqui podemos acessar o primeiro elemento dessa div, que será a primeira notícia
	#ps: caso você só queira a primeira notícia de fato, basta usar o find em vez de findAll
	print(lista[0])
	#agora analisando o html podemos ver que temos que acessar os 3 próximos <b>, caso ele exista,
	#pode haver caso que a div com essa class que usamos não comece com um texto neste caso não terá nenhuma tag <b>

	#interar na lista
	for div in lista:
	lista_b = div.findAll('b')
	#vamos ter que interar em outra lista, é chato for aninhado, mas é o jeito
	for b in lista_b:
	print(b.string)