codeboy/html_tag_parsing.py

## html_tag_parsing.py
# Код для парсинга немного избыточен, однако так нагляднее
# Здесь добавление экшенов в кастомном парсере для подсчёта тегов
# Так же полный словарь с количеством каждого элемента
# тегов в коде главной страницы - count 1072
# из них содержит атрибуты - tags_with_attr 982

from html.parser import HTMLParser
from collections import defaultdict
from urllib.request import urlopen


class MyHTMLParser(HTMLParser):
    '''
    для того, что бы сам парсер заработал, надо добавить методы обработки
    '''
    def __init__(self):
        self.alltags = defaultdict(int) # словарь с тегами
        self.count = int() # количество всех тегов
        self.tags_with_attr = int() # количество тэгов с атрибутами
        super().__init__()

    def handle_starttag(self, tag, attrs):
        self.alltags[tag] += 1
        self.count += 1
        if len(attrs) >= 1:
            self.tags_with_attr += 1

    def handle_startendtag(self, tag, attrs):
        self.alltags[tag] += 1
        self.count += 1
        if len(attrs) >= 1:
            self.tags_with_attr += 1

def count_tags(html):
    parser = MyHTMLParser()
    parser.feed(html)
    return {
        'alltags': parser.alltags,
        'count': parser.count,
        'tags_with_attr': parser.tags_with_attr,
    }

link = urlopen('http://www.jetlend.ru')
if link.getcode() == 200:
    content = link.read().decode("utf-8")
    parsed = count_tags(content)
    for i in parsed:
        print(i, parsed[i])
else:
    print('Some error happend')
	# Код для парсинга немного избыточен, однако так нагляднее
	# Здесь добавление экшенов в кастомном парсере для подсчёта тегов
	# Так же полный словарь с количеством каждого элемента
	# тегов в коде главной страницы - count 1072
	# из них содержит атрибуты - tags_with_attr 982

	from html.parser import HTMLParser
	from collections import defaultdict
	from urllib.request import urlopen


	class MyHTMLParser(HTMLParser):
	'''
	для того, что бы сам парсер заработал, надо добавить методы обработки
	'''
	def __init__(self):
	self.alltags = defaultdict(int) # словарь с тегами
	self.count = int() # количество всех тегов
	self.tags_with_attr = int() # количество тэгов с атрибутами
	super().__init__()

	def handle_starttag(self, tag, attrs):
	self.alltags[tag] += 1
	self.count += 1
	if len(attrs) >= 1:
	self.tags_with_attr += 1

	def handle_startendtag(self, tag, attrs):
	self.alltags[tag] += 1
	self.count += 1
	if len(attrs) >= 1:
	self.tags_with_attr += 1

	def count_tags(html):
	parser = MyHTMLParser()
	parser.feed(html)
	return {
	'alltags': parser.alltags,
	'count': parser.count,
	'tags_with_attr': parser.tags_with_attr,
	}

	link = urlopen('http://www.jetlend.ru')
	if link.getcode() == 200:
	content = link.read().decode("utf-8")
	parsed = count_tags(content)
	for i in parsed:
	print(i, parsed[i])
	else:
	print('Some error happend')