dhuynh95/page_summarizer.py

## page_summarizer.py
from llama_index.core import Document, VectorStoreIndex
from llama_index.core import Settings
import trafilatura

class PageSummarizer:
    def __init__(self, llm, embed_model):
        self.llm = llm
        self.embed_model = embed_model

    def summarize(self, html: str) -> str:
        Settings.llm = self.llm
        Settings.embed_model = self.embed_model

        page_content = trafilatura.extract(html)

        documents = [Document(text=page_content)]
        index = VectorStoreIndex.from_documents(documents)
        query_engine = index.as_query_engine()
        instruction = "Provide a detailled summary of this text"
        page_content_summary = query_engine.query(instruction).response
        return page_content_summary

from llama_index.llms.groq import Groq

model = "llama3-8b-8192"
llm = Groq(model=model, temperature=0.1)
embed_model = context.embedding

page_summarizer = PageSummarizer(llm, embed_model)
	from llama_index.core import Document, VectorStoreIndex
	from llama_index.core import Settings
	import trafilatura

	class PageSummarizer:
	def __init__(self, llm, embed_model):
	self.llm = llm
	self.embed_model = embed_model

	def summarize(self, html: str) -> str:
	Settings.llm = self.llm
	Settings.embed_model = self.embed_model

	page_content = trafilatura.extract(html)

	documents = [Document(text=page_content)]
	index = VectorStoreIndex.from_documents(documents)
	query_engine = index.as_query_engine()
	instruction = "Provide a detailled summary of this text"
	page_content_summary = query_engine.query(instruction).response
	return page_content_summary

	from llama_index.llms.groq import Groq

	model = "llama3-8b-8192"
	llm = Groq(model=model, temperature=0.1)
	embed_model = context.embedding

	page_summarizer = PageSummarizer(llm, embed_model)