joshreini1/pinecone-blog-1.py

## pinecone-blog-1.py
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA

# completion llm
llm = ChatOpenAI(
    model_name='gpt-3.5-turbo',
    temperature=0.0
)

qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

## pinecone-blog-10.py
tru.run_dashboard()

## pinecone-blog-11.py
# Imports main tools for eval
from trulens_eval import TruChain, Feedback, Tru, feedback, Select
import numpy as np
tru = Tru()

# OpenAI as feedback provider
openai = feedback.OpenAI()

# Question/answer relevance between overall question and answer.
qa_relevance = Feedback(openai.relevance).on_input_output()
# By default this will evaluate feedback on main app input and main app output.

# Question/statement relevance between question and each context chunk.
qs_relevance =
Feedback(openai.qs_relevance).
on_input()
.on(Select.Record.app.combine_documents_chain._call.args.inputs.input_documents[:].page_content)
.aggregate(np.mean)

## pinecone-blog-12.py
# wrap with TruLens
truchain = TruChain(qa,
    app_id='Chain1_WikipediaQA',
    feedbacks=[qa_relevance, qs_relevance])

## pinecone-blog-2.py
pinecone.create_index(
        name=index_name_v1,
        metric='cosine', # we'll try each distance metric here
        dimension=1536,  # 1536 dim of text-embedding-ada-002,
        metadata_config={“indexed”:[]} # pass empty list for names of indexed metadata fields
)

## pinecone-blog-3.py
# completion llm
from langchain.llms import OpenAI

llm = OpenAI(
    model_name='text-ada-001',
    temperature=0
)

from langchain.chains import RetrievalQAWithSourcesChain
qa_with_sources = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

# wrap with TruLens
truchain = TruChain(qa_with_sources,
    app_id='Chain4_WikipediaQA',
    feedbacks=[qa_relevance, qs_relevance])

## pinecone-blog-4.py
index_name_v2 = 'langchain-rag-euclidean'
pinecone.create_index(
        name=index_name_v2,
        metric='euclidean', # metric=’dotproduct’,
        dimension=1536,  # 1536 dim of text-embedding-ada-002
    )

## pinecone-blog-5.py
embed = OpenAIEmbeddings(
    model='text-embedding-ada-002',
    openai_api_key=OPENAI_API_KEY
)

from langchain.vectorstores import Pinecone

text_field = "text"

# switch back to normal index for langchain
index = pinecone.Index(index_name_v1)

vectorstore = Pinecone(
    index, embed.embed_query, text_field
)

## pinecone-blog-6.py
import pinecone_datasets

dataset = pinecone_datasets.load_dataset('wikipedia-simple-text-embedding-ada-002-100K')
dataset.head()

## pinecone-blog-7.py
for batch in dataset.iter_documents(batch_size=100):
    index.upsert(batch)

## pinecone-blog-8.py
qa= RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(top_k = 1)
)

## pinecone-blog-9.py
qs_relevance = Feedback(openai.qs_relevance).on_input().on(
    Select.Record.app.combine_documents_chain._call.args.inputs.input_documents[:1].page_content
).aggregate(np.mean)
	from langchain.chat_models import ChatOpenAI
	from langchain.chains import RetrievalQA

	# completion llm
	llm = ChatOpenAI(
	model_name='gpt-3.5-turbo',
	temperature=0.0
	)

	qa = RetrievalQA.from_chain_type(
	llm=llm,
	chain_type="stuff",
	retriever=vectorstore.as_retriever()
	)
	# Imports main tools for eval
	from trulens_eval import TruChain, Feedback, Tru, feedback, Select
	import numpy as np
	tru = Tru()

	# OpenAI as feedback provider
	openai = feedback.OpenAI()

	# Question/answer relevance between overall question and answer.
	qa_relevance = Feedback(openai.relevance).on_input_output()
	# By default this will evaluate feedback on main app input and main app output.

	# Question/statement relevance between question and each context chunk.
	qs_relevance =
	Feedback(openai.qs_relevance).
	on_input()
	.on(Select.Record.app.combine_documents_chain._call.args.inputs.input_documents[:].page_content)
	.aggregate(np.mean)
	# wrap with TruLens
	truchain = TruChain(qa,
	app_id='Chain1_WikipediaQA',
	feedbacks=[qa_relevance, qs_relevance])
	pinecone.create_index(
	name=index_name_v1,
	metric='cosine', # we'll try each distance metric here
	dimension=1536, # 1536 dim of text-embedding-ada-002,
	metadata_config={“indexed”:[]} # pass empty list for names of indexed metadata fields
	)
	# completion llm
	from langchain.llms import OpenAI

	llm = OpenAI(
	model_name='text-ada-001',
	temperature=0
	)

	from langchain.chains import RetrievalQAWithSourcesChain
	qa_with_sources = RetrievalQA.from_chain_type(
	llm=llm,
	chain_type="stuff",
	retriever=vectorstore.as_retriever()
	)

	# wrap with TruLens
	truchain = TruChain(qa_with_sources,
	app_id='Chain4_WikipediaQA',
	feedbacks=[qa_relevance, qs_relevance])
	index_name_v2 = 'langchain-rag-euclidean'
	pinecone.create_index(
	name=index_name_v2,
	metric='euclidean', # metric=’dotproduct’,
	dimension=1536, # 1536 dim of text-embedding-ada-002
	)
	embed = OpenAIEmbeddings(
	model='text-embedding-ada-002',
	openai_api_key=OPENAI_API_KEY
	)

	from langchain.vectorstores import Pinecone

	text_field = "text"

	# switch back to normal index for langchain
	index = pinecone.Index(index_name_v1)

	vectorstore = Pinecone(
	index, embed.embed_query, text_field
	)
	import pinecone_datasets

	dataset = pinecone_datasets.load_dataset('wikipedia-simple-text-embedding-ada-002-100K')
	dataset.head()
	for batch in dataset.iter_documents(batch_size=100):
	index.upsert(batch)
	qa= RetrievalQA.from_chain_type(
	llm=llm,
	chain_type="stuff",
	retriever=vectorstore.as_retriever(top_k = 1)
	)