Phi2-PDF-chat

Sleeping

dinhquangson commited on Jan 21

Commit

7878029

•

1 Parent(s): 09c532f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.document_loaders import UnstructuredPDFLoader
 from langchain.embeddings import HuggingFaceBgeEmbeddings
-from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
@@ -81,14 +81,9 @@ def get_vectorstore(text_chunks):
         A FAISS vector store containing the embeddings of the text chunks.
     """
-    model = "sentence-transformers/all-mpnet-base-v2"
-    encode_kwargs = {
-        "normalize_embeddings": True
-    }  # set True to compute cosine similarity
-    embeddings = HuggingFaceBgeEmbeddings(
-        model_name=model, encode_kwargs=encode_kwargs, model_kwargs={"device": "cpu"}
-    )
-    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
     return vectorstore

 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.document_loaders import UnstructuredPDFLoader
 from langchain.embeddings import HuggingFaceBgeEmbeddings
+from langchain.vectorstores import Chroma
 from langchain.chat_models import ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
         A FAISS vector store containing the embeddings of the text chunks.
     """
+    MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
+    hf_embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)
+    vectorstore = Chroma.from_documents(texts, hf_embeddings, persist_directory="db")
     return vectorstore