Phi2-PDF-chat

Sleeping

dinhquangson commited on Jan 21

Commit

4ae7ab5

•

1 Parent(s): 142ca34

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ import streamlit as st
 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import HuggingFaceBgeEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
@@ -36,13 +37,14 @@ def get_pdf_text(pdf_docs):
     """
     text = ""
     for pdf in pdf_docs:
-        pdf_reader = PdfReader(pdf)
-        for page in pdf_reader.pages:
             text += page.extract_text()
     return text
-def get_texts(pdf_pages):
     """
     Split the input text into chunks.
@@ -60,7 +62,7 @@ def get_texts(pdf_pages):
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=1024, chunk_overlap=64
     )
-    texts = text_splitter.split_text(pdf_pages)
     return texts
@@ -170,8 +172,11 @@ def main():
         )
         if st.button("Process"):
             with st.spinner("Processing"):
                 # get the text chunks
-                text_chunks = get_texts(pdf_docs)
                 # create vector store
                 vectorstore = get_vectorstore(text_chunks)

 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import UnstructuredPDFLoader
 from langchain.embeddings import HuggingFaceBgeEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
     """
     text = ""
     for pdf in pdf_docs:
+        pdf_loader = UnstructuredPDFLoader(pdf)
+        pdf_pages = pdf_loader.load_and_split()
+        for page in pdf_pages:
             text += page.extract_text()
     return text
+def get_text_chunks(text):
     """
     Split the input text into chunks.
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=1024, chunk_overlap=64
     )
+    texts = text_splitter.split_text(text)
     return texts
         )
         if st.button("Process"):
             with st.spinner("Processing"):
+                # get the raw text
+                text = get_pdf_text(pdf_docs)
                 # get the text chunks
+                text_chunks = get_text_chunks(text)
                 # create vector store
                 vectorstore = get_vectorstore(text_chunks)