Spaces:

AamirAli123
/

chat_with_pdf

Running

App Files Files Community

AamirAli123 commited on Mar 5

Commit

802e608

•

1 Parent(s): 41c05e9

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -0

app.py CHANGED Viewed

@@ -10,6 +10,8 @@ from langchain_community.llms import HuggingFacePipeline
 from langchain.chains import ConversationChain
 from langchain.memory import ConversationBufferMemory
 from langchain.llms import HuggingFaceHub
 from pathlib import Path
 import chromadb
 # Later Packages
@@ -19,6 +21,7 @@ import weasyprint
 import matplotlib.pyplot as plt
 from langchain.document_loaders import PyPDFDirectoryLoader
 load_dotenv()
 huggingfacehub_api_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
 openai_key = os.getenv("OPEN_API_KEY")
 # default_persist_directory = './chroma_HF/'
@@ -29,6 +32,16 @@ list_llm = ["mistralai/Mixtral-8x7B-Instruct-v0.1", "mistralai/Mistral-7B-Instru
     "google/flan-t5-xxl"
 ]
 list_llm_simple = [os.path.basename(llm) for llm in list_llm]
 # Craete PDf from URL
 def create_pdf_from_url(url):
     pdf = weasyprint.HTML(url).write_pdf()
@@ -50,6 +63,11 @@ def load_doc(list_file_path, chunk_size, chunk_overlap):
         chunk_size = chunk_size,
         chunk_overlap = chunk_overlap)
     doc_splits = text_splitter.split_documents(pages)
     return doc_splits
 # Create vector database

 from langchain.chains import ConversationChain
 from langchain.memory import ConversationBufferMemory
 from langchain.llms import HuggingFaceHub
+from doctr.models import ocr_predictor
+from doctr.io import DocumentFile
 from pathlib import Path
 import chromadb
 # Later Packages
 import matplotlib.pyplot as plt
 from langchain.document_loaders import PyPDFDirectoryLoader
 load_dotenv()
+model = ocr_predictor(pretrained = True)
 huggingfacehub_api_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
 openai_key = os.getenv("OPEN_API_KEY")
 # default_persist_directory = './chroma_HF/'
     "google/flan-t5-xxl"
 ]
 list_llm_simple = [os.path.basename(llm) for llm in list_llm]
+#Extract text data from doctr reaponse
+def extract_value_from_response(response):
+    value = ''
+    for page in response.pages:
+        for block in page.blocks:
+            for line in block.lines:
+                for word in line.words:
+                    value += " "+word.value
+    return value
 # Craete PDf from URL
 def create_pdf_from_url(url):
     pdf = weasyprint.HTML(url).write_pdf()
         chunk_size = chunk_size,
         chunk_overlap = chunk_overlap)
     doc_splits = text_splitter.split_documents(pages)
+    # if len(doc_splits) == 0:
+    #     doc = DocumentFile.from_pdf(list_file_path[0])
+    #     result = model(doc)
+    #     response = extract_value_from_response(result)
+    #     doc_splits = text_splitter.split_documents(response)
     return doc_splits
 # Create vector database