Spaces:

ShiwenNi
/

ChatPDF

Running

App Files Files Community

ShiwenNi commited on Aug 3, 2023

Commit

b4bac0d

•

1 Parent(s): 6c47ad7

Upload 3 files

Browse files

Files changed (3) hide show

app.py +74 -0
pdfquery.py +35 -0
requirements.txt +6 -0

app.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import gradio as gr
+import os
+import time
+import shutil
+import base64
+from pdfquery import PDFQuery
+pquery = PDFQuery()
+def openai_create(s):
+    global pquery
+    return pquery.ask(s)
+def chatgpt_clone(input, history, chatbot):
+    if input == "":
+        return chatbot, history, ""
+    history = history or []
+    s = list(sum(history, ()))
+    s.append(input)
+    inp = ' '.join(s)
+    output = openai_create(input)
+    history.append((inp, output))
+    chatbot.append((input, output))
+    return chatbot, history, ""
+title_html = f"<h1 align=\"center\">Chat With Pdf</h1>"
+gr_L1 = lambda: gr.Row().style()
+gr_L2 = lambda scale, elem_id: gr.Column(scale=scale, elem_id=elem_id)
+def pdf_to_markdown(file_obj):
+    try:
+        shutil.rmtree('./private_upload/')
+    except:
+        pass
+    time_tag = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
+    os.makedirs(f'private_upload/{time_tag}', exist_ok=True)
+    file_name = os.path.basename(file_obj.name)
+    destination = f'private_upload/{time_tag}/{file_name}'
+    shutil.copy(file_obj.name, destination)
+    global pquery
+    pquery.ingest(destination)
+    with open(destination, "rb") as f:
+        pdf = base64.b64encode(f.read()).decode('utf-8')
+    pdf_display = f'<embed src="data:application/pdf;base64,{pdf}" ' \
+                    f'width="700" height="800" type="application/pdf">'
+    return [pdf_display, gr.update(visible=False),gr.update(visible=True),gr.update(visible=True),gr.update(visible=True),
+            gr.update(visible=True),gr.update(visible=True)]
+# 清空
+cle = lambda :""
+with gr.Blocks(title="Chat With Pdf") as demo:
+    gr.HTML(title_html)
+    file = gr.File()
+    with gr_L1():
+        with gr_L2(scale=1.5, elem_id="gpt-chat"):
+            out = gr.Markdown()
+        with gr_L2(scale=1, elem_id="gpt-chat"):
+            title = gr.Markdown("""<h1><center><strong>文档问答 </strong></center></h1>
+            """, visible=False)
+            chatbot = gr.Chatbot(scale=3, height=600, visible=False)
+            with gr_L1():
+                message = gr.Textbox(placeholder="Input question here.", scale=10, visible=False)
+                state = gr.State([])
+                submit = gr.Button("发送", scale=1, visible=False)
+        file.upload(pdf_to_markdown, file, [out, file, out, title, chatbot, message, submit])
+        submit.click(chatgpt_clone, inputs=[message, state, chatbot], outputs=[chatbot, state, message])
+demo.launch(share=True)

pdfquery.py ADDED Viewed

	@@ -0,0 +1,35 @@

+import os
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.vectorstores import Chroma
+from langchain.document_loaders import PyPDFium2Loader
+from langchain.chains.question_answering import load_qa_chain
+# from langchain.llms import OpenAI
+from langchain.chat_models import ChatOpenAI
+class PDFQuery:
+    def __init__(self):
+        os.environ["OPENAI_API_KEY"] = "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"
+        self.embeddings = OpenAIEmbeddings()
+        self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=200)
+        # self.llm = OpenAI(temperature=0, openai_api_key=openai_api_key)
+        self.llm = ChatOpenAI(temperature=0)
+        self.chain = None
+        self.db = None
+    def ask(self, question: str) -> str:
+        if self.chain is None:
+            response = "Please, add a document."
+        else:
+            docs = self.db.get_relevant_documents(question)
+            response = self.chain.run(input_documents=docs, question=question)
+        return response
+    def ingest(self, file_path: os.PathLike) -> None:
+        loader = PyPDFium2Loader(file_path)
+        documents = loader.load()
+        splitted_documents = self.text_splitter.split_documents(documents)
+        self.db = Chroma.from_documents(splitted_documents, self.embeddings).as_retriever()
+        # self.chain = load_qa_chain(OpenAI(temperature=0), chain_type="stuff")
+        self.chain = load_qa_chain(ChatOpenAI(temperature=0), chain_type="stuff")

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio
+langchain
+openai
+pypdfium2
+chromadb
+tiktoken