Spaces:

Multimedika
/

Bot_Development

Running

App Files Files Community

dsmultimedika commited on 1 day ago

Commit

738d903

•

1 Parent(s): d075fb6

Delete journal reading

Browse files

Files changed (7) hide show

Dockerfile +1 -1
api/router/reader.py +0 -17
app.py +1 -4
core/journal_reading/__init__.py +0 -0
core/journal_reading/extractor.py +0 -8
core/journal_reading/prompt.py +0 -0
core/journal_reading/upload.py +0 -85

Dockerfile CHANGED Viewed

@@ -11,4 +11,4 @@ COPY --chown=user ./requirements.txt requirements.txt
 RUN pip install --no-cache-dir --upgrade -r requirements.txt
 COPY --chown=user . /app
-CMD ["python", "app.py", "--host", "0.0.0.0", "--port", "7860"]

 RUN pip install --no-cache-dir --upgrade -r requirements.txt
 COPY --chown=user . /app
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

api/router/reader.py DELETED Viewed

@@ -1,17 +0,0 @@
-from fastapi import APIRouter, File, UploadFile, HTTPException
-from core.journal_reading.upload import upload_file
-router = APIRouter(tags=["Journal Reading"])
-@router.post("/upload")
-async def upload_journal(file: UploadFile = File(...)):
-    try :
-        documents = await upload_file(file)
-        return {"Success"}
-    except Exception as e:
-        raise HTTPException(
-            status_code=400, detail=f"Error processing file: {str(e)}"
-        )

app.py CHANGED Viewed

@@ -40,7 +40,4 @@ def init_app() -> FastAPI:
     )
     return app
-app = init_app()
-if __name__ == '__main__':
-    uvicorn.run(app, loop = 'asyncio')

     )
     return app
+app = init_app()

core/journal_reading/__init__.py DELETED Viewed

File without changes

core/journal_reading/extractor.py DELETED Viewed

@@ -1,8 +0,0 @@
-class Extractor():
-    def __init__(self):
-        pass

core/journal_reading/prompt.py DELETED Viewed

File without changes

core/journal_reading/upload.py DELETED Viewed

@@ -1,85 +0,0 @@
-import os
-import nest_asyncio
-from llama_parse import LlamaParse
-from llama_index.core.node_parser import SimpleNodeParser
-from dotenv import load_dotenv
-from fastapi import UploadFile, HTTPException, File
-import fitz
-from script.get_metadata import Metadata
-load_dotenv()
-nest_asyncio.apply()
-async def parse_journal(content: bytes, file_name: str):
-    """Parse the journal using LlamaParse."""
-    try:
-        # Initialize the parser
-        parser = LlamaParse(
-            api_key=os.getenv("LLAMA_PARSE_API_KEY"),
-            result_type="markdown",
-            max_timeout=5000,
-        )
-        # Load and process the document
-        llama_parse_documents = parser.load_data(
-            content, extra_info={"file_name": file_name}
-        )
-        return llama_parse_documents
-    except Exception as e:
-        raise HTTPException(status_code=400, detail=f"Error processing file: {e}")
-async def extract_metadata(content: bytes):
-    """Extract metadata from the PDF content."""
-    try:
-        # Open the binary content with PyMuPDF
-        pdf_document = fitz.open("pdf", content)  # "pdf" specifies the format
-        # Extract metadata
-        metadata = pdf_document.metadata
-        # Prepare metadata dictionary with default values for missing fields
-        metadata_dict = {
-            "title": metadata.get("title", "N/A"),
-            "author": metadata.get("author", "N/A"),
-            "subject": metadata.get("subject", "N/A"),
-            "keywords": metadata.get("keywords", "N/A"),
-            "creation_date": metadata.get("created", "N/A"),
-            "modification_date": metadata.get("modified", "N/A"),
-        }
-        return metadata_dict
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Error inputting metadata: {e}")
-async def upload_file(file: UploadFile = File(...)):
-    try:
-        # Read the binary content of the uploaded file once
-        content = await file.read()
-        # Parse the journal
-        parsed_documents = await parse_journal(content, file.filename)
-        # Extract metadata
-        metadata_dict = await extract_metadata(content)
-        print("Metadata Dictionary : \n\n", metadata_dict)
-        metadata_gen = Metadata(metadata_dict)
-        documents_with_metadata = metadata_gen.add_metadata(
-            parsed_documents, metadata_dict
-        )
-        print("Document with Metadata : \n\n", documents_with_metadata)
-        print("Banyak documents : \n", len(documents_with_metadata))
-        # Return both parsed documents and metadata
-        return {"status": "SUCCESS"}
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=f"Error processing file: {e}")