PMAlpha

Sleeping

App Files Files Community

Sergidev commited on Aug 7

Commit

0ffdf21

•

1 Parent(s): 4ec5dc5

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -29

app.py CHANGED Viewed

@@ -1,9 +1,8 @@
-from fastapi import FastAPI, Request, BackgroundTasks
 from fastapi.responses import HTMLResponse, StreamingResponse
 from fastapi.staticfiles import StaticFiles
 from modules.pmbl import PMBL
 import torch
-import asyncio
 print(f"CUDA available: {torch.cuda.is_available()}")
 print(f"CUDA device count: {torch.cuda.device_count()}")
@@ -16,8 +15,6 @@ app.mount("/static", StaticFiles(directory="static"), name="static")
 app.mount("/templates", StaticFiles(directory="templates"), name="templates")
 pmbl = PMBL("./PMB-7b.Q6_K.gguf", gpu_layers=50)
-request_queue = asyncio.Queue()
-processing_lock = asyncio.Lock()
 @app.head("/")
 @app.get("/")
@@ -25,40 +22,19 @@ def index() -> HTMLResponse:
     with open("templates/index.html") as f:
         return HTMLResponse(content=f.read())
-async def process_request(user_input: str, mode: str):
-    async with processing_lock:
-        history = pmbl.get_chat_history(mode, user_input)
-        async for chunk in pmbl.generate_response(user_input, history, mode):
-            yield chunk
 @app.post("/chat")
-async def chat(request: Request, background_tasks: BackgroundTasks):
     try:
         data = await request.json()
         user_input = data["user_input"]
         mode = data["mode"]
-        async def response_generator():
-            await request_queue.put((user_input, mode))
-            async for chunk in await process_request(user_input, mode):
-                yield chunk
-        return StreamingResponse(response_generator(), media_type="text/plain")
     except Exception as e:
         print(f"[SYSTEM] Error: {str(e)}")
         return {"error": str(e)}
-async def queue_worker():
-    while True:
-        user_input, mode = await request_queue.get()
-        async for _ in process_request(user_input, mode):
-            pass
-        request_queue.task_done()
-@app.on_event("startup")
-async def startup_event():
-    asyncio.create_task(queue_worker())
 @app.post("/sleep")
 async def sleep():
     try:

+from fastapi import FastAPI, Request
 from fastapi.responses import HTMLResponse, StreamingResponse
 from fastapi.staticfiles import StaticFiles
 from modules.pmbl import PMBL
 import torch
 print(f"CUDA available: {torch.cuda.is_available()}")
 print(f"CUDA device count: {torch.cuda.device_count()}")
 app.mount("/templates", StaticFiles(directory="templates"), name="templates")
 pmbl = PMBL("./PMB-7b.Q6_K.gguf", gpu_layers=50)
 @app.head("/")
 @app.get("/")
     with open("templates/index.html") as f:
         return HTMLResponse(content=f.read())
 @app.post("/chat")
+async def chat(request: Request):
     try:
         data = await request.json()
         user_input = data["user_input"]
         mode = data["mode"]
+        history = pmbl.get_chat_history(mode, user_input)
+        response_generator = pmbl.generate_response(user_input, history, mode)
+        return StreamingResponse(response_generator, media_type="text/plain")
     except Exception as e:
         print(f"[SYSTEM] Error: {str(e)}")
         return {"error": str(e)}
 @app.post("/sleep")
 async def sleep():
     try: