Spaces:

abadesalex
/

DocuRAG

Running

App Files Files Community

abadesalex commited on Oct 1

Commit

bc0b69d

•

1 Parent(s): 1a2a05f

update

Browse files

Files changed (5) hide show

Api/app/__pycache__/main.cpython-310.pyc +0 -0
Api/app/modules/querySearch/features/__pycache__/querySearch_feature.cpython-310.pyc +0 -0
Api/app/modules/querySearch/features/querySearch_feature.py +5 -2
Api/app/modules/uploadDocument/features/__pycache__/createEmbeddings_feature.cpython-310.pyc +0 -0
Api/app/modules/uploadDocument/features/createEmbeddings_feature.py +2 -2

Api/app/__pycache__/main.cpython-310.pyc CHANGED Viewed

Binary files a/Api/app/__pycache__/main.cpython-310.pyc and b/Api/app/__pycache__/main.cpython-310.pyc differ

Api/app/modules/querySearch/features/__pycache__/querySearch_feature.cpython-310.pyc CHANGED Viewed

Binary files a/Api/app/modules/querySearch/features/__pycache__/querySearch_feature.cpython-310.pyc and b/Api/app/modules/querySearch/features/__pycache__/querySearch_feature.cpython-310.pyc differ

Api/app/modules/querySearch/features/querySearch_feature.py CHANGED Viewed

@@ -6,10 +6,12 @@ import numpy as np
 # from sentence_transformers import SentenceTransformer
 # from transformers import pipeline
 from app.db_local_storage.files_db import VECTOR_FILES_DIRECTORY
 from app.db_local_storage.in_memory_db import query_response_storage
 class QuerySearchFeature:
     def __init__(self, model, qa_pipeline):
@@ -25,7 +27,8 @@ class QuerySearchFeature:
         query_response_storage.append(user_query)
-        dataBase = await QuerySearchFeature.load_data()
         text_data, embeddings = await QuerySearchFeature.split_dataBase(dataBase)
         lexical_results = await QuerySearchFeature.lexical_search(query, text_data)
@@ -55,7 +58,7 @@ class QuerySearchFeature:
     async def semantic_search(
         query: str, chunks: List[str], embeddings: np.ndarray, model
     ) -> List[str]:
-        query_embedding = model.encode([query], clean_up_tokenization_spaces=False)
         similarities = np.dot(embeddings, query_embedding.T).flatten()
         top_indices = np.argsort(-similarities)[:3]
         return [chunks[i] for i in top_indices]

 # from sentence_transformers import SentenceTransformer
 # from transformers import pipeline
+from app.db_local_storage.vector_files_db import vector_files_db
 from app.db_local_storage.files_db import VECTOR_FILES_DIRECTORY
 from app.db_local_storage.in_memory_db import query_response_storage
 class QuerySearchFeature:
     def __init__(self, model, qa_pipeline):
         query_response_storage.append(user_query)
+        # dataBase = await QuerySearchFeature.load_data()
+        dataBase = vector_files_db
         text_data, embeddings = await QuerySearchFeature.split_dataBase(dataBase)
         lexical_results = await QuerySearchFeature.lexical_search(query, text_data)
     async def semantic_search(
         query: str, chunks: List[str], embeddings: np.ndarray, model
     ) -> List[str]:
+        query_embedding = model.encode([query])
         similarities = np.dot(embeddings, query_embedding.T).flatten()
         top_indices = np.argsort(-similarities)[:3]
         return [chunks[i] for i in top_indices]

Api/app/modules/uploadDocument/features/__pycache__/createEmbeddings_feature.cpython-310.pyc CHANGED Viewed

Binary files a/Api/app/modules/uploadDocument/features/__pycache__/createEmbeddings_feature.cpython-310.pyc and b/Api/app/modules/uploadDocument/features/__pycache__/createEmbeddings_feature.cpython-310.pyc differ

Api/app/modules/uploadDocument/features/createEmbeddings_feature.py CHANGED Viewed

@@ -15,7 +15,7 @@ class CreateEmbeddingsFeature:
     @staticmethod
     async def create_embeddings(text: str, filename: str) -> List:
-        chunks = CreateEmbeddingsFeature.chunk_text(text)
         id = len(EMBEDDING_DATA) + 1
         docoument_index = f"document_{id}"
@@ -25,7 +25,7 @@ class CreateEmbeddingsFeature:
         }
         for i, chunk in enumerate(chunks):
-            embedding = model.encode(chunk, clean_up_tokenization_spaces=False).tolist()
             embedding_entry = {
                 "embedding": embedding,
                 "metadata": {

     @staticmethod
     async def create_embeddings(text: str, filename: str) -> List:
+        chunks = await CreateEmbeddingsFeature.chunk_text(text)
         id = len(EMBEDDING_DATA) + 1
         docoument_index = f"document_{id}"
         }
         for i, chunk in enumerate(chunks):
+            embedding = model.encode(chunk).tolist()
             embedding_entry = {
                 "embedding": embedding,
                 "metadata": {