Update utils.py
Browse files
utils.py
CHANGED
@@ -335,8 +335,8 @@ def document_loading_splitting():
|
|
335 |
|
336 |
# Dateien im Hugging Face Space auflisten
|
337 |
files_in_repo = list_repo_files(repo_id=STORAGE_REPO_ID, repo_type="space", token=hf_token)
|
338 |
-
pdf_files = [f for f in files_in_repo if f.endswith('.pdf') and f.startswith("chroma/demo/pdf/")]
|
339 |
-
word_files = [f for f in files_in_repo if f.endswith('.docx') and f.startswith("chroma/demo/word/")]
|
340 |
|
341 |
|
342 |
# Erstellen von DirectoryLoader für jeden Dateityp
|
@@ -403,7 +403,7 @@ def document_storage_chroma(splits):
|
|
403 |
########################################################
|
404 |
#Splits für den Vektorstore speichern - bzw. laden
|
405 |
########################################################
|
406 |
-
def save_splits(preprocessed_splits, original_splits, directory="chroma/demo", preprocessed_filename="preprocessed_splits.pkl", original_filename="original_splits.pkl"):
|
407 |
# Erstellen des Verzeichnisses, falls es nicht existiert
|
408 |
if not os.path.exists(directory):
|
409 |
os.makedirs(directory)
|
@@ -457,7 +457,7 @@ def load_splits(directory="chroma/demo", preprocessed_filename="preprocessed_spl
|
|
457 |
########################################
|
458 |
#das Mapping der orginal-Splits und der preprocessed Splits speichern - und laden
|
459 |
########################################
|
460 |
-
def save_split_to_original_mapping(mapping, directory="chroma/demo", filename="mapping.pkl"):
|
461 |
# Erstellen des Verzeichnisses, falls es nicht existiert
|
462 |
if not os.path.exists(directory):
|
463 |
os.makedirs(directory)
|
@@ -471,7 +471,7 @@ def save_split_to_original_mapping(mapping, directory="chroma/demo", filename="m
|
|
471 |
upload_file_to_huggingface(filepath, f"{directory}/{filename}")
|
472 |
|
473 |
|
474 |
-
def load_split_to_original_mapping(directory="chroma/demo", filename="mapping.pkl"):
|
475 |
try:
|
476 |
# Laden des Mappings aus dem Hugging Face Repository
|
477 |
file_path = hf_hub_download(
|
|
|
335 |
|
336 |
# Dateien im Hugging Face Space auflisten
|
337 |
files_in_repo = list_repo_files(repo_id=STORAGE_REPO_ID, repo_type="space", token=hf_token)
|
338 |
+
pdf_files = [f for f in files_in_repo if f.endswith('.pdf') and f.startswith("demo/chroma/demo/pdf/")]
|
339 |
+
word_files = [f for f in files_in_repo if f.endswith('.docx') and f.startswith("demo/chroma/demo/word/")]
|
340 |
|
341 |
|
342 |
# Erstellen von DirectoryLoader für jeden Dateityp
|
|
|
403 |
########################################################
|
404 |
#Splits für den Vektorstore speichern - bzw. laden
|
405 |
########################################################
|
406 |
+
def save_splits(preprocessed_splits, original_splits, directory="demo/chroma/demo", preprocessed_filename="preprocessed_splits.pkl", original_filename="original_splits.pkl"):
|
407 |
# Erstellen des Verzeichnisses, falls es nicht existiert
|
408 |
if not os.path.exists(directory):
|
409 |
os.makedirs(directory)
|
|
|
457 |
########################################
|
458 |
#das Mapping der orginal-Splits und der preprocessed Splits speichern - und laden
|
459 |
########################################
|
460 |
+
def save_split_to_original_mapping(mapping, directory="demo/chroma/demo", filename="mapping.pkl"):
|
461 |
# Erstellen des Verzeichnisses, falls es nicht existiert
|
462 |
if not os.path.exists(directory):
|
463 |
os.makedirs(directory)
|
|
|
471 |
upload_file_to_huggingface(filepath, f"{directory}/{filename}")
|
472 |
|
473 |
|
474 |
+
def load_split_to_original_mapping(directory="demo/chroma/demo", filename="mapping.pkl"):
|
475 |
try:
|
476 |
# Laden des Mappings aus dem Hugging Face Repository
|
477 |
file_path = hf_hub_download(
|