Spaces:

gkrthk
/

confluence_qa

Runtime error

gkrthk commited on Nov 14, 2023

Commit

d3deef7

•

1 Parent(s): 396decf

fix

Files changed (1) hide show

confluence_qa.py CHANGED Viewed

@@ -15,7 +15,7 @@ class ConfluenceQA:
         tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
         model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")
         pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, truncation=True)
-        self.llm = HuggingFacePipeline(pipeline = pipe,model_kwargs={"temperature": 1},)
     def store_in_vector_db(self) -> None:
         persist_directory = self.config.get("persist_directory",None)
@@ -33,11 +33,11 @@ class ConfluenceQA:
         # print(documents)
         text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=10)
         documents = text_splitter.split_documents(documents)
-        text_splitter = SentenceTransformersTokenTextSplitter(chunk_overlap=10)
-        documents = text_splitter.split_documents(documents)
-        print(documents)
-        # text_splitter = TokenTextSplitter(chunk_size=1000, chunk_overlap=10, encoding_name="cl100k_base")  # This the encoding for text-embedding-ada-002
         # documents = text_splitter.split_documents(documents)
         self.db = Chroma.from_documents(documents, self.embeddings)

         tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-large")
         model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-large")
         pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, truncation=True)
+        self.llm = HuggingFacePipeline(pipeline = pipe,model_kwargs={"temperature": 0},)
     def store_in_vector_db(self) -> None:
         persist_directory = self.config.get("persist_directory",None)
         # print(documents)
         text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=10)
         documents = text_splitter.split_documents(documents)
+        # text_splitter = SentenceTransformersTokenTextSplitter(chunk_overlap=10)
         # documents = text_splitter.split_documents(documents)
+        # print(documents)
+        text_splitter = TokenTextSplitter(chunk_size=1000, chunk_overlap=10, encoding_name="cl100k_base")  # This the encoding for text-embedding-ada-002
+        documents = text_splitter.split_documents(documents)
         self.db = Chroma.from_documents(documents, self.embeddings)