Spaces:

allenlsl
/

legal_rag

Running

allenlsl commited on 24 days ago

Commit

7907d24

verified ·

1 Parent(s): f9e4ddb

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -228,6 +228,31 @@ if __name__ == "__main__":
         print("\n🧠 LLaMA 3 Answer:")
         print(answer)
 # This version includes all 3 enhancements:
 # - Smart chunking via smart_chunk.py
 # - High-quality embedding model (E5)

         print("\n🧠 LLaMA 3 Answer:")
         print(answer)
+def initialize_index(update_mode="none"):
+    global documents, vector_index
+    processed_pdfs = load_cache(PDF_CACHE_FILE)
+    processed_urls = load_cache(URL_CACHE_FILE)
+    if update_mode == "updateall":
+        processed_pdfs = set()
+        processed_urls = set()
+    index_loaded = load_index()
+    if update_mode == "updateall" or not index_loaded or update_mode == "update":
+        process_pdf_folder(processed_files=processed_pdfs)
+        for url in load_urls():
+            crawl_url(url, depth=1, processed_urls=processed_urls)
+        save_index()
+        save_cache(processed_pdfs, PDF_CACHE_FILE)
+        save_cache(processed_urls, URL_CACHE_FILE)
+    else:
+        print(f"✅ FAISS index with {vector_index.ntotal} vectors loaded.")
+        print(f"✅ Loaded {len(documents)} legal document chunks.")
 # This version includes all 3 enhancements:
 # - Smart chunking via smart_chunk.py
 # - High-quality embedding model (E5)