Spaces:

aquibmoin
/

EM-GEN

Sleeping

App Files Files Community

aquibmoin commited on Mar 25

Commit

4350956

verified ·

1 Parent(s): c18941c

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -11

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from PyPDF2 import PdfReader
 from pinecone import Pinecone, ServerlessSpec, CloudProvider, AwsRegion, VectorType
 import os
 import hashlib
 # Load NASA-specific bi-encoder model
 tokenizer = AutoTokenizer.from_pretrained("nasa-impact/nasa-smd-ibm-st-v2")
@@ -56,33 +57,27 @@ def generate_chunk_id(pdf_file, chunk_text, chunk_idx):
 # Function to process PDFs and upsert embeddings to Pinecone
 def process_pdfs(pdf_files):
     for pdf_file in pdf_files:
-        yield "Reading PDF..."
         reader = PdfReader(pdf_file.name)
         pdf_text = "".join(page.extract_text() for page in reader.pages if page.extract_text())
-        yield "Processing PDF..."
         # Split text into smaller chunks
         chunks = [pdf_text[i:i+500] for i in range(0, len(pdf_text), 500)]
-        yield "Generating Embeddings..."
         # Generate embeddings in batches
         embeddings = encode_chunks_batch(chunks, batch_size=8)
-        yield "Embeddings generated successfully...Preparing..."
         # Prepare data for Pinecone with unique IDs
         vectors = [
             (generate_chunk_id(pdf_file, chunk, idx), embedding.tolist(), {"text": chunk})
             for idx, (embedding, chunk) in enumerate(zip(embeddings, chunks))
-        ]
-        yield "Pushing to Pinecone...Please wait"
         # Upsert embeddings into Pinecone
         index.upsert(vectors)
@@ -90,7 +85,9 @@ def process_pdfs(pdf_files):
     # Fetch index stats
     stats = index.describe_index_stats()
-    yield f"Processed {len(pdf_files)} PDF(s) successfully and embeddings stored in Pinecone. Current Index Stats: {stats}"
 # Gradio Interface
 demo = gr.Interface(

 from pinecone import Pinecone, ServerlessSpec, CloudProvider, AwsRegion, VectorType
 import os
 import hashlib
+import time
 # Load NASA-specific bi-encoder model
 tokenizer = AutoTokenizer.from_pretrained("nasa-impact/nasa-smd-ibm-st-v2")
 # Function to process PDFs and upsert embeddings to Pinecone
 def process_pdfs(pdf_files):
+    start_time = time.time()
     for pdf_file in pdf_files:
         reader = PdfReader(pdf_file.name)
         pdf_text = "".join(page.extract_text() for page in reader.pages if page.extract_text())
         # Split text into smaller chunks
         chunks = [pdf_text[i:i+500] for i in range(0, len(pdf_text), 500)]
+        yield "Processing file, generating Embeddings and pushing to Pinecone...Please wait..."
         # Generate embeddings in batches
         embeddings = encode_chunks_batch(chunks, batch_size=8)
         # Prepare data for Pinecone with unique IDs
         vectors = [
             (generate_chunk_id(pdf_file, chunk, idx), embedding.tolist(), {"text": chunk})
             for idx, (embedding, chunk) in enumerate(zip(embeddings, chunks))
+        ]
         # Upsert embeddings into Pinecone
         index.upsert(vectors)
     # Fetch index stats
     stats = index.describe_index_stats()
+    elapsed_time = time.time() - start_time
+    yield f"Processed PDF and embeddings stored in Pinecone successfully in {elapsed_time:.2f} seconds. Current Index Stats: {stats}"
 # Gradio Interface
 demo = gr.Interface(