Spaces:

juancamval
/

graph_generator

Running

App Files Files Community

juancamval

Xilena commited on 6 days ago

Commit

371efcc

verified ·

1 Parent(s): 674384d

Trying StarCoder and organizing documentation (#1)

Browse files

- Trying StarCoder and organizing documentation (d32640f4879b52935532d37cd5416587c1bdee6f)

Co-authored-by: Xilena Atenea Rojas Salazar <[email protected]>

Files changed (4) hide show

app.py +150 -99
documentacion.md +9 -0
prompt_docs.md +23 -0
requirements.txt +14 -5

app.py CHANGED Viewed

@@ -1,99 +1,150 @@
-# Aplicacion principal para cargar modelo, generar los prompts, y el la explicacion de los datos
-import streamlit as st
-import os
-import re
-import pandas as pd
-from supabase import create_client, Client
-from transformers import pipeline
-# funcion para extraccion de codigo del modelo
-def extract_code(llm_output):
-        code_match = re.search(r"```python\n(.*?)\n```", llm_output, re.DOTALL)
-        if code_match:
-            return code_match.group(1)
-        return None
-# funcion para prompts y ejemplo basico
-#prompt = "Generate a graph idea based on European fertility data."
-#output = generator(prompt, max_length=50, num_return_sequences=1)[0]['generated_text']
-# Aqui vamos a añadir los prompts, comparativa entre paises, lo ideal es mas de uno, pero podriamos iniciar en un 1v1 con la metrica
-# Vamos a generar un codigo para luego ejecutarlo con un exec() y poder imprimir en Streamlit st.pyplot()
-def generate_graph_prompt(country1, country2, metric, start_year, end_year):
-    prompt = f"""You have access to a database of European countries with data on {metric}, labor force participation, population, and their predictions for future years.
-        Generate Python code using matplotlib to create a line graph showing the trend of {metric} for {country1} and {country2} from {start_year} to {end_year}.
-        Also, provide a concise explanation of what this graph represents for an end user who might not be familiar with the data.
-        """
-    return prompt
-# Ejemplo de como quedaria el prompt que recibiria el modelo
-#prompt = generate_graph_prompt("Germany", "France", "fertility rate", 2020, 2030)
-#Aqui van las credenciales, conectar las credenciales de Supabase en "Secrets"
-# conexion a supabase
-SUPABASE_URL = os.environ.get("SUPABASE_URL")
-SUPABASE_KEY = os.environ.get("SUPABASE_KEY")
-supabase: Client = create_client(SUPABASE_URL, SUPABASE_KEY)
-def load_data(table):
-    """fertility, geo data, labor, population y predictions """
-    try:
-        if supabase:
-            response = supabase.from_(table).select("*").execute()
-            print(f"Response object: {response}")  # Inspect the entire response
-            print(f"Response type: {type(response)}") # Check the object type
-            # Try accessing potential error-related attributes
-            if hasattr(response, 'data'):
-                print(f"Response data: {response.data}")
-                return pd.DataFrame(response.data)
-            elif hasattr(response, 'status_code'):
-                print(f"Response status code: {response.status_code}")
-            elif hasattr(response, '_error'): # Older versions might use this
-                print(f"Older error attribute: {response._error}")
-                st.error(f"Error fetching data: {response._error}")
-                return pd.DataFrame()
-            else:
-                st.info("Response object does not have 'data' or known error attributes. Check the logs.")
-                return pd.DataFrame()
-        else:
-            st.error("Supabase client not initialized. Check environment variables.")
-            return pd.DataFrame()
-    except Exception as e:
-        st.error(f"An error occurred during data loading: {e}")
-        return pd.DataFrame()
-data = load_data("labor")
-# Pendiente las Keys, dependiendo del modelo que escojamos
-model_name = "google/flan-t5-small"  # Probando modelos
-generator = pipeline("text-generation", model=model_name)
-# Inicio de Streamlit (hice lo basico, podemos mejorarla)
-st.title("_Europe GraphGen_  :blue[Graph generator] :flag-eu:")
-user_input = st.text_input("What graphics do you have in mind")
-generate_button = st.button("Generate")
-if generate_button and user_input:
-    if data.empty and supabase is not None:
-        st.warning("Successfully connected to Supabase, but no data was loaded (either the table is empty or there was a query issue). Check the error message above if any.")
-    elif not data.empty:
-        st.success("Successfully connected to Supabase and loaded data!")
-        st.dataframe(data.head()) # Display a small sample of the data
-    elif supabase is None:
-        st.error("Failed to initialize Supabase client. Check environment variables in Settings.")
-    else:
-        st.info("Attempted to load data. Check for any error messages above.")

+# ---------------------------------------------------------------------------------
+# Aplicación principal para cargar el modelo, generar prompts y explicar los datos
+# ---------------------------------------------------------------------------------
+import streamlit as st  # type: ignore
+import os
+import re
+import pandas as pd  # type: ignore
+from dotenv import load_dotenv  # type: ignore # Para cambios locales
+from supabase import create_client, Client  # type: ignore
+from transformers import pipeline
+from pandasai import SmartDataframe  # type: ignore
+from pandasai.llm.starcoder import Starcoder # type: ignore
+# ---------------------------------------------------------------------------------
+# Funciones auxiliares
+# ---------------------------------------------------------------------------------
+# Función para extracción de código Python del output del modelo
+def extract_code(llm_output):
+    code_match = re.search(r"```python\n(.*?)\n```", llm_output, re.DOTALL)
+    if code_match:
+        return code_match.group(1)
+    return None
+# Función para generar prompts de gráficos comparativos
+# Ejemplo de prompt generado:
+# generate_graph_prompt("Germany", "France", "fertility rate", 2020, 2030)
+def generate_graph_prompt(country1, country2, metric, start_year, end_year):
+    prompt = f"""
+    You have access to a database of European countries with data on {metric}, labor force participation, population, and their predictions for future years.
+    Generate Python code using matplotlib to create a line graph showing the trend of {metric} for {country1} and {country2} from {start_year} to {end_year}.
+    Also, provide a concise explanation of what this graph represents for an end user who might not be familiar with the data.
+    """
+    return prompt
+# ---------------------------------------------------------------------------------
+# Configuración de conexión a Supabase
+# ---------------------------------------------------------------------------------
+# Cargar variables de entorno desde archivo .env
+load_dotenv()
+# Conectar las credenciales de Supabase (ubicadas en "Secrets" en Streamlit)
+SUPABASE_URL = os.getenv("SUPABASE_URL")
+SUPABASE_KEY = os.getenv("SUPABASE_KEY")
+# Crear cliente Supabase
+supabase: Client = create_client(SUPABASE_URL, SUPABASE_KEY)
+# Función para cargar datos de una tabla de Supabase
+# Tablas posibles: fertility, geo data, labor, population, predictions
+def load_data(table):
+    try:
+        if supabase:
+            response = supabase.from_(table).select("*").execute()
+            print(f"Response object: {response}")  # Inspeccionar objeto completo
+            print(f"Response type: {type(response)}")  # Verificar tipo de objeto
+            # Acceder a atributos relacionados a error o data
+            if hasattr(response, 'data'):
+                print(f"Response data: {response.data}")
+                return pd.DataFrame(response.data)
+            elif hasattr(response, 'status_code'):
+                print(f"Response status code: {response.status_code}")
+            elif hasattr(response, '_error'):  # Versiones antiguas
+                print(f"Older error attribute: {response._error}")
+                st.error(f"Error fetching data: {response._error}")
+                return pd.DataFrame()
+            else:
+                st.info("Response object does not have 'data' or known error attributes. Check the logs.")
+                return pd.DataFrame()
+        else:
+            st.error("Supabase client not initialized. Check environment variables.")
+            return pd.DataFrame()
+    except Exception as e:
+        st.error(f"An error occurred during data loading: {e}")
+        return pd.DataFrame()
+# ---------------------------------------------------------------------------------
+# Cargar datos iniciales
+# ---------------------------------------------------------------------------------
+# # Cargar datos desde la tabla "labor"
+data = load_data("labor")
+# TODO: La idea es luego usar todas las tablas, cuando ya funcione.
+# Se puede si el modelo funciona con las gráficas, sino que toca mejorarlo
+# porque serían consultas más complejas.
+# labor_data = load_data("labor")
+# fertility_data = load_data("fertility")
+# population_data = load_data("population")
+# predictions_data = load_data("predictions")
+# ---------------------------------------------------------------------------------
+# Inicializar modelo LLM
+# ---------------------------------------------------------------------------------
+# # Pendiente cambiar Keys dependiendo del modelo que escojamos
+# model_name = "google/flan-t5-small"  # Probando modelos
+# generator = pipeline("text-generation", model=model_name)
+# ---------------------------------------------------------------------------------
+# Inicializar PandasAI con StarCoder
+# ---------------------------------------------------------------------------------
+# Definir el modelo StarCoder desde Hugging Face
+huggingface_token = os.getenv("HUGGINGFACE_TOKEN")
+llm = Starcoder(api_token=huggingface_token)
+sdf = SmartDataframe(data, config={"llm": llm}) # DataFrame PandasAI-ready.
+# ---------------------------------------------------------------------------------
+# Configuración de la app en Streamlit
+# ---------------------------------------------------------------------------------
+# Título de la app
+st.title("_Europe GraphGen_  :blue[Graph generator] :flag-eu:")
+# Entrada de usuario para describir el gráfico
+user_input = st.text_input("What graphics do you have in mind")
+generate_button = st.button("Generate")
+# Manejo de evento de botón
+if generate_button and user_input:
+    # if data.empty and supabase is not None:
+    #     st.warning("Successfully connected to Supabase, but no data was loaded (either the table is empty or there was a query issue). Check the error message above if any.")
+    # elif not data.empty:
+    #     st.success("Successfully connected to Supabase and loaded data!")
+    #     st.dataframe(data.head())  # Mostrar una pequeña muestra del DataFrame
+    # elif supabase is None:
+    #     st.error("Failed to initialize Supabase client. Check environment variables in Settings.")
+    # else:
+    #     st.info("Attempted to load data. Check for any error messages above.")
+    # Procesar el input del usuario con PandasAI
+    if generate_button and user_input:
+        st.dataframe(data.head())
+        with st.spinner('Generating answer...'):
+            try:
+                answer = sdf.chat(user_input)
+                st.write(answer)
+            except Exception as e:
+                st.error(f"Error generating answer: {e}")
+# TODO: Output estructurado si vemos que es necesario.

documentacion.md ADDED Viewed

	@@ -0,0 +1,9 @@

+1. La conexion entre Supabase y Hugginface se logro hacer, al realizarla por seguridad en Supabase (por defecto RLS "row-level security" estaba activado), retornaba una lista vacia, desabilitando esta opcion desde el proyecto de Supabase donde estaba el problema se logro solucionar y tener acceso.
+2. Se descartó la opción de desactivar RLS por motivos de seguridad en la tabla, y en su lugar se crearon políticas de RLS para permitir la lectura a anon, que es el rol utilizado por Supabase para el acceso público autenticado a través de la clave pública (anon key). Así podremos acceder a través de la API pública y leer los datos permitidos sin comprometer la seguridad del resto del sistema.
+3. ¿Qué modelos pensamos en usar?
+    - google/flan-t5-small : ....@Camilo ¿por qué?
+    - StarCoder: Recomendado en https://huggingface.co/tasks/text-generation. Paper para detalles: https://arxiv.org/pdf/2305.06161 (parte relevante: "Improving Code Generation with Prompting"")
+4. Librerías que tuvimos en cuenta (usamos y no usamos):
+    - https://github.com/DashyDashOrg/pandas-llm: No usamos porque actualmente está diseñado principalmente para funcionar con modelos de OpenAI como GPT-3.5 y GPT-4.
+    No es una herramienta multi-LLM como PandasAI (que sí permite trabajar con varios proveedores). pandas-llm en su implementación base espera una API compatible con OpenAI.
+    - PandasAI: https://pypi.org/project/pandasai/, https://pandasai-docs.readthedocs.io/en/latest/API/llms/

prompt_docs.md ADDED Viewed

	@@ -0,0 +1,23 @@

+TO DO: Escribir propósito de esta documentación para contexto.
+---
+### First try
+PROMPT:
+```
+```
+RESULTS:
+---
+### Second try
+PROMPT:
+```
+```
+RESULTS:
+---

requirements.txt CHANGED Viewed

@@ -1,5 +1,14 @@
-supabase
-transformers
-matplotlib
-pandas
-torch

+# supabase
+# transformers
+# matplotlib
+# pandas
+# torch
+# pandasai
+streamlit>=1.30.0
+pandas>=2.2.0
+numpy>=1.25.0
+python-dotenv>=1.0.0
+transformers>=4.37.2
+pandasai>=2.0.0
+supabase>=2.0.0