Spaces:

dofbi
/

wolof-asr

Sleeping

App Files Files Community

dofbi commited on Dec 1, 2024

Commit

6728136

0 Parent(s):

♻️ refactor (model): add new

Browse files

Files changed (5) hide show

.gitattributes +35 -0
README.md +14 -0
app.py +110 -0
model_list.json +59 -0
requirements.txt +4 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Wolof Asr
+emoji: 📚
+colorFrom: pink
+colorTo: indigo
+sdk: gradio
+sdk_version: 5.6.0
+app_file: app.py
+pinned: false
+license: mit
+short_description: Bienvenue sur **Wolof-ASR**, une application de reconnaissan
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,110 @@

+import spaces
+import torch
+import gradio as gr
+import librosa
+import numpy as np
+import json
+from transformers import WhisperProcessor, WhisperForConditionalGeneration
+from scipy.signal import butter, lfilter
+# Charger la liste des modèles depuis un fichier JSON
+def load_model_list(file_path="model_list.json"):
+    try:
+        with open(file_path, "r") as f:
+            return json.load(f)
+    except Exception as e:
+        raise ValueError(f"Erreur lors du chargement de la liste des modèles : {str(e)}")
+# Charger les modèles depuis le fichier JSON
+MODEL_LIST = load_model_list()
+# Fonction pour charger le modèle et le processeur
+def load_model_and_processor(model_name):
+    model_info = MODEL_LIST.get(model_name)
+    if not model_info:
+        raise ValueError("Modèle non trouvé dans la liste.")
+    model_path = model_info["model_path"]
+    processor = WhisperProcessor.from_pretrained(model_path)
+    model = WhisperForConditionalGeneration.from_pretrained(model_path)
+    model.eval()
+    return processor, model
+# Nettoyage et normalisation de l'audio
+def preprocess_audio(audio, sr=16000):
+    # Charger l'audio
+    audio_data, _ = librosa.load(audio, sr=sr)
+    # Filtrage passe-bas pour réduire les bruits aigus
+    b, a = butter(6, 0.1, btype="low", analog=False)
+    audio_data = lfilter(b, a, audio_data)
+    # Normaliser l'audio
+    audio_data = librosa.util.normalize(audio_data)
+    return audio_data
+# Fonction pour transcrire l'audio
+@spaces.GPU(duration=120)
+def transcribe_audio(audio, model_name):
+    try:
+        # Charger le modèle et le processeur en fonction du choix
+        processor, model = load_model_and_processor(model_name)
+        # Nettoyer et normaliser l'audio
+        audio_input = preprocess_audio(audio)
+        # Prétraiter l'audio avec le processeur
+        inputs = processor(audio_input, sampling_rate=16000, return_tensors="pt")
+        inputs["attention_mask"] = torch.ones_like(inputs["input_features"]).to(inputs["input_features"].dtype)
+        # Faire la prédiction
+        with torch.no_grad():
+            predicted_ids = model.generate(
+                inputs['input_features'],
+                forced_decoder_ids=None,  # Suppression du conflit
+                language="fr",  # Ajustez selon votre langue cible
+                task="transcribe"
+            )
+        # Convertir les IDs de prédiction en texte
+        transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+        return transcription[0]
+    except Exception as e:
+        return f"Erreur de transcription : {str(e)}"
+# Charger une seule fois le tableau (statique)
+MODEL_TABLE = [
+    [name, details.get("dataset", "Non spécifié"), details.get("performance", {}).get("WER", "Non spécifié"), details.get("performance", {}).get("CER", "Non spécifié")]
+    for name, details in MODEL_LIST.items()
+]
+# Interface Gradio
+with gr.Blocks() as app:
+    # Section principale
+    with gr.Row():
+        with gr.Column(scale=2):
+            gr.Markdown("## Téléchargez ou enregistrez un fichier audio")
+            audio_input = gr.Audio(type="filepath", label="Audio (télécharger ou enregistrer)")
+            model_dropdown = gr.Dropdown(choices=list(MODEL_LIST.keys()), label="Sélectionnez un modèle", value="Wolof ASR - dofbi")
+            submit_button = gr.Button("Transcrire")
+        with gr.Column(scale=3):
+            transcription_output = gr.Textbox(label="Transcription", lines=6)
+    # Tableau statique en bas
+    gr.Markdown("## Informations sur les modèles disponibles")
+    gr.Dataframe(
+        headers=["Nom du modèle", "Dataset utilisé", "WER", "CER"],
+        value=MODEL_TABLE,
+        interactive=False,
+        label="Informations sur les modèles"
+    )
+    # Action du bouton
+    submit_button.click(
+        fn=transcribe_audio,
+        inputs=[audio_input, model_dropdown],
+        outputs=transcription_output
+    )
+# Lancer l'application
+if __name__ == "__main__":
+    app.launch()

model_list.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+    "Wolof ASR - dofbi": {
+        "model_path": "dofbi/wolof-asr",
+        "dataset": "galsenai/wolof_tts",
+        "performance": {
+            "WER": 0.12,
+            "CER": null
+        }
+    },
+    "Whisper Small Wolof - serge-wilson": {
+        "model_path": "serge-wilson/whisper-small-wolof",
+        "dataset": "",
+        "performance": {
+            "WER": 0.153788,
+            "CER": null
+        }
+    },
+    "Whisper Small Wolof - elmamounedieye": {
+        "model_path": "M9and2M/whisper-small-wolof",
+        "dataset": "M9and2M/Wolof_ASR_dataset",
+        "performance": {
+            "WER": 0.17,
+            "CER": null
+        }
+    },
+    "Whisper Small Wolof mix hum mach data - speechbrain": {
+        "model_path": "M9and2M/whisper_small_wolof_mix_hum_mach_data",
+        "dataset": "M9and2M/Wolof_ASR_dataset",
+        "performance": {
+            "WER": 0.16,
+            "CER": null
+        }
+    },
+    "Whisper Small Wolof - ngia": {
+        "model_path": "ngia/whisper-small-wolof",
+        "dataset": "IndabaxSenegal/asr-wolof-dataset",
+        "performance": {
+            "WER": 0.435071,
+            "CER": null
+        }
+    },
+    "Whisper Wolof - cibfaye": {
+        "model_path": "cibfaye/whisper-wolof",
+        "dataset": "google/fleurs",
+        "performance": {
+            "WER": 0.439413,
+            "CER": null
+        }
+    },
+    "Whisper Small Wolof - alfaDF9": {
+        "model_path": "alfaDF9/whisper-small-wolof",
+        "dataset": "IndabaxSenegal/asr-wolof-dataset",
+        "performance": {
+            "WER": 0.511557,
+            "CER": null
+        }
+    }
+}

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+transformers
+torch
+gradio
+librosa