Spaces:

sawadogosalif
/

Sachi-ASR-demo

Running on Zero

sawadogosalif commited on 14 days ago

Commit

3bc425a

verified ·

1 Parent(s): 0c169e2

use torchaudio

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from datasets import Dataset, DatasetDict, concatenate_datasets, Audio, load_dat
 from transformers import pipeline
 from huggingface_hub import HfApi, login
 from resemble_enhance.enhancer.inference import denoise, enhance
 # Configure logging
 logging.basicConfig(
@@ -69,17 +71,7 @@ def save_dataset(dataset: Dataset, dataset_name: str) -> None:
     logger.info(f"Pushed updated dataset to '{dataset_name}' ({len(dataset)} records).")
-def process_audio_file(filepath: str, target_sr: int = SAMPLE_RATE) -> tuple:
-    """
-    Load audio file, convert to mono and target sampling rate.
-    Returns audio array and sampling rate.
-    """
-    try:
-        data, sr = librosa.load(filepath, sr=target_sr, mono=True)
-        return data, sr
-    except Exception as exc:
-        logger.error(f"Failed to process audio file '{filepath}': {exc}")
-        raise
 class Transcriber:
@@ -106,11 +98,11 @@ def transcribe_and_update(audio_filepath: str, history: str, apply_enhance: bool
     try:
         # Load and preprocess
-        audio_data, sr = process_audio_file(audio_filepath)
         # Always denoise
         try:
             device = "cuda"
             denoised_data, sr = denoise(audio_data, sr, device)
             logger.info("Audio denoised successfully.")
         except Exception as e:

 from transformers import pipeline
 from huggingface_hub import HfApi, login
 from resemble_enhance.enhancer.inference import denoise, enhance
+import torchaudio
 # Configure logging
 logging.basicConfig(
     logger.info(f"Pushed updated dataset to '{dataset_name}' ({len(dataset)} records).")
 class Transcriber:
     try:
         # Load and preprocess
+        audio_data, sr =     dwav, sr = torchaudio.load(audio_filepath)
         # Always denoise
         try:
             device = "cuda"
+            audio_data = audio_data.mean(dim=0)
             denoised_data, sr = denoise(audio_data, sr, device)
             logger.info("Audio denoised successfully.")
         except Exception as e: