Spaces:

0qwpifs
/

VoiceReplacer

Running

App Files Files Community

0qwpifs commited on Mar 11

Commit

7ffc2fd

verified ·

1 Parent(s): 5b70cb2

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -6

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 import torchaudio
 import soundfile as sf
 from demucs.apply import apply_model
 import numpy as np
 import subprocess
@@ -14,17 +15,20 @@ def process(voice_file_path, song_file_path):
     if sr != 44100:
         raise ValueError("Частота дискретизации должна быть 44100 Гц")
     # Применение модели для разделения
-    tracks = apply_model('htdemucs', mixture, device='cpu')
     # Извлечение вокала и музыкального трека
-    vocal_track = tracks['vocals'].numpy()
-    music_track = (tracks['drums'] + tracks['bass'] + tracks['other']).numpy()
     # Сохранение музыкального трека
     if num_channels == 1:
         music_track = music_track[0]  # Преобразование в моно
-    sf.write('music_track.wav', music_track, sr)
     # Подготовка вокала для SEED-VC: преобразование в моно, если стерео
     if vocal_track.shape[0] == 2:
@@ -37,7 +41,13 @@ def process(voice_file_path, song_file_path):
         source_path = 'vocal_track_mono.wav'
     # Запуск SEED-VC для конверсии голоса
-    subprocess.run(['python', 'seed-vc/inference.py', '--source', source_path, '--target', voice_file_path, '--output', 'converted_vocal', '--checkpoint', 'seed-uvit-whisper-base'])
     # Загрузка преобразованного вокала (моно)
     converted_vocal, sr_vocal = sf.read('converted_vocal/output.wav')
@@ -56,13 +66,14 @@ def process(voice_file_path, song_file_path):
     music_track_loaded, _ = sf.read('music_track.wav')
     # Объединение вокала и музыки
-    final_song = converted_vocal_stereo + music_track_loaded
     # Сохранение финальной песни
     sf.write('final_song.wav', final_song, sr)
     return 'final_song.wav'
 with gr.Blocks() as demo:
     voice_input = gr.File(label="Загрузите запись вашего голоса")
     song_input = gr.File(label="Загрузите песню для модификации")

 import gradio as gr
 import torchaudio
 import soundfile as sf
+from demucs.pretrained import get_model
 from demucs.apply import apply_model
 import numpy as np
 import subprocess
     if sr != 44100:
         raise ValueError("Частота дискретизации должна быть 44100 Гц")
+    # Загрузка модели Demucs
+    model = get_model('htdemucs')
     # Применение модели для разделения
+    tracks = apply_model(model, mixture, device='cpu')
     # Извлечение вокала и музыкального трека
+    vocal_track = tracks[2].numpy()  # вокал обычно третий по порядку в htdemucs
+    music_track = (tracks[0] + tracks[1] + tracks[3]).numpy()  # drums + bass + other
     # Сохранение музыкального трека
     if num_channels == 1:
         music_track = music_track[0]  # Преобразование в моно
+    sf.write('music_track.wav', music_track.T, sr)
     # Подготовка вокала для SEED-VC: преобразование в моно, если стерео
     if vocal_track.shape[0] == 2:
         source_path = 'vocal_track_mono.wav'
     # Запуск SEED-VC для конверсии голоса
+    subprocess.run([
+        'python', 'seed-vc/inference.py',
+        '--source', source_path,
+        '--target', voice_file_path,
+        '--output', 'converted_vocal',
+        '--checkpoint', 'seed-uvit-whisper-base'
+    ])
     # Загрузка преобразованного вокала (моно)
     converted_vocal, sr_vocal = sf.read('converted_vocal/output.wav')
     music_track_loaded, _ = sf.read('music_track.wav')
     # Объединение вокала и музыки
+    final_song = converted_vocal_stereo.T + music_track_loaded
     # Сохранение финальной песни
     sf.write('final_song.wav', final_song, sr)
     return 'final_song.wav'
+# Создание интерфейса Gradio
 with gr.Blocks() as demo:
     voice_input = gr.File(label="Загрузите запись вашего голоса")
     song_input = gr.File(label="Загрузите песню для модификации")