ai4bharat
/

indic-conformer-600m-multilingual

tahirjm commited on 11 days ago

Commit

d30c046

verified ·

1 Parent(s): 33ca12f

Upload folder using huggingface_hub

Files changed (1) hide show

model_onnx.py CHANGED Viewed

@@ -55,16 +55,21 @@ class IndicASRModel(PreTrainedModel):
     def encode(self, wav):
         # pass through preprocessor
-        audio_signal, length = self.models['preprocessor'](input_signal=wav.to(self.config.device), length=torch.tensor([wav.shape[-1]]).to(self.config.device))
         outputs, encoded_lengths = self.models['encoder'].run(['outputs', 'encoded_lengths'], {'audio_signal': audio_signal.cpu().numpy(), 'length': length.cpu().numpy()})
         return outputs, encoded_lengths
     def _ctc_decode(self, encoder_outputs, encoded_lengths, lang):
-        logprobs = self.models['ctc_decoder'](encoder_output=encoder_outputs)
-        logprobs = logprobs[:,:,self.language_masks[lang]].log_softmax(dim=-1)
         indices = torch.argmax(logprobs[0],dim=-1)
         collapsed_indices = torch.unique_consecutive(indices, dim=-1)
-        return ''.join([self.vocab[lang][x] for x in collapsed_indices if x != self.config.BLANK_ID]).replace('▁',' ').strip()
     def _rnnt_decode(self, encoder_outputs, encoded_lengths, lang):
         joint_enc = self.models['joint_enc'].run(['output'], {'input': encoder_outputs.transpose(0, 2, 1)})[0]

     def encode(self, wav):
         # pass through preprocessor
+        audio_signal, length = self.models['preprocessor'](input_signal=wav.to(self.device), length=torch.tensor([wav.shape[-1]]).to(self.device))
         outputs, encoded_lengths = self.models['encoder'].run(['outputs', 'encoded_lengths'], {'audio_signal': audio_signal.cpu().numpy(), 'length': length.cpu().numpy()})
         return outputs, encoded_lengths
     def _ctc_decode(self, encoder_outputs, encoded_lengths, lang):
+        logprobs = self.models['ctc_decoder'].run(['logprobs'], {'encoder_output': encoder_outputs})[0]
+        logprobs = torch.from_numpy(logprobs[:, :, self.language_masks[lang]]).log_softmax(dim=-1)
+        # currently no batching
         indices = torch.argmax(logprobs[0],dim=-1)
         collapsed_indices = torch.unique_consecutive(indices, dim=-1)
+        hyp = ''.join([self.vocab[lang][x] for x in collapsed_indices if x != self.BLANK_ID]).replace('▁',' ').strip()
+        del logprobs, indices, collapsed_indices
+        return hyp
     def _rnnt_decode(self, encoder_outputs, encoded_lengths, lang):
         joint_enc = self.models['joint_enc'].run(['output'], {'input': encoder_outputs.transpose(0, 2, 1)})[0]