Troubleshooting vinorm error
Em xin góp ý một chút sau khi chạy test nhé.
Dùng vinorm
để normalize input có một số vấn đề:
- Không support Mac OSX (
vinorm_mac
đã outdated không chạy được) - Nhiều trường hợp
vinorm
add thêm 2 dấu chấm câu (..
) ở cuối paragraph. - Trên linux thỉnh thoảng chạy sẽ bị lỗi
'ascii' codec can't encode character '\xe0' in position 2: ordinal not in range(128)
Lỗi ascii ở trên là do language của máy đang không encode utf-8
:
- có thể thử fix bằng cách chạy lệnh
export LANG='en_US.utf8' && export LC_ALL='en_US.utf8'
- nếu vẫn không được thì có thể chuyển sang lib khác. VD: https://github.com/CodeLinkIO/Vietnamese-text-normalization
Lib https://github.com/CodeLinkIO/Vietnamese-text-normalization lỗi không normalize được đơn giản như P. Thái Bình...! Khổ vậy. Chắc mình viết lại con vinorm.
bạn sử dụng thư viện https://github.com/CodeLinkIO/Vietnamese-text-normalization thay vinorm đi, mình đã test thử và xài ok á
bạn sử dụng thư viện https://github.com/CodeLinkIO/Vietnamese-text-normalization thay vinorm đi, mình đã test thử và xài ok á
mình có note ở trên rồi đấy bạn :).
Team EraX có báo ở trên là lib đó cũng có issue mà mình chưa có thời gian để check
không có thư viện nào hoàn hảo hết đâu bạn ơi, vinorm cũng còn có lỗi https://github.com/v-nhandt21/Vinorm/issues/8
Mình nghĩ nên xài bản open source như https://github.com/CodeLinkIO/Vietnamese-text-normalization , ai muốn sửa thì có thể liên hệ tác giả hoặc download code về tự sửa, thay vì close source như vinorm.
https://github.com/EraX-AI/viF5TTS/tree/main/src
Full source open nhé anh em, có cả duration predictor (xịn !) và distillation.
Chúc vui.
Cheers,
Steve