mT5-base en català (preentrenament amb span masking - 1.5M frases)
Aquest model és una versió preentrenada del mt5-base
adaptada al català. Ha estat entrenada amb la tècnica de span masking sobre 1.500.000 frases correctes en català per tal de millorar-ne la comprensió i adaptació a la llengua.
Objectiu del model
Aquest model no està dissenyat per resoldre tasques específiques (com traducció o correcció), sinó per oferir una base millor adaptada al català que pot ser:
- Usada com a punt de partida per a fine-tuning en tasques com correcció gramatical, Q&A, classificació, etc.
- Millorar el rendiment de
mt5-base
en contextos catalans
Entrenament
- Model base:
google/mt5-base
- Frases: 1.500.000 frases correctes en català
- Mètode: Span masking seq2seq (
TextInfilling
) - Format d’entrada: frases amb spans ocults
- Framework: 🤗 Transformers + PyTorch
Exemple d’ús
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("Oriolshhh/mt5-base-ca-spanmask-1.5m")
tokenizer = AutoTokenizer.from_pretrained("Oriolshhh/mt5-base-ca-spanmask-1.5m")
input_text = "Això <extra_id_0> un exemple <extra_id_1> span masking."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 1
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support