mT5-base en català (preentrenament amb span masking - 1.5M frases)

Aquest model és una versió preentrenada del mt5-base adaptada al català. Ha estat entrenada amb la tècnica de span masking sobre 1.500.000 frases correctes en català per tal de millorar-ne la comprensió i adaptació a la llengua.

Objectiu del model

Aquest model no està dissenyat per resoldre tasques específiques (com traducció o correcció), sinó per oferir una base millor adaptada al català que pot ser:

Usada com a punt de partida per a fine-tuning en tasques com correcció gramatical, Q&A, classificació, etc.
Millorar el rendiment de mt5-base en contextos catalans

Entrenament

Model base: google/mt5-base
Frases: 1.500.000 frases correctes en català
Mètode: Span masking seq2seq (TextInfilling)
Format d’entrada: frases amb spans ocults
Framework: 🤗 Transformers + PyTorch

Exemple d’ús

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained("Oriolshhh/mt5-base-ca-spanmask-1.5m")
tokenizer = AutoTokenizer.from_pretrained("Oriolshhh/mt5-base-ca-spanmask-1.5m")

input_text = "Això <extra_id_0> un exemple <extra_id_1> span masking."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))