mT5-base en català (preentrenament amb span masking - 1.5M frases)

Aquest model és una versió preentrenada del mt5-base adaptada al català. Ha estat entrenada amb la tècnica de span masking sobre 1.500.000 frases correctes en català per tal de millorar-ne la comprensió i adaptació a la llengua.


Objectiu del model

Aquest model no està dissenyat per resoldre tasques específiques (com traducció o correcció), sinó per oferir una base millor adaptada al català que pot ser:

  • Usada com a punt de partida per a fine-tuning en tasques com correcció gramatical, Q&A, classificació, etc.
  • Millorar el rendiment de mt5-base en contextos catalans

Entrenament

  • Model base: google/mt5-base
  • Frases: 1.500.000 frases correctes en català
  • Mètode: Span masking seq2seq (TextInfilling)
  • Format d’entrada: frases amb spans ocults
  • Framework: 🤗 Transformers + PyTorch

Exemple d’ús

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained("Oriolshhh/mt5-base-ca-spanmask-1.5m")
tokenizer = AutoTokenizer.from_pretrained("Oriolshhh/mt5-base-ca-spanmask-1.5m")

input_text = "Això <extra_id_0> un exemple <extra_id_1> span masking."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Downloads last month
1
Safetensors
Model size
583M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support