Hugging Face's logo Hugging Face
  • Models
  • Datasets
  • Spaces
  • Posts
  • Docs
  • Enterprise
  • Pricing

  • Log In
  • Sign Up
Bretagne 's Collections
BR - Audio (pré-entraînement)
BR - Audio (finetuning ASR en breton)
BR - Audio (finetuning ASR en français)
BR - Textes bruts
BR - Modèles pouvant détecter d'autres textes bruts
BR - Dictionnaires
BR - Traduction (propre)
BR - Traduction (à nettoyer)
BR - NER
BR - POS
BR - VQA

BR - Textes bruts

updated 1 day ago
Upvote
-

  • FrancophonIA/W2C

    Viewer • Updated Mar 30 • 116M • 41

  • Bretagne/WikiMatrix_br

    Viewer • Updated Mar 29 • 173k • 68

  • Bretagne/leipzig_corpora_br

    Viewer • Updated Mar 29 • 300k • 12

  • wikimedia/wikipedia

    Viewer • Updated Jan 9, 2024 • 61.6M • 98.5k • 801

    Note Il pourrait être intéressant de privilégier un dump plus récent de Wikipedia (https://dumps.wikimedia.org/other/enterprise_html/runs/) à parser en utilisant https://github.com/OpenLLM-France/wikiplaintext Wikiplaintext donne aussi des scripts pour Wikisource et Wiktionary.


  • HuggingFaceFW/fineweb-2

    Viewer • Updated Jan 8 • 12.5B • 47.5k • 479

    Note Le split en breton serait à nettoyer. J'avais commencer à faire des choses (stats sur les sources, nettoyage, etc.). Il faudra que je termine et upload le tout. Voir aussi Bretagne/fineweb-2_raw_breton


  • Bretagne/fineweb-2_raw_breton

    Viewer • Updated 27 days ago • 3.39M • 43
Upvote
-
  • Collection guide
  • Browse collections
Company
TOS Privacy About Jobs
Website
Models Datasets Spaces Pricing Docs