Qwen3-30B-A3B-NSFW-JP

概要

このモデルは、Qwen/Qwen3-30B-A3B-Baseに対してNSFW系日本語データ約6Bトークンで継続事前学習を行ったモデルです。

事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。

学習の設定

学習はMegatron-SWIFTを使ってMegatron-LMベースで行いました。

学習環境はH200x8、学習時間は約50時間です。

学習に関する主な設定は以下の通りです。

- lr: 1e-5
- min_lr: 1e-6
- lr_decay_style: cosine
- micro_batch_size: 1
- global_batch_size: 256
- max_length: 32768
- weight_decay: 0.1
- tensor_model_parallel_size: 2
- expert_model_parallel_size: 4
- moe_grouped_gemm: True
- moe_shared_expert_overlap: True
- moe_aux_loss_coeff: 0.01
- recompute_granularity: full
- recompute_method: uniform
- recompute_num_layers: 1
- cross_entropy_loss_fusion: True
- sequence_parallel: True
- packing: True
- use_flash_attn: True

ライセンス

MITライセンスの元公開します。

Downloads last month
33
Safetensors
Model size
30.5B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Aratako/Qwen3-30B-A3B-NSFW-JP

Finetuned
(20)
this model
Finetunes
1 model
Quantizations
1 model

Collection including Aratako/Qwen3-30B-A3B-NSFW-JP