Qwen3 Japanese NSFW Models
Collection
Qwen3ベースのNSFW関連データによる日本語学習モデル
•
6 items
•
Updated
•
2
このモデルは、Qwen/Qwen3-30B-A3B-Baseに対してNSFW系日本語データ約6Bトークンで継続事前学習を行ったモデルです。
事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。
学習はMegatron-SWIFTを使ってMegatron-LMベースで行いました。
学習環境はH200x8、学習時間は約50時間です。
学習に関する主な設定は以下の通りです。
- lr: 1e-5
- min_lr: 1e-6
- lr_decay_style: cosine
- micro_batch_size: 1
- global_batch_size: 256
- max_length: 32768
- weight_decay: 0.1
- tensor_model_parallel_size: 2
- expert_model_parallel_size: 4
- moe_grouped_gemm: True
- moe_shared_expert_overlap: True
- moe_aux_loss_coeff: 0.01
- recompute_granularity: full
- recompute_method: uniform
- recompute_num_layers: 1
- cross_entropy_loss_fusion: True
- sequence_parallel: True
- packing: True
- use_flash_attn: True
MITライセンスの元公開します。
Base model
Qwen/Qwen3-30B-A3B-Base