Qwen3-30B-A3B-NSFW-JP

概要

このモデルは、Qwen/Qwen3-30B-A3B-Baseに対してNSFW系日本語データ約6Bトークンで継続事前学習を行ったモデルです。

事後学習は行われていないので、本モデルを利用する際には何らかの事後学習を行った上でご利用ください。

学習の設定

学習はMegatron-SWIFTを使ってMegatron-LMベースで行いました。

学習環境はH200x8、学習時間は約50時間です。

学習に関する主な設定は以下の通りです。

- lr: 1e-5
- min_lr: 1e-6
- lr_decay_style: cosine
- micro_batch_size: 1
- global_batch_size: 256
- max_length: 32768
- weight_decay: 0.1
- tensor_model_parallel_size: 2
- expert_model_parallel_size: 4
- moe_grouped_gemm: True
- moe_shared_expert_overlap: True
- moe_aux_loss_coeff: 0.01
- recompute_granularity: full
- recompute_method: uniform
- recompute_num_layers: 1
- cross_entropy_loss_fusion: True
- sequence_parallel: True
- packing: True
- use_flash_attn: True

ライセンス

MITライセンスの元公開します。

Aratako
/

Qwen3-30B-A3B-NSFW-JP

Qwen3-30B-A3B-NSFW-JP

概要

学習の設定

ライセンス

Model tree for Aratako/Qwen3-30B-A3B-NSFW-JP

Collection including Aratako/Qwen3-30B-A3B-NSFW-JP

Qwen3 Japanese NSFW Models