moonshotai
/

Kimi-VL-A3B-Instruct

@@ -55,10 +55,8 @@ import torch.distributed as dist
 from torch.nn import CrossEntropyLoss
 from transformers.activations import GELUActivation, ACT2FN, PytorchGELUTanh
 from transformers.cache_utils import Cache, DynamicCache
-from transformers.modeling_utils import (
-    PreTrainedModel,
-    GenerationMixin,
-)
 from transformers.models.llava.modeling_llava import LlavaCausalLMOutputWithPast
 from transformers.modeling_attn_mask_utils import _prepare_4d_causal_attention_mask
 from transformers.modeling_outputs import (
@@ -76,7 +74,7 @@ from transformers.utils import (
 )
 from transformers.utils.import_utils import is_torch_fx_available
-from .configuration_kimi_vl import MoonViTConfig, DeepseekV3Config, KimiVLConfig
 if is_flash_attn_2_available():

 from torch.nn import CrossEntropyLoss
 from transformers.activations import GELUActivation, ACT2FN, PytorchGELUTanh
 from transformers.cache_utils import Cache, DynamicCache
+from transformers.modeling_utils import PreTrainedModel
+from transformers.generation.utils import GenerationMixin
 from transformers.models.llava.modeling_llava import LlavaCausalLMOutputWithPast
 from transformers.modeling_attn_mask_utils import _prepare_4d_causal_attention_mask
 from transformers.modeling_outputs import (
 )
 from transformers.utils.import_utils import is_torch_fx_available
+from configuration_kimi_vl import MoonViTConfig, DeepseekV3Config, KimiVLConfig
 if is_flash_attn_2_available():