htlou commited on Feb 3

Commit

7fdf253

verified ·

1 Parent(s): 927f947

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

README.md +78 -0
added_tokens.json +4 -0
all_results.json +20 -0
config.json +68 -0
eval_results.json +15 -0
generation_config.json +6 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +694 -0
preprocessor_config.json +52 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +70 -0
train_results.json +8 -0
trainer_log.jsonl +46 -0
trainer_state.json +722 -0
training_args.bin +3 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0
training_rewards_accuracies.png +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+library_name: transformers
+license: other
+base_model: llava-hf/llava-v1.6-mistral-7b-hf
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: AA_preference_Cherry_0_50
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# AA_preference_Cherry_0_50
+This model is a fine-tuned version of [llava-hf/llava-v1.6-mistral-7b-hf](https://huggingface.co/llava-hf/llava-v1.6-mistral-7b-hf) on the AA_preference_Cherry_0_50 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4853
+- Rewards/chosen: 2.7507
+- Rewards/rejected: -0.5491
+- Rewards/accuracies: 0.8548
+- Rewards/margins: 3.2998
+- Logps/rejected: -247.9047
+- Logps/chosen: -301.7189
+- Logits/rejected: -2.0198
+- Logits/chosen: -2.0547
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 256
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.563         | 0.5904 | 40   | 0.4594          | 2.4856         | 0.6720           | 0.8185             | 1.8135          | -235.6931      | -304.3701    | -2.1588         | -2.1792       |
+| 0.154         | 1.1808 | 80   | 0.4602          | 2.7861         | 0.3929           | 0.8427             | 2.3933          | -238.4848      | -301.3644    | -2.1104         | -2.1357       |
+| 0.2027        | 1.7712 | 120  | 0.4869          | 2.5066         | -0.4566          | 0.8548             | 2.9632          | -246.9799      | -304.1596    | -2.1461         | -2.1726       |
+| 0.0725        | 2.3616 | 160  | 0.4819          | 2.7680         | -0.4125          | 0.8629             | 3.1805          | -246.5386      | -301.5459    | -2.0424         | -2.0766       |
+| 0.0505        | 2.9520 | 200  | 0.4848          | 2.7520         | -0.5489          | 0.8548             | 3.3009          | -247.9026      | -301.7058    | -2.0194         | -2.0544       |
+### Framework versions
+- Transformers 4.45.2
+- Pytorch 2.4.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.20.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<image>": 32000,
+  "<pad>": 32001
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "epoch": 2.9667896678966788,
+    "eval_logits/chosen": -2.0546815395355225,
+    "eval_logits/rejected": -2.0197503566741943,
+    "eval_logps/chosen": -301.71893310546875,
+    "eval_logps/rejected": -247.9047393798828,
+    "eval_loss": 0.4852559268474579,
+    "eval_rewards/accuracies": 0.8548387289047241,
+    "eval_rewards/chosen": 2.7506847381591797,
+    "eval_rewards/margins": 3.2998063564300537,
+    "eval_rewards/rejected": -0.5491215586662292,
+    "eval_runtime": 128.5845,
+    "eval_samples_per_second": 14.94,
+    "eval_steps_per_second": 0.241,
+    "total_flos": 2369906314051584.0,
+    "train_loss": 0.26609369445202957,
+    "train_runtime": 7643.0309,
+    "train_samples_per_second": 6.784,
+    "train_steps_per_second": 0.026
+}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "_name_or_path": "/data/align-anything/hantao/models/llava-v1.6-mistral-7b-hf",
+  "architectures": [
+    "LlavaNextForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_seq_length": 576,
+  "image_token_index": 32000,
+  "model_type": "llava_next",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+    "architectures": [
+      "MistralForCausalLM"
+    ],
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mistral",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 32064
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_image_newline_parameter": true,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vocab_size": 32064
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 2.9667896678966788,
+    "eval_logits/chosen": -2.0546815395355225,
+    "eval_logits/rejected": -2.0197503566741943,
+    "eval_logps/chosen": -301.71893310546875,
+    "eval_logps/rejected": -247.9047393798828,
+    "eval_loss": 0.4852559268474579,
+    "eval_rewards/accuracies": 0.8548387289047241,
+    "eval_rewards/chosen": 2.7506847381591797,
+    "eval_rewards/margins": 3.2998063564300537,
+    "eval_rewards/rejected": -0.5491215586662292,
+    "eval_runtime": 128.5845,
+    "eval_samples_per_second": 14.94,
+    "eval_steps_per_second": 0.241
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.45.2"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0cb7946e022414d12f70cc823b7621a03f375850b23ded338cdfefe04f49392
+size 4921618624

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1943da8e13075d6d33a4837beebcabdf2dc1137c1ff7476973bf45660406d6e2
+size 4915917672

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d93a0ae7a89e751d673728c6b98b78ca052f62cee0bcb784547e1f5b2fae213
+size 4915917680

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abe414e720786b08cb6a7f58733a768f22f173325e231e0739be1463c1deb73c
+size 380134008

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "metadata": {
+    "total_size": 15133495296
+  },
+  "weight_map": {
+    "image_newline": "model-00001-of-00004.safetensors",
+    "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.norm.weight": "model-00004-of-00004.safetensors",
+    "multi_modal_projector.linear_1.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.class_embedding": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.weight": "model-00001-of-00004.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "aspect_ratio_setting": "anyres",
+  "crop_size": {
+    "height": 336,
+    "width": 336
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "LlavaNextImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "processor_class": "LlavaNextProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 336
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '`[INST] `' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {
+    "image_token": "<image>"
+  },
+  "image_token": "<image>",
+  "legacy": true,
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "LlavaNextProcessor",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.9667896678966788,
+    "total_flos": 2369906314051584.0,
+    "train_loss": 0.26609369445202957,
+    "train_runtime": 7643.0309,
+    "train_samples_per_second": 6.784,
+    "train_steps_per_second": 0.026
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,46 @@

+{"current_steps": 5, "total_steps": 201, "loss": 0.687, "accuracy": 0.34375, "learning_rate": 5e-07, "epoch": 0.07380073800738007, "percentage": 2.49, "elapsed_time": "0:02:55", "remaining_time": "1:54:32"}
+{"current_steps": 10, "total_steps": 201, "loss": 0.6147, "accuracy": 0.6875, "learning_rate": 1e-06, "epoch": 0.14760147601476015, "percentage": 4.98, "elapsed_time": "0:05:45", "remaining_time": "1:50:00"}
+{"current_steps": 15, "total_steps": 201, "loss": 0.6095, "accuracy": 0.6499999761581421, "learning_rate": 9.983100718730718e-07, "epoch": 0.22140221402214022, "percentage": 7.46, "elapsed_time": "0:08:34", "remaining_time": "1:46:17"}
+{"current_steps": 20, "total_steps": 201, "loss": 0.556, "accuracy": 0.7250000238418579, "learning_rate": 9.932517109205849e-07, "epoch": 0.2952029520295203, "percentage": 9.95, "elapsed_time": "0:11:23", "remaining_time": "1:43:04"}
+{"current_steps": 25, "total_steps": 201, "loss": 0.4963, "accuracy": 0.793749988079071, "learning_rate": 9.848591102083375e-07, "epoch": 0.36900369003690037, "percentage": 12.44, "elapsed_time": "0:14:14", "remaining_time": "1:40:13"}
+{"current_steps": 30, "total_steps": 201, "loss": 0.4972, "accuracy": 0.768750011920929, "learning_rate": 9.731890013043367e-07, "epoch": 0.44280442804428044, "percentage": 14.93, "elapsed_time": "0:17:04", "remaining_time": "1:37:18"}
+{"current_steps": 35, "total_steps": 201, "loss": 0.5431, "accuracy": 0.8125, "learning_rate": 9.583202707897073e-07, "epoch": 0.5166051660516605, "percentage": 17.41, "elapsed_time": "0:19:54", "remaining_time": "1:34:26"}
+{"current_steps": 40, "total_steps": 201, "loss": 0.563, "accuracy": 0.78125, "learning_rate": 9.403534270080829e-07, "epoch": 0.5904059040590406, "percentage": 19.9, "elapsed_time": "0:22:43", "remaining_time": "1:31:28"}
+{"current_steps": 40, "total_steps": 201, "eval_loss": 0.4594477713108063, "epoch": 0.5904059040590406, "percentage": 19.9, "elapsed_time": "0:24:54", "remaining_time": "1:40:16"}
+{"current_steps": 45, "total_steps": 201, "loss": 0.5076, "accuracy": 0.78125, "learning_rate": 9.19409920658098e-07, "epoch": 0.6642066420664207, "percentage": 22.39, "elapsed_time": "0:28:16", "remaining_time": "1:38:00"}
+{"current_steps": 50, "total_steps": 201, "loss": 0.5239, "accuracy": 0.800000011920929, "learning_rate": 8.956313238215823e-07, "epoch": 0.7380073800738007, "percentage": 24.88, "elapsed_time": "0:31:05", "remaining_time": "1:33:52"}
+{"current_steps": 55, "total_steps": 201, "loss": 0.5018, "accuracy": 0.8062499761581421, "learning_rate": 8.691783729769873e-07, "epoch": 0.8118081180811808, "percentage": 27.36, "elapsed_time": "0:33:53", "remaining_time": "1:29:57"}
+{"current_steps": 60, "total_steps": 201, "loss": 0.4817, "accuracy": 0.793749988079071, "learning_rate": 8.402298824670029e-07, "epoch": 0.8856088560885609, "percentage": 29.85, "elapsed_time": "0:36:42", "remaining_time": "1:26:15"}
+{"current_steps": 65, "total_steps": 201, "loss": 0.4943, "accuracy": 0.8187500238418579, "learning_rate": 8.089815357650089e-07, "epoch": 0.959409594095941, "percentage": 32.34, "elapsed_time": "0:39:31", "remaining_time": "1:22:41"}
+{"current_steps": 70, "total_steps": 201, "loss": 0.3303, "accuracy": 0.800000011920929, "learning_rate": 7.756445627110522e-07, "epoch": 1.033210332103321, "percentage": 34.83, "elapsed_time": "0:42:20", "remaining_time": "1:19:13"}
+{"current_steps": 75, "total_steps": 201, "loss": 0.129, "accuracy": 0.9624999761581421, "learning_rate": 7.404443116588547e-07, "epoch": 1.1070110701107012, "percentage": 37.31, "elapsed_time": "0:45:08", "remaining_time": "1:15:49"}
+{"current_steps": 80, "total_steps": 201, "loss": 0.154, "accuracy": 0.96875, "learning_rate": 7.036187261857288e-07, "epoch": 1.1808118081180812, "percentage": 39.8, "elapsed_time": "0:47:56", "remaining_time": "1:12:30"}
+{"current_steps": 80, "total_steps": 201, "eval_loss": 0.46015238761901855, "epoch": 1.1808118081180812, "percentage": 39.8, "elapsed_time": "0:50:05", "remaining_time": "1:15:46"}
+{"current_steps": 85, "total_steps": 201, "loss": 0.1699, "accuracy": 0.9437500238418579, "learning_rate": 6.654167366624008e-07, "epoch": 1.2546125461254611, "percentage": 42.29, "elapsed_time": "0:53:25", "remaining_time": "1:12:54"}
+{"current_steps": 90, "total_steps": 201, "loss": 0.159, "accuracy": 0.9437500238418579, "learning_rate": 6.260965775552713e-07, "epoch": 1.3284132841328413, "percentage": 44.78, "elapsed_time": "0:56:13", "remaining_time": "1:09:20"}
+{"current_steps": 95, "total_steps": 201, "loss": 0.1745, "accuracy": 0.9750000238418579, "learning_rate": 5.859240418356614e-07, "epoch": 1.4022140221402215, "percentage": 47.26, "elapsed_time": "0:59:03", "remaining_time": "1:05:53"}
+{"current_steps": 100, "total_steps": 201, "loss": 0.1518, "accuracy": 0.96875, "learning_rate": 5.451706842957421e-07, "epoch": 1.4760147601476015, "percentage": 49.75, "elapsed_time": "1:01:51", "remaining_time": "1:02:28"}
+{"current_steps": 105, "total_steps": 201, "loss": 0.1927, "accuracy": 0.9125000238418579, "learning_rate": 5.041119859162068e-07, "epoch": 1.5498154981549814, "percentage": 52.24, "elapsed_time": "1:04:39", "remaining_time": "0:59:07"}
+{"current_steps": 110, "total_steps": 201, "loss": 0.1829, "accuracy": 0.9437500238418579, "learning_rate": 4.630254916940423e-07, "epoch": 1.6236162361623616, "percentage": 54.73, "elapsed_time": "1:07:28", "remaining_time": "0:55:48"}
+{"current_steps": 115, "total_steps": 201, "loss": 0.1934, "accuracy": 0.949999988079071, "learning_rate": 4.2218893451814e-07, "epoch": 1.6974169741697418, "percentage": 57.21, "elapsed_time": "1:10:16", "remaining_time": "0:52:32"}
+{"current_steps": 120, "total_steps": 201, "loss": 0.2027, "accuracy": 0.9750000238418579, "learning_rate": 3.8187835777481375e-07, "epoch": 1.7712177121771218, "percentage": 59.7, "elapsed_time": "1:13:05", "remaining_time": "0:49:20"}
+{"current_steps": 120, "total_steps": 201, "eval_loss": 0.48685166239738464, "epoch": 1.7712177121771218, "percentage": 59.7, "elapsed_time": "1:15:15", "remaining_time": "0:50:47"}
+{"current_steps": 125, "total_steps": 201, "loss": 0.1609, "accuracy": 0.9375, "learning_rate": 3.423662493738687e-07, "epoch": 1.8450184501845017, "percentage": 62.19, "elapsed_time": "1:18:36", "remaining_time": "0:47:47"}
+{"current_steps": 130, "total_steps": 201, "loss": 0.1847, "accuracy": 0.9375, "learning_rate": 3.039196998086687e-07, "epoch": 1.918819188191882, "percentage": 64.68, "elapsed_time": "1:21:24", "remaining_time": "0:44:27"}
+{"current_steps": 135, "total_steps": 201, "loss": 0.1724, "accuracy": 0.918749988079071, "learning_rate": 2.667985967011878e-07, "epoch": 1.992619926199262, "percentage": 67.16, "elapsed_time": "1:24:14", "remaining_time": "0:41:10"}
+{"current_steps": 140, "total_steps": 201, "loss": 0.0938, "accuracy": 0.9750000238418579, "learning_rate": 2.3125386803640183e-07, "epoch": 2.066420664206642, "percentage": 69.65, "elapsed_time": "1:27:03", "remaining_time": "0:37:55"}
+{"current_steps": 145, "total_steps": 201, "loss": 0.0775, "accuracy": 0.981249988079071, "learning_rate": 1.9752578596124952e-07, "epoch": 2.140221402214022, "percentage": 72.14, "elapsed_time": "1:29:53", "remaining_time": "0:34:43"}
+{"current_steps": 150, "total_steps": 201, "loss": 0.0579, "accuracy": 0.981249988079071, "learning_rate": 1.6584234261399532e-07, "epoch": 2.2140221402214024, "percentage": 74.63, "elapsed_time": "1:32:41", "remaining_time": "0:31:30"}
+{"current_steps": 155, "total_steps": 201, "loss": 0.0718, "accuracy": 0.9750000238418579, "learning_rate": 1.3641770896292082e-07, "epoch": 2.2878228782287824, "percentage": 77.11, "elapsed_time": "1:35:28", "remaining_time": "0:28:20"}
+{"current_steps": 160, "total_steps": 201, "loss": 0.0725, "accuracy": 0.987500011920929, "learning_rate": 1.0945078707215221e-07, "epoch": 2.3616236162361623, "percentage": 79.6, "elapsed_time": "1:38:17", "remaining_time": "0:25:11"}
+{"current_steps": 160, "total_steps": 201, "eval_loss": 0.48189839720726013, "epoch": 2.3616236162361623, "percentage": 79.6, "elapsed_time": "1:40:27", "remaining_time": "0:25:44"}
+{"current_steps": 165, "total_steps": 201, "loss": 0.0707, "accuracy": 0.9624999761581421, "learning_rate": 8.512386558088919e-08, "epoch": 2.4354243542435423, "percentage": 82.09, "elapsed_time": "1:43:51", "remaining_time": "0:22:39"}
+{"current_steps": 170, "total_steps": 201, "loss": 0.0712, "accuracy": 0.987500011920929, "learning_rate": 6.360138748461013e-08, "epoch": 2.5092250922509223, "percentage": 84.58, "elapsed_time": "1:46:39", "remaining_time": "0:19:26"}
+{"current_steps": 175, "total_steps": 201, "loss": 0.0756, "accuracy": 0.9750000238418579, "learning_rate": 4.5028838547699346e-08, "epoch": 2.5830258302583027, "percentage": 87.06, "elapsed_time": "1:49:29", "remaining_time": "0:16:15"}
+{"current_steps": 180, "total_steps": 201, "loss": 0.0701, "accuracy": 0.96875, "learning_rate": 2.9531763861505964e-08, "epoch": 2.6568265682656826, "percentage": 89.55, "elapsed_time": "1:52:18", "remaining_time": "0:13:06"}
+{"current_steps": 185, "total_steps": 201, "loss": 0.0833, "accuracy": 0.9624999761581421, "learning_rate": 1.7214919195619125e-08, "epoch": 2.7306273062730626, "percentage": 92.04, "elapsed_time": "1:55:07", "remaining_time": "0:09:57"}
+{"current_steps": 190, "total_steps": 201, "loss": 0.0933, "accuracy": 0.9624999761581421, "learning_rate": 8.161562878982398e-09, "epoch": 2.804428044280443, "percentage": 94.53, "elapsed_time": "1:57:57", "remaining_time": "0:06:49"}
+{"current_steps": 195, "total_steps": 201, "loss": 0.0959, "accuracy": 0.981249988079071, "learning_rate": 2.432892997526026e-09, "epoch": 2.878228782287823, "percentage": 97.01, "elapsed_time": "2:00:46", "remaining_time": "0:03:42"}
+{"current_steps": 200, "total_steps": 201, "loss": 0.0505, "accuracy": 0.987500011920929, "learning_rate": 6.763371270035457e-11, "epoch": 2.952029520295203, "percentage": 99.5, "elapsed_time": "2:03:32", "remaining_time": "0:00:37"}
+{"current_steps": 200, "total_steps": 201, "eval_loss": 0.48475462198257446, "epoch": 2.952029520295203, "percentage": 99.5, "elapsed_time": "2:05:41", "remaining_time": "0:00:37"}
+{"current_steps": 201, "total_steps": 201, "epoch": 2.9667896678966788, "percentage": 100.0, "elapsed_time": "2:07:20", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,722 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9667896678966788,
+  "eval_steps": 40,
+  "global_step": 201,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07380073800738007,
+      "grad_norm": 80.02477445251274,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.7569785118103027,
+      "logits/rejected": -2.715679883956909,
+      "logps/chosen": -343.655517578125,
+      "logps/rejected": -244.0912628173828,
+      "loss": 0.687,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": 0.02633141539990902,
+      "rewards/margins": 0.006850541569292545,
+      "rewards/rejected": 0.0194808728992939,
+      "step": 5
+    },
+    {
+      "epoch": 0.14760147601476015,
+      "grad_norm": 65.98268514011825,
+      "learning_rate": 1e-06,
+      "logits/chosen": -2.676809787750244,
+      "logits/rejected": -2.666592836380005,
+      "logps/chosen": -296.428955078125,
+      "logps/rejected": -247.4902801513672,
+      "loss": 0.6147,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.8011910319328308,
+      "rewards/margins": 0.2567104995250702,
+      "rewards/rejected": 0.5444804430007935,
+      "step": 10
+    },
+    {
+      "epoch": 0.22140221402214022,
+      "grad_norm": 48.66427015180346,
+      "learning_rate": 9.983100718730718e-07,
+      "logits/chosen": -2.416226863861084,
+      "logits/rejected": -2.3806653022766113,
+      "logps/chosen": -316.8359069824219,
+      "logps/rejected": -258.2687683105469,
+      "loss": 0.6095,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 2.1471664905548096,
+      "rewards/margins": 0.7412694692611694,
+      "rewards/rejected": 1.4058969020843506,
+      "step": 15
+    },
+    {
+      "epoch": 0.2952029520295203,
+      "grad_norm": 50.05057195236849,
+      "learning_rate": 9.932517109205849e-07,
+      "logits/chosen": -2.1923749446868896,
+      "logits/rejected": -2.1478309631347656,
+      "logps/chosen": -294.5142517089844,
+      "logps/rejected": -243.7734375,
+      "loss": 0.556,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 2.3299460411071777,
+      "rewards/margins": 1.3834998607635498,
+      "rewards/rejected": 0.9464457631111145,
+      "step": 20
+    },
+    {
+      "epoch": 0.36900369003690037,
+      "grad_norm": 41.37624373189553,
+      "learning_rate": 9.848591102083375e-07,
+      "logits/chosen": -2.0363731384277344,
+      "logits/rejected": -2.030383348464966,
+      "logps/chosen": -282.7300720214844,
+      "logps/rejected": -221.184326171875,
+      "loss": 0.4963,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": 2.7908506393432617,
+      "rewards/margins": 1.624943494796753,
+      "rewards/rejected": 1.1659072637557983,
+      "step": 25
+    },
+    {
+      "epoch": 0.44280442804428044,
+      "grad_norm": 43.83501071765918,
+      "learning_rate": 9.731890013043367e-07,
+      "logits/chosen": -2.0403037071228027,
+      "logits/rejected": -1.9934555292129517,
+      "logps/chosen": -325.14227294921875,
+      "logps/rejected": -214.34542846679688,
+      "loss": 0.4972,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": 2.984839916229248,
+      "rewards/margins": 1.5722445249557495,
+      "rewards/rejected": 1.412595510482788,
+      "step": 30
+    },
+    {
+      "epoch": 0.5166051660516605,
+      "grad_norm": 47.665657648113644,
+      "learning_rate": 9.583202707897073e-07,
+      "logits/chosen": -2.0699315071105957,
+      "logits/rejected": -2.042548418045044,
+      "logps/chosen": -318.35357666015625,
+      "logps/rejected": -221.4462432861328,
+      "loss": 0.5431,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": 3.141150951385498,
+      "rewards/margins": 1.8329731225967407,
+      "rewards/rejected": 1.3081778287887573,
+      "step": 35
+    },
+    {
+      "epoch": 0.5904059040590406,
+      "grad_norm": 42.1852532770112,
+      "learning_rate": 9.403534270080829e-07,
+      "logits/chosen": -2.1574552059173584,
+      "logits/rejected": -2.105395555496216,
+      "logps/chosen": -282.8706359863281,
+      "logps/rejected": -239.42562866210938,
+      "loss": 0.563,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 2.571629524230957,
+      "rewards/margins": 1.7009865045547485,
+      "rewards/rejected": 0.8706433176994324,
+      "step": 40
+    },
+    {
+      "epoch": 0.5904059040590406,
+      "eval_logits/chosen": -2.179224967956543,
+      "eval_logits/rejected": -2.15881085395813,
+      "eval_logps/chosen": -304.3701171875,
+      "eval_logps/rejected": -235.69309997558594,
+      "eval_loss": 0.4594477713108063,
+      "eval_rewards/accuracies": 0.8185483813285828,
+      "eval_rewards/chosen": 2.485563278198242,
+      "eval_rewards/margins": 1.8135225772857666,
+      "eval_rewards/rejected": 0.6720407009124756,
+      "eval_runtime": 131.0305,
+      "eval_samples_per_second": 14.661,
+      "eval_steps_per_second": 0.237,
+      "step": 40
+    },
+    {
+      "epoch": 0.6642066420664207,
+      "grad_norm": 38.916777514219696,
+      "learning_rate": 9.19409920658098e-07,
+      "logits/chosen": -2.225562572479248,
+      "logits/rejected": -2.181002378463745,
+      "logps/chosen": -276.44537353515625,
+      "logps/rejected": -232.626220703125,
+      "loss": 0.5076,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 2.278400182723999,
+      "rewards/margins": 1.4811707735061646,
+      "rewards/rejected": 0.7972294092178345,
+      "step": 45
+    },
+    {
+      "epoch": 0.7380073800738007,
+      "grad_norm": 50.710250280321,
+      "learning_rate": 8.956313238215823e-07,
+      "logits/chosen": -2.2307848930358887,
+      "logits/rejected": -2.1967437267303467,
+      "logps/chosen": -313.6961364746094,
+      "logps/rejected": -241.0548858642578,
+      "loss": 0.5239,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 2.592728853225708,
+      "rewards/margins": 1.948052167892456,
+      "rewards/rejected": 0.6446765661239624,
+      "step": 50
+    },
+    {
+      "epoch": 0.8118081180811808,
+      "grad_norm": 39.063704669645155,
+      "learning_rate": 8.691783729769873e-07,
+      "logits/chosen": -2.139880895614624,
+      "logits/rejected": -2.139148712158203,
+      "logps/chosen": -299.7575988769531,
+      "logps/rejected": -245.935546875,
+      "loss": 0.5018,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": 2.354003429412842,
+      "rewards/margins": 1.81247878074646,
+      "rewards/rejected": 0.5415242910385132,
+      "step": 55
+    },
+    {
+      "epoch": 0.8856088560885609,
+      "grad_norm": 33.2796085112328,
+      "learning_rate": 8.402298824670029e-07,
+      "logits/chosen": -2.0772578716278076,
+      "logits/rejected": -2.054955005645752,
+      "logps/chosen": -295.5028991699219,
+      "logps/rejected": -244.0660858154297,
+      "loss": 0.4817,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": 2.2515780925750732,
+      "rewards/margins": 1.5721994638442993,
+      "rewards/rejected": 0.6793786883354187,
+      "step": 60
+    },
+    {
+      "epoch": 0.959409594095941,
+      "grad_norm": 36.14638757212613,
+      "learning_rate": 8.089815357650089e-07,
+      "logits/chosen": -2.0140891075134277,
+      "logits/rejected": -1.9471585750579834,
+      "logps/chosen": -302.58148193359375,
+      "logps/rejected": -237.9540252685547,
+      "loss": 0.4943,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": 2.2041029930114746,
+      "rewards/margins": 2.0399723052978516,
+      "rewards/rejected": 0.16413061320781708,
+      "step": 65
+    },
+    {
+      "epoch": 1.033210332103321,
+      "grad_norm": 21.302121663013374,
+      "learning_rate": 7.756445627110522e-07,
+      "logits/chosen": -2.040945053100586,
+      "logits/rejected": -2.0241832733154297,
+      "logps/chosen": -312.1359558105469,
+      "logps/rejected": -239.3393096923828,
+      "loss": 0.3303,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 2.603544235229492,
+      "rewards/margins": 2.4756617546081543,
+      "rewards/rejected": 0.12788262963294983,
+      "step": 70
+    },
+    {
+      "epoch": 1.1070110701107012,
+      "grad_norm": 20.556094388092646,
+      "learning_rate": 7.404443116588547e-07,
+      "logits/chosen": -2.104165554046631,
+      "logits/rejected": -2.059689521789551,
+      "logps/chosen": -294.634765625,
+      "logps/rejected": -238.32437133789062,
+      "loss": 0.129,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 3.189236879348755,
+      "rewards/margins": 3.7732062339782715,
+      "rewards/rejected": -0.5839694142341614,
+      "step": 75
+    },
+    {
+      "epoch": 1.1808118081180812,
+      "grad_norm": 20.50931148538785,
+      "learning_rate": 7.036187261857288e-07,
+      "logits/chosen": -2.146726608276367,
+      "logits/rejected": -2.1075119972229004,
+      "logps/chosen": -297.4272155761719,
+      "logps/rejected": -262.4473876953125,
+      "loss": 0.154,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 3.2519805431365967,
+      "rewards/margins": 3.6943678855895996,
+      "rewards/rejected": -0.44238725304603577,
+      "step": 80
+    },
+    {
+      "epoch": 1.1808118081180812,
+      "eval_logits/chosen": -2.13566517829895,
+      "eval_logits/rejected": -2.110398054122925,
+      "eval_logps/chosen": -301.3644104003906,
+      "eval_logps/rejected": -238.48484802246094,
+      "eval_loss": 0.46015238761901855,
+      "eval_rewards/accuracies": 0.8427419066429138,
+      "eval_rewards/chosen": 2.7861340045928955,
+      "eval_rewards/margins": 2.3932666778564453,
+      "eval_rewards/rejected": 0.3928670585155487,
+      "eval_runtime": 129.5743,
+      "eval_samples_per_second": 14.825,
+      "eval_steps_per_second": 0.239,
+      "step": 80
+    },
+    {
+      "epoch": 1.2546125461254611,
+      "grad_norm": 24.33309810818949,
+      "learning_rate": 6.654167366624008e-07,
+      "logits/chosen": -2.142047882080078,
+      "logits/rejected": -2.1115987300872803,
+      "logps/chosen": -289.6197204589844,
+      "logps/rejected": -245.8259735107422,
+      "loss": 0.1699,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 3.555595874786377,
+      "rewards/margins": 4.105128288269043,
+      "rewards/rejected": -0.5495321750640869,
+      "step": 85
+    },
+    {
+      "epoch": 1.3284132841328413,
+      "grad_norm": 23.507286919588484,
+      "learning_rate": 6.260965775552713e-07,
+      "logits/chosen": -2.1702046394348145,
+      "logits/rejected": -2.1256089210510254,
+      "logps/chosen": -299.5054626464844,
+      "logps/rejected": -242.0937042236328,
+      "loss": 0.159,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 3.9076132774353027,
+      "rewards/margins": 4.560946464538574,
+      "rewards/rejected": -0.6533328890800476,
+      "step": 90
+    },
+    {
+      "epoch": 1.4022140221402215,
+      "grad_norm": 15.516195820704533,
+      "learning_rate": 5.859240418356614e-07,
+      "logits/chosen": -2.1203560829162598,
+      "logits/rejected": -2.07737398147583,
+      "logps/chosen": -270.5323791503906,
+      "logps/rejected": -282.30242919921875,
+      "loss": 0.1745,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 3.4920401573181152,
+      "rewards/margins": 4.871523380279541,
+      "rewards/rejected": -1.3794825077056885,
+      "step": 95
+    },
+    {
+      "epoch": 1.4760147601476015,
+      "grad_norm": 15.962268006534465,
+      "learning_rate": 5.451706842957421e-07,
+      "logits/chosen": -2.0756678581237793,
+      "logits/rejected": -2.0366768836975098,
+      "logps/chosen": -285.35400390625,
+      "logps/rejected": -261.02069091796875,
+      "loss": 0.1518,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 3.5108916759490967,
+      "rewards/margins": 4.940871715545654,
+      "rewards/rejected": -1.4299800395965576,
+      "step": 100
+    },
+    {
+      "epoch": 1.5498154981549814,
+      "grad_norm": 25.320702801914457,
+      "learning_rate": 5.041119859162068e-07,
+      "logits/chosen": -2.1494388580322266,
+      "logits/rejected": -2.1103031635284424,
+      "logps/chosen": -291.79193115234375,
+      "logps/rejected": -242.1620635986328,
+      "loss": 0.1927,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 3.214129686355591,
+      "rewards/margins": 4.194614410400391,
+      "rewards/rejected": -0.980484664440155,
+      "step": 105
+    },
+    {
+      "epoch": 1.6236162361623616,
+      "grad_norm": 24.127332932431226,
+      "learning_rate": 4.630254916940423e-07,
+      "logits/chosen": -2.174290180206299,
+      "logits/rejected": -2.179755926132202,
+      "logps/chosen": -279.0810546875,
+      "logps/rejected": -252.66488647460938,
+      "loss": 0.1829,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 3.157012701034546,
+      "rewards/margins": 4.443808078765869,
+      "rewards/rejected": -1.2867956161499023,
+      "step": 110
+    },
+    {
+      "epoch": 1.6974169741697418,
+      "grad_norm": 20.11391135642748,
+      "learning_rate": 4.2218893451814e-07,
+      "logits/chosen": -2.2010812759399414,
+      "logits/rejected": -2.164829730987549,
+      "logps/chosen": -289.4188232421875,
+      "logps/rejected": -246.65945434570312,
+      "loss": 0.1934,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 3.433326244354248,
+      "rewards/margins": 4.391345977783203,
+      "rewards/rejected": -0.9580191373825073,
+      "step": 115
+    },
+    {
+      "epoch": 1.7712177121771218,
+      "grad_norm": 20.706343509306766,
+      "learning_rate": 3.8187835777481375e-07,
+      "logits/chosen": -2.176086187362671,
+      "logits/rejected": -2.1578235626220703,
+      "logps/chosen": -281.7149353027344,
+      "logps/rejected": -265.0261535644531,
+      "loss": 0.2027,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 3.2026546001434326,
+      "rewards/margins": 4.289515495300293,
+      "rewards/rejected": -1.0868606567382812,
+      "step": 120
+    },
+    {
+      "epoch": 1.7712177121771218,
+      "eval_logits/chosen": -2.1726152896881104,
+      "eval_logits/rejected": -2.146054983139038,
+      "eval_logps/chosen": -304.15960693359375,
+      "eval_logps/rejected": -246.97988891601562,
+      "eval_loss": 0.48685166239738464,
+      "eval_rewards/accuracies": 0.8548387289047241,
+      "eval_rewards/chosen": 2.5066120624542236,
+      "eval_rewards/margins": 2.9632484912872314,
+      "eval_rewards/rejected": -0.4566364884376526,
+      "eval_runtime": 129.7757,
+      "eval_samples_per_second": 14.802,
+      "eval_steps_per_second": 0.239,
+      "step": 120
+    },
+    {
+      "epoch": 1.8450184501845017,
+      "grad_norm": 20.871306894670933,
+      "learning_rate": 3.423662493738687e-07,
+      "logits/chosen": -2.180792808532715,
+      "logits/rejected": -2.159304141998291,
+      "logps/chosen": -301.1511535644531,
+      "logps/rejected": -255.13919067382812,
+      "loss": 0.1609,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 3.2595107555389404,
+      "rewards/margins": 4.297440528869629,
+      "rewards/rejected": -1.037929654121399,
+      "step": 125
+    },
+    {
+      "epoch": 1.918819188191882,
+      "grad_norm": 27.947861559843737,
+      "learning_rate": 3.039196998086687e-07,
+      "logits/chosen": -2.136273145675659,
+      "logits/rejected": -2.1014552116394043,
+      "logps/chosen": -286.9736022949219,
+      "logps/rejected": -244.7154083251953,
+      "loss": 0.1847,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 3.395556926727295,
+      "rewards/margins": 4.3099188804626465,
+      "rewards/rejected": -0.9143617749214172,
+      "step": 130
+    },
+    {
+      "epoch": 1.992619926199262,
+      "grad_norm": 20.821197239752305,
+      "learning_rate": 2.667985967011878e-07,
+      "logits/chosen": -2.1088356971740723,
+      "logits/rejected": -2.0703465938568115,
+      "logps/chosen": -286.96917724609375,
+      "logps/rejected": -256.48016357421875,
+      "loss": 0.1724,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 3.350585460662842,
+      "rewards/margins": 4.244786262512207,
+      "rewards/rejected": -0.8942006826400757,
+      "step": 135
+    },
+    {
+      "epoch": 2.066420664206642,
+      "grad_norm": 8.245558323252546,
+      "learning_rate": 2.3125386803640183e-07,
+      "logits/chosen": -2.1218690872192383,
+      "logits/rejected": -2.0660667419433594,
+      "logps/chosen": -284.4044494628906,
+      "logps/rejected": -270.7417907714844,
+      "loss": 0.0938,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 3.351060152053833,
+      "rewards/margins": 4.853818416595459,
+      "rewards/rejected": -1.5027587413787842,
+      "step": 140
+    },
+    {
+      "epoch": 2.140221402214022,
+      "grad_norm": 14.140599014287302,
+      "learning_rate": 1.9752578596124952e-07,
+      "logits/chosen": -2.093632936477661,
+      "logits/rejected": -2.0502517223358154,
+      "logps/chosen": -288.5584716796875,
+      "logps/rejected": -256.74652099609375,
+      "loss": 0.0775,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 3.4150993824005127,
+      "rewards/margins": 4.966043949127197,
+      "rewards/rejected": -1.5509445667266846,
+      "step": 145
+    },
+    {
+      "epoch": 2.2140221402214024,
+      "grad_norm": 7.605905759499919,
+      "learning_rate": 1.6584234261399532e-07,
+      "logits/chosen": -2.0875797271728516,
+      "logits/rejected": -2.0646932125091553,
+      "logps/chosen": -295.5018310546875,
+      "logps/rejected": -290.001708984375,
+      "loss": 0.0579,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 3.694823741912842,
+      "rewards/margins": 5.430555820465088,
+      "rewards/rejected": -1.7357313632965088,
+      "step": 150
+    },
+    {
+      "epoch": 2.2878228782287824,
+      "grad_norm": 20.873090027101682,
+      "learning_rate": 1.3641770896292082e-07,
+      "logits/chosen": -2.0764248371124268,
+      "logits/rejected": -2.060342311859131,
+      "logps/chosen": -278.5547790527344,
+      "logps/rejected": -249.08203125,
+      "loss": 0.0718,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 3.3755805492401123,
+      "rewards/margins": 5.271130084991455,
+      "rewards/rejected": -1.8955495357513428,
+      "step": 155
+    },
+    {
+      "epoch": 2.3616236162361623,
+      "grad_norm": 12.7807011486128,
+      "learning_rate": 1.0945078707215221e-07,
+      "logits/chosen": -2.073279857635498,
+      "logits/rejected": -2.0515029430389404,
+      "logps/chosen": -279.70892333984375,
+      "logps/rejected": -263.677734375,
+      "loss": 0.0725,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 3.862575054168701,
+      "rewards/margins": 5.486065864562988,
+      "rewards/rejected": -1.623490571975708,
+      "step": 160
+    },
+    {
+      "epoch": 2.3616236162361623,
+      "eval_logits/chosen": -2.0765814781188965,
+      "eval_logits/rejected": -2.042445182800293,
+      "eval_logps/chosen": -301.5458984375,
+      "eval_logps/rejected": -246.53857421875,
+      "eval_loss": 0.48189839720726013,
+      "eval_rewards/accuracies": 0.8629032373428345,
+      "eval_rewards/chosen": 2.7679829597473145,
+      "eval_rewards/margins": 3.1804890632629395,
+      "eval_rewards/rejected": -0.412506103515625,
+      "eval_runtime": 129.9118,
+      "eval_samples_per_second": 14.787,
+      "eval_steps_per_second": 0.239,
+      "step": 160
+    },
+    {
+      "epoch": 2.4354243542435423,
+      "grad_norm": 16.62994387557585,
+      "learning_rate": 8.512386558088919e-08,
+      "logits/chosen": -2.0903940200805664,
+      "logits/rejected": -2.0252914428710938,
+      "logps/chosen": -286.7425842285156,
+      "logps/rejected": -249.64614868164062,
+      "loss": 0.0707,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 3.8004047870635986,
+      "rewards/margins": 5.124575614929199,
+      "rewards/rejected": -1.3241703510284424,
+      "step": 165
+    },
+    {
+      "epoch": 2.5092250922509223,
+      "grad_norm": 13.149398258549308,
+      "learning_rate": 6.360138748461013e-08,
+      "logits/chosen": -2.078819751739502,
+      "logits/rejected": -2.0325751304626465,
+      "logps/chosen": -279.3172912597656,
+      "logps/rejected": -262.2966003417969,
+      "loss": 0.0712,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 3.741664409637451,
+      "rewards/margins": 5.292626857757568,
+      "rewards/rejected": -1.5509625673294067,
+      "step": 170
+    },
+    {
+      "epoch": 2.5830258302583027,
+      "grad_norm": 15.477600906013183,
+      "learning_rate": 4.5028838547699346e-08,
+      "logits/chosen": -2.058854818344116,
+      "logits/rejected": -2.045734167098999,
+      "logps/chosen": -293.87738037109375,
+      "logps/rejected": -277.49139404296875,
+      "loss": 0.0756,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 3.888404369354248,
+      "rewards/margins": 5.4004316329956055,
+      "rewards/rejected": -1.512027382850647,
+      "step": 175
+    },
+    {
+      "epoch": 2.6568265682656826,
+      "grad_norm": 10.486814550692278,
+      "learning_rate": 2.9531763861505964e-08,
+      "logits/chosen": -2.057389497756958,
+      "logits/rejected": -2.0072054862976074,
+      "logps/chosen": -284.025634765625,
+      "logps/rejected": -249.7481231689453,
+      "loss": 0.0701,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": 3.7061257362365723,
+      "rewards/margins": 5.206698417663574,
+      "rewards/rejected": -1.500572919845581,
+      "step": 180
+    },
+    {
+      "epoch": 2.7306273062730626,
+      "grad_norm": 16.604175060639175,
+      "learning_rate": 1.7214919195619125e-08,
+      "logits/chosen": -2.0375514030456543,
+      "logits/rejected": -2.0372228622436523,
+      "logps/chosen": -293.4367980957031,
+      "logps/rejected": -243.2362823486328,
+      "loss": 0.0833,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 3.817143201828003,
+      "rewards/margins": 5.346969127655029,
+      "rewards/rejected": -1.5298258066177368,
+      "step": 185
+    },
+    {
+      "epoch": 2.804428044280443,
+      "grad_norm": 11.656202399163227,
+      "learning_rate": 8.161562878982398e-09,
+      "logits/chosen": -2.064812183380127,
+      "logits/rejected": -2.0154833793640137,
+      "logps/chosen": -295.53033447265625,
+      "logps/rejected": -259.0420837402344,
+      "loss": 0.0933,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 3.9195189476013184,
+      "rewards/margins": 5.322437286376953,
+      "rewards/rejected": -1.4029181003570557,
+      "step": 190
+    },
+    {
+      "epoch": 2.878228782287823,
+      "grad_norm": 12.21325697905649,
+      "learning_rate": 2.432892997526026e-09,
+      "logits/chosen": -2.0528626441955566,
+      "logits/rejected": -2.0427441596984863,
+      "logps/chosen": -290.7054443359375,
+      "logps/rejected": -244.73696899414062,
+      "loss": 0.0959,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": 3.4299838542938232,
+      "rewards/margins": 5.134265899658203,
+      "rewards/rejected": -1.7042820453643799,
+      "step": 195
+    },
+    {
+      "epoch": 2.952029520295203,
+      "grad_norm": 13.794636154783172,
+      "learning_rate": 6.763371270035457e-11,
+      "logits/chosen": -2.0266225337982178,
+      "logits/rejected": -2.011596441268921,
+      "logps/chosen": -275.36798095703125,
+      "logps/rejected": -242.58694458007812,
+      "loss": 0.0505,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 3.6280651092529297,
+      "rewards/margins": 5.206905364990234,
+      "rewards/rejected": -1.5788400173187256,
+      "step": 200
+    },
+    {
+      "epoch": 2.952029520295203,
+      "eval_logits/chosen": -2.054385185241699,
+      "eval_logits/rejected": -2.0193707942962646,
+      "eval_logps/chosen": -301.7057800292969,
+      "eval_logps/rejected": -247.90260314941406,
+      "eval_loss": 0.48475462198257446,
+      "eval_rewards/accuracies": 0.8548387289047241,
+      "eval_rewards/chosen": 2.75199556350708,
+      "eval_rewards/margins": 3.300902843475342,
+      "eval_rewards/rejected": -0.5489078760147095,
+      "eval_runtime": 129.5144,
+      "eval_samples_per_second": 14.832,
+      "eval_steps_per_second": 0.239,
+      "step": 200
+    },
+    {
+      "epoch": 2.9667896678966788,
+      "step": 201,
+      "total_flos": 2369906314051584.0,
+      "train_loss": 0.26609369445202957,
+      "train_runtime": 7643.0309,
+      "train_samples_per_second": 6.784,
+      "train_steps_per_second": 0.026
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 201,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 40,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2369906314051584.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4404d9e29324869eaecb9a6fc81c5bc63d409abf3773205b1ea397dccfacbe51
+size 7096

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed

training_rewards_accuracies.png ADDED Viewed