htlou commited on Feb 3

Commit

34fd41f

verified ·

1 Parent(s): 65da4aa

Upload folder using huggingface_hub

Browse files

Files changed (22) hide show

README.md +87 -0
added_tokens.json +4 -0
all_results.json +12 -0
config.json +68 -0
eval_results.json +7 -0
generation_config.json +6 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +694 -0
preprocessor_config.json +52 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +70 -0
train_results.json +8 -0
trainer_log.jsonl +244 -0
trainer_state.json +1765 -0
training_args.bin +3 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,87 @@

+---
+library_name: transformers
+license: other
+base_model: llava-hf/llava-v1.6-mistral-7b-hf
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: Compcap_cooccur_0_100
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Compcap_cooccur_0_100
+This model is a fine-tuned version of [llava-hf/llava-v1.6-mistral-7b-hf](https://huggingface.co/llava-hf/llava-v1.6-mistral-7b-hf) on the Compcap_cooccur_0_100 dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.7824
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 256
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 0.9444        | 0.1354 | 50   | 0.9377          |
+| 0.8668        | 0.2708 | 100  | 0.8816          |
+| 0.8436        | 0.4062 | 150  | 0.8559          |
+| 0.8192        | 0.5416 | 200  | 0.8384          |
+| 0.8285        | 0.6770 | 250  | 0.8261          |
+| 0.8132        | 0.8125 | 300  | 0.8165          |
+| 0.7997        | 0.9479 | 350  | 0.8076          |
+| 0.7335        | 1.0833 | 400  | 0.8050          |
+| 0.7466        | 1.2187 | 450  | 0.7997          |
+| 0.7264        | 1.3541 | 500  | 0.7957          |
+| 0.7286        | 1.4895 | 550  | 0.7911          |
+| 0.7251        | 1.6249 | 600  | 0.7876          |
+| 0.727         | 1.7603 | 650  | 0.7840          |
+| 0.7277        | 1.8957 | 700  | 0.7811          |
+| 0.6724        | 2.0311 | 750  | 0.7858          |
+| 0.6883        | 2.1666 | 800  | 0.7850          |
+| 0.6709        | 2.3020 | 850  | 0.7840          |
+| 0.6598        | 2.4374 | 900  | 0.7834          |
+| 0.674         | 2.5728 | 950  | 0.7830          |
+| 0.656         | 2.7082 | 1000 | 0.7828          |
+| 0.6741        | 2.8436 | 1050 | 0.7825          |
+| 0.6592        | 2.9790 | 1100 | 0.7824          |
+### Framework versions
+- Transformers 4.45.2
+- Pytorch 2.4.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.20.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "<image>": 32000,
+  "<pad>": 32001
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.997968855788761,
+    "eval_loss": 0.7824327945709229,
+    "eval_runtime": 182.597,
+    "eval_samples_per_second": 57.504,
+    "eval_steps_per_second": 0.904,
+    "total_flos": 6527139780231168.0,
+    "train_loss": 0.7629147509572306,
+    "train_runtime": 18558.2767,
+    "train_samples_per_second": 15.276,
+    "train_steps_per_second": 0.06
+}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "_name_or_path": "/data/align-anything/hantao/models/llava-v1.6-mistral-7b-hf",
+  "architectures": [
+    "LlavaNextForConditionalGeneration"
+  ],
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_seq_length": 576,
+  "image_token_index": 32000,
+  "model_type": "llava_next",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+    "architectures": [
+      "MistralForCausalLM"
+    ],
+    "intermediate_size": 14336,
+    "max_position_embeddings": 32768,
+    "model_type": "mistral",
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-05,
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "vocab_size": 32064
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_image_newline_parameter": true,
+  "vision_config": {
+    "hidden_size": 1024,
+    "image_size": 336,
+    "intermediate_size": 4096,
+    "model_type": "clip_vision_model",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14,
+    "projection_dim": 768,
+    "vocab_size": 32000
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "default",
+  "vocab_size": 32064
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.997968855788761,
+    "eval_loss": 0.7824327945709229,
+    "eval_runtime": 182.597,
+    "eval_samples_per_second": 57.504,
+    "eval_steps_per_second": 0.904
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.45.2"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42783b8785cb15c7df7dbf95a8bdedd310e9031c05d2a4e93a923fc7ad570fa9
+size 4921618624

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a50f453ce1cd1728fa6f061ccfac8e6ea73f88fa7998295978b199952145316
+size 4915917672

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dda9e14590be8346335560d40091a98ded28e71a32e13f7a935c5c928d73dd3
+size 4915917680

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:318cf76fd5d34aed6b35a9fb87c083eeb9febcc545c2a0f7aaebb6af2d2b8104
+size 380134008

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "metadata": {
+    "total_size": 15133495296
+  },
+  "weight_map": {
+    "image_newline": "model-00001-of-00004.safetensors",
+    "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.norm.weight": "model-00004-of-00004.safetensors",
+    "multi_modal_projector.linear_1.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.bias": "model-00001-of-00004.safetensors",
+    "multi_modal_projector.linear_2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.class_embedding": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.post_layernorm.weight": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.bias": "model-00001-of-00004.safetensors",
+    "vision_tower.vision_model.pre_layrnorm.weight": "model-00001-of-00004.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "aspect_ratio_setting": "anyres",
+  "crop_size": {
+    "height": 336,
+    "width": 336
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_grid_pinpoints": [
+    [
+      336,
+      672
+    ],
+    [
+      672,
+      336
+    ],
+    [
+      672,
+      672
+    ],
+    [
+      1008,
+      336
+    ],
+    [
+      336,
+      1008
+    ]
+  ],
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "LlavaNextImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "processor_class": "LlavaNextProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 336
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ '<s>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '`[INST] `' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {
+    "image_token": "<image>"
+  },
+  "image_token": "<image>",
+  "legacy": true,
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "LlavaNextProcessor",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.997968855788761,
+    "total_flos": 6527139780231168.0,
+    "train_loss": 0.7629147509572306,
+    "train_runtime": 18558.2767,
+    "train_samples_per_second": 15.276,
+    "train_steps_per_second": 0.06
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,244 @@

+{"current_steps": 5, "total_steps": 1107, "loss": 1.749, "learning_rate": 5e-07, "epoch": 0.013540961408259987, "percentage": 0.45, "elapsed_time": "0:01:09", "remaining_time": "4:14:16"}
+{"current_steps": 10, "total_steps": 1107, "loss": 1.5921, "learning_rate": 1e-06, "epoch": 0.027081922816519974, "percentage": 0.9, "elapsed_time": "0:02:14", "remaining_time": "4:06:39"}
+{"current_steps": 15, "total_steps": 1107, "loss": 1.2948, "learning_rate": 9.9994874230328e-07, "epoch": 0.040622884224779957, "percentage": 1.36, "elapsed_time": "0:03:20", "remaining_time": "4:02:42"}
+{"current_steps": 20, "total_steps": 1107, "loss": 1.1393, "learning_rate": 9.997949797225268e-07, "epoch": 0.05416384563303995, "percentage": 1.81, "elapsed_time": "0:04:26", "remaining_time": "4:01:11"}
+{"current_steps": 25, "total_steps": 1107, "loss": 1.0604, "learning_rate": 9.995387437838025e-07, "epoch": 0.06770480704129993, "percentage": 2.26, "elapsed_time": "0:05:31", "remaining_time": "3:59:19"}
+{"current_steps": 30, "total_steps": 1107, "loss": 1.0272, "learning_rate": 9.991800870233637e-07, "epoch": 0.08124576844955991, "percentage": 2.71, "elapsed_time": "0:06:37", "remaining_time": "3:57:55"}
+{"current_steps": 35, "total_steps": 1107, "loss": 1.003, "learning_rate": 9.98719082976888e-07, "epoch": 0.0947867298578199, "percentage": 3.16, "elapsed_time": "0:07:43", "remaining_time": "3:56:27"}
+{"current_steps": 40, "total_steps": 1107, "loss": 0.9719, "learning_rate": 9.981558261643982e-07, "epoch": 0.1083276912660799, "percentage": 3.61, "elapsed_time": "0:08:49", "remaining_time": "3:55:26"}
+{"current_steps": 45, "total_steps": 1107, "loss": 0.9584, "learning_rate": 9.97490432070881e-07, "epoch": 0.12186865267433988, "percentage": 4.07, "elapsed_time": "0:09:54", "remaining_time": "3:53:55"}
+{"current_steps": 50, "total_steps": 1107, "loss": 0.9444, "learning_rate": 9.967230371226118e-07, "epoch": 0.13540961408259986, "percentage": 4.52, "elapsed_time": "0:10:59", "remaining_time": "3:52:30"}
+{"current_steps": 50, "total_steps": 1107, "eval_loss": 0.9377400875091553, "epoch": 0.13540961408259986, "percentage": 4.52, "elapsed_time": "0:14:02", "remaining_time": "4:56:56"}
+{"current_steps": 55, "total_steps": 1107, "loss": 0.9198, "learning_rate": 9.958537986591803e-07, "epoch": 0.14895057549085985, "percentage": 4.97, "elapsed_time": "0:15:08", "remaining_time": "4:49:34"}
+{"current_steps": 60, "total_steps": 1107, "loss": 0.9181, "learning_rate": 9.948828949012327e-07, "epoch": 0.16249153689911983, "percentage": 5.42, "elapsed_time": "0:16:13", "remaining_time": "4:43:10"}
+{"current_steps": 65, "total_steps": 1107, "loss": 0.9296, "learning_rate": 9.938105249139305e-07, "epoch": 0.17603249830737983, "percentage": 5.87, "elapsed_time": "0:17:18", "remaining_time": "4:37:31"}
+{"current_steps": 70, "total_steps": 1107, "loss": 0.9241, "learning_rate": 9.92636908566136e-07, "epoch": 0.1895734597156398, "percentage": 6.32, "elapsed_time": "0:18:23", "remaining_time": "4:32:33"}
+{"current_steps": 75, "total_steps": 1107, "loss": 0.8917, "learning_rate": 9.913622864853324e-07, "epoch": 0.2031144211238998, "percentage": 6.78, "elapsed_time": "0:19:29", "remaining_time": "4:28:08"}
+{"current_steps": 80, "total_steps": 1107, "loss": 0.8988, "learning_rate": 9.89986920008288e-07, "epoch": 0.2166553825321598, "percentage": 7.23, "elapsed_time": "0:20:34", "remaining_time": "4:24:08"}
+{"current_steps": 85, "total_steps": 1107, "loss": 0.8774, "learning_rate": 9.885110911274738e-07, "epoch": 0.23019634394041977, "percentage": 7.68, "elapsed_time": "0:21:40", "remaining_time": "4:20:36"}
+{"current_steps": 90, "total_steps": 1107, "loss": 0.8787, "learning_rate": 9.869351024332466e-07, "epoch": 0.24373730534867977, "percentage": 8.13, "elapsed_time": "0:22:45", "remaining_time": "4:17:14"}
+{"current_steps": 95, "total_steps": 1107, "loss": 0.8897, "learning_rate": 9.852592770518082e-07, "epoch": 0.25727826675693977, "percentage": 8.58, "elapsed_time": "0:23:51", "remaining_time": "4:14:08"}
+{"current_steps": 100, "total_steps": 1107, "loss": 0.8668, "learning_rate": 9.834839585789557e-07, "epoch": 0.2708192281651997, "percentage": 9.03, "elapsed_time": "0:24:57", "remaining_time": "4:11:18"}
+{"current_steps": 100, "total_steps": 1107, "eval_loss": 0.8815732002258301, "epoch": 0.2708192281651997, "percentage": 9.03, "elapsed_time": "0:28:00", "remaining_time": "4:42:01"}
+{"current_steps": 105, "total_steps": 1107, "loss": 0.8806, "learning_rate": 9.816095110096324e-07, "epoch": 0.2843601895734597, "percentage": 9.49, "elapsed_time": "0:29:06", "remaining_time": "4:37:42"}
+{"current_steps": 110, "total_steps": 1107, "loss": 0.8895, "learning_rate": 9.796363186632983e-07, "epoch": 0.2979011509817197, "percentage": 9.94, "elapsed_time": "0:30:11", "remaining_time": "4:33:40"}
+{"current_steps": 115, "total_steps": 1107, "loss": 0.8675, "learning_rate": 9.775647861051328e-07, "epoch": 0.3114421123899797, "percentage": 10.39, "elapsed_time": "0:31:17", "remaining_time": "4:29:57"}
+{"current_steps": 120, "total_steps": 1107, "loss": 0.8739, "learning_rate": 9.753953380630862e-07, "epoch": 0.32498307379823965, "percentage": 10.84, "elapsed_time": "0:32:23", "remaining_time": "4:26:26"}
+{"current_steps": 125, "total_steps": 1107, "loss": 0.8536, "learning_rate": 9.731284193407981e-07, "epoch": 0.33852403520649965, "percentage": 11.29, "elapsed_time": "0:33:28", "remaining_time": "4:22:57"}
+{"current_steps": 130, "total_steps": 1107, "loss": 0.8598, "learning_rate": 9.707644947263975e-07, "epoch": 0.35206499661475965, "percentage": 11.74, "elapsed_time": "0:34:34", "remaining_time": "4:19:49"}
+{"current_steps": 135, "total_steps": 1107, "loss": 0.8628, "learning_rate": 9.683040488972086e-07, "epoch": 0.36560595802301965, "percentage": 12.2, "elapsed_time": "0:35:40", "remaining_time": "4:16:50"}
+{"current_steps": 140, "total_steps": 1107, "loss": 0.8633, "learning_rate": 9.657475863203756e-07, "epoch": 0.3791469194312796, "percentage": 12.65, "elapsed_time": "0:36:46", "remaining_time": "4:13:58"}
+{"current_steps": 145, "total_steps": 1107, "loss": 0.859, "learning_rate": 9.63095631149432e-07, "epoch": 0.3926878808395396, "percentage": 13.1, "elapsed_time": "0:37:52", "remaining_time": "4:11:15"}
+{"current_steps": 150, "total_steps": 1107, "loss": 0.8436, "learning_rate": 9.603487271168336e-07, "epoch": 0.4062288422477996, "percentage": 13.55, "elapsed_time": "0:38:58", "remaining_time": "4:08:36"}
+{"current_steps": 150, "total_steps": 1107, "eval_loss": 0.8559273481369019, "epoch": 0.4062288422477996, "percentage": 13.55, "elapsed_time": "0:42:01", "remaining_time": "4:28:04"}
+{"current_steps": 155, "total_steps": 1107, "loss": 0.8431, "learning_rate": 9.575074374224758e-07, "epoch": 0.4197698036560596, "percentage": 14.0, "elapsed_time": "0:43:06", "remaining_time": "4:24:48"}
+{"current_steps": 160, "total_steps": 1107, "loss": 0.8466, "learning_rate": 9.545723446182201e-07, "epoch": 0.4333107650643196, "percentage": 14.45, "elapsed_time": "0:44:12", "remaining_time": "4:21:38"}
+{"current_steps": 165, "total_steps": 1107, "loss": 0.829, "learning_rate": 9.515440504884539e-07, "epoch": 0.44685172647257954, "percentage": 14.91, "elapsed_time": "0:45:17", "remaining_time": "4:18:37"}
+{"current_steps": 170, "total_steps": 1107, "loss": 0.8462, "learning_rate": 9.484231759267054e-07, "epoch": 0.46039268788083954, "percentage": 15.36, "elapsed_time": "0:46:23", "remaining_time": "4:15:43"}
+{"current_steps": 175, "total_steps": 1107, "loss": 0.8602, "learning_rate": 9.452103608083417e-07, "epoch": 0.47393364928909953, "percentage": 15.81, "elapsed_time": "0:47:29", "remaining_time": "4:12:53"}
+{"current_steps": 180, "total_steps": 1107, "loss": 0.8266, "learning_rate": 9.419062638593748e-07, "epoch": 0.48747461069735953, "percentage": 16.26, "elapsed_time": "0:48:34", "remaining_time": "4:10:11"}
+{"current_steps": 185, "total_steps": 1107, "loss": 0.8219, "learning_rate": 9.385115625214021e-07, "epoch": 0.5010155721056195, "percentage": 16.71, "elapsed_time": "0:49:40", "remaining_time": "4:07:32"}
+{"current_steps": 190, "total_steps": 1107, "loss": 0.8438, "learning_rate": 9.350269528127101e-07, "epoch": 0.5145565335138795, "percentage": 17.16, "elapsed_time": "0:50:45", "remaining_time": "4:04:57"}
+{"current_steps": 195, "total_steps": 1107, "loss": 0.8337, "learning_rate": 9.31453149185569e-07, "epoch": 0.5280974949221394, "percentage": 17.62, "elapsed_time": "0:51:50", "remaining_time": "4:02:27"}
+{"current_steps": 200, "total_steps": 1107, "loss": 0.8192, "learning_rate": 9.277908843797492e-07, "epoch": 0.5416384563303994, "percentage": 18.07, "elapsed_time": "0:52:55", "remaining_time": "4:00:02"}
+{"current_steps": 200, "total_steps": 1107, "eval_loss": 0.8383815884590149, "epoch": 0.5416384563303994, "percentage": 18.07, "elapsed_time": "0:55:58", "remaining_time": "4:13:52"}
+{"current_steps": 205, "total_steps": 1107, "loss": 0.8483, "learning_rate": 9.240409092722852e-07, "epoch": 0.5551794177386594, "percentage": 18.52, "elapsed_time": "0:57:03", "remaining_time": "4:11:03"}
+{"current_steps": 210, "total_steps": 1107, "loss": 0.8109, "learning_rate": 9.20203992723524e-07, "epoch": 0.5687203791469194, "percentage": 18.97, "elapsed_time": "0:58:09", "remaining_time": "4:08:24"}
+{"current_steps": 215, "total_steps": 1107, "loss": 0.8335, "learning_rate": 9.162809214194851e-07, "epoch": 0.5822613405551794, "percentage": 19.42, "elapsed_time": "0:59:14", "remaining_time": "4:05:48"}
+{"current_steps": 220, "total_steps": 1107, "loss": 0.8465, "learning_rate": 9.122724997105646e-07, "epoch": 0.5958023019634394, "percentage": 19.87, "elapsed_time": "1:00:20", "remaining_time": "4:03:15"}
+{"current_steps": 225, "total_steps": 1107, "loss": 0.8257, "learning_rate": 9.0817954944662e-07, "epoch": 0.6093432633716994, "percentage": 20.33, "elapsed_time": "1:01:25", "remaining_time": "4:00:46"}
+{"current_steps": 230, "total_steps": 1107, "loss": 0.8479, "learning_rate": 9.040029098084643e-07, "epoch": 0.6228842247799594, "percentage": 20.78, "elapsed_time": "1:02:31", "remaining_time": "3:58:22"}
+{"current_steps": 235, "total_steps": 1107, "loss": 0.8412, "learning_rate": 8.997434371358092e-07, "epoch": 0.6364251861882194, "percentage": 21.23, "elapsed_time": "1:03:35", "remaining_time": "3:55:58"}
+{"current_steps": 240, "total_steps": 1107, "loss": 0.7984, "learning_rate": 8.954020047516884e-07, "epoch": 0.6499661475964793, "percentage": 21.68, "elapsed_time": "1:04:40", "remaining_time": "3:53:38"}
+{"current_steps": 245, "total_steps": 1107, "loss": 0.834, "learning_rate": 8.909795027833996e-07, "epoch": 0.6635071090047393, "percentage": 22.13, "elapsed_time": "1:05:46", "remaining_time": "3:51:23"}
+{"current_steps": 250, "total_steps": 1107, "loss": 0.8285, "learning_rate": 8.864768379800016e-07, "epoch": 0.6770480704129993, "percentage": 22.58, "elapsed_time": "1:06:51", "remaining_time": "3:49:10"}
+{"current_steps": 250, "total_steps": 1107, "eval_loss": 0.8261091709136963, "epoch": 0.6770480704129993, "percentage": 22.58, "elapsed_time": "1:09:54", "remaining_time": "3:59:37"}
+{"current_steps": 255, "total_steps": 1107, "loss": 0.8322, "learning_rate": 8.81894933526402e-07, "epoch": 0.6905890318212593, "percentage": 23.04, "elapsed_time": "1:10:58", "remaining_time": "3:57:08"}
+{"current_steps": 260, "total_steps": 1107, "loss": 0.8384, "learning_rate": 8.772347288540763e-07, "epoch": 0.7041299932295193, "percentage": 23.49, "elapsed_time": "1:12:04", "remaining_time": "3:54:46"}
+{"current_steps": 265, "total_steps": 1107, "loss": 0.8263, "learning_rate": 8.724971794484555e-07, "epoch": 0.7176709546377793, "percentage": 23.94, "elapsed_time": "1:13:10", "remaining_time": "3:52:30"}
+{"current_steps": 270, "total_steps": 1107, "loss": 0.8165, "learning_rate": 8.676832566530221e-07, "epoch": 0.7312119160460393, "percentage": 24.39, "elapsed_time": "1:14:16", "remaining_time": "3:50:15"}
+{"current_steps": 275, "total_steps": 1107, "loss": 0.8037, "learning_rate": 8.62793947470155e-07, "epoch": 0.7447528774542993, "percentage": 24.84, "elapsed_time": "1:15:21", "remaining_time": "3:48:00"}
+{"current_steps": 280, "total_steps": 1107, "loss": 0.7896, "learning_rate": 8.578302543587629e-07, "epoch": 0.7582938388625592, "percentage": 25.29, "elapsed_time": "1:16:27", "remaining_time": "3:45:48"}
+{"current_steps": 285, "total_steps": 1107, "loss": 0.8129, "learning_rate": 8.527931950287506e-07, "epoch": 0.7718348002708192, "percentage": 25.75, "elapsed_time": "1:17:33", "remaining_time": "3:43:40"}
+{"current_steps": 290, "total_steps": 1107, "loss": 0.8182, "learning_rate": 8.47683802232356e-07, "epoch": 0.7853757616790792, "percentage": 26.2, "elapsed_time": "1:18:38", "remaining_time": "3:41:34"}
+{"current_steps": 295, "total_steps": 1107, "loss": 0.8256, "learning_rate": 8.425031235524045e-07, "epoch": 0.7989167230873392, "percentage": 26.65, "elapsed_time": "1:19:44", "remaining_time": "3:39:30"}
+{"current_steps": 300, "total_steps": 1107, "loss": 0.8132, "learning_rate": 8.372522211875224e-07, "epoch": 0.8124576844955992, "percentage": 27.1, "elapsed_time": "1:20:50", "remaining_time": "3:37:27"}
+{"current_steps": 300, "total_steps": 1107, "eval_loss": 0.8165345191955566, "epoch": 0.8124576844955992, "percentage": 27.1, "elapsed_time": "1:23:53", "remaining_time": "3:45:39"}
+{"current_steps": 305, "total_steps": 1107, "loss": 0.8149, "learning_rate": 8.319321717343535e-07, "epoch": 0.8259986459038592, "percentage": 27.55, "elapsed_time": "1:24:58", "remaining_time": "3:43:26"}
+{"current_steps": 310, "total_steps": 1107, "loss": 0.8124, "learning_rate": 8.265440659668234e-07, "epoch": 0.8395396073121192, "percentage": 28.0, "elapsed_time": "1:26:03", "remaining_time": "3:41:15"}
+{"current_steps": 315, "total_steps": 1107, "loss": 0.7906, "learning_rate": 8.210890086124977e-07, "epoch": 0.8530805687203792, "percentage": 28.46, "elapsed_time": "1:27:09", "remaining_time": "3:39:09"}
+{"current_steps": 320, "total_steps": 1107, "loss": 0.81, "learning_rate": 8.155681181260776e-07, "epoch": 0.8666215301286392, "percentage": 28.91, "elapsed_time": "1:28:15", "remaining_time": "3:37:04"}
+{"current_steps": 325, "total_steps": 1107, "loss": 0.818, "learning_rate": 8.099825264600842e-07, "epoch": 0.8801624915368991, "percentage": 29.36, "elapsed_time": "1:29:20", "remaining_time": "3:34:57"}
+{"current_steps": 330, "total_steps": 1107, "loss": 0.8067, "learning_rate": 8.04333378832772e-07, "epoch": 0.8937034529451591, "percentage": 29.81, "elapsed_time": "1:30:25", "remaining_time": "3:32:54"}
+{"current_steps": 335, "total_steps": 1107, "loss": 0.802, "learning_rate": 7.98621833493324e-07, "epoch": 0.9072444143534191, "percentage": 30.26, "elapsed_time": "1:31:31", "remaining_time": "3:30:54"}
+{"current_steps": 340, "total_steps": 1107, "loss": 0.7991, "learning_rate": 7.928490614843757e-07, "epoch": 0.9207853757616791, "percentage": 30.71, "elapsed_time": "1:32:36", "remaining_time": "3:28:55"}
+{"current_steps": 345, "total_steps": 1107, "loss": 0.7961, "learning_rate": 7.870162464019143e-07, "epoch": 0.9343263371699391, "percentage": 31.17, "elapsed_time": "1:33:42", "remaining_time": "3:26:57"}
+{"current_steps": 350, "total_steps": 1107, "loss": 0.7997, "learning_rate": 7.811245841526062e-07, "epoch": 0.9478672985781991, "percentage": 31.62, "elapsed_time": "1:34:48", "remaining_time": "3:25:02"}
+{"current_steps": 350, "total_steps": 1107, "eval_loss": 0.8075853586196899, "epoch": 0.9478672985781991, "percentage": 31.62, "elapsed_time": "1:37:50", "remaining_time": "3:31:37"}
+{"current_steps": 355, "total_steps": 1107, "loss": 0.7955, "learning_rate": 7.75175282708598e-07, "epoch": 0.9614082599864591, "percentage": 32.07, "elapsed_time": "1:38:56", "remaining_time": "3:29:35"}
+{"current_steps": 360, "total_steps": 1107, "loss": 0.7945, "learning_rate": 7.691695618598466e-07, "epoch": 0.9749492213947191, "percentage": 32.52, "elapsed_time": "1:40:01", "remaining_time": "3:27:32"}
+{"current_steps": 365, "total_steps": 1107, "loss": 0.8037, "learning_rate": 7.631086529640229e-07, "epoch": 0.988490182802979, "percentage": 32.97, "elapsed_time": "1:41:07", "remaining_time": "3:25:34"}
+{"current_steps": 370, "total_steps": 1107, "loss": 0.7833, "learning_rate": 7.569937986940475e-07, "epoch": 1.002031144211239, "percentage": 33.42, "elapsed_time": "1:42:13", "remaining_time": "3:23:36"}
+{"current_steps": 375, "total_steps": 1107, "loss": 0.736, "learning_rate": 7.508262527833028e-07, "epoch": 1.015572105619499, "percentage": 33.88, "elapsed_time": "1:43:19", "remaining_time": "3:21:40"}
+{"current_steps": 380, "total_steps": 1107, "loss": 0.7393, "learning_rate": 7.446072797685799e-07, "epoch": 1.029113067027759, "percentage": 34.33, "elapsed_time": "1:44:23", "remaining_time": "3:19:43"}
+{"current_steps": 385, "total_steps": 1107, "loss": 0.7461, "learning_rate": 7.383381547308099e-07, "epoch": 1.042654028436019, "percentage": 34.78, "elapsed_time": "1:45:29", "remaining_time": "3:17:49"}
+{"current_steps": 390, "total_steps": 1107, "loss": 0.7359, "learning_rate": 7.320201630336318e-07, "epoch": 1.0561949898442788, "percentage": 35.23, "elapsed_time": "1:46:34", "remaining_time": "3:15:56"}
+{"current_steps": 395, "total_steps": 1107, "loss": 0.7306, "learning_rate": 7.256546000598551e-07, "epoch": 1.0697359512525388, "percentage": 35.68, "elapsed_time": "1:47:40", "remaining_time": "3:14:05"}
+{"current_steps": 400, "total_steps": 1107, "loss": 0.7335, "learning_rate": 7.192427709458655e-07, "epoch": 1.0832769126607988, "percentage": 36.13, "elapsed_time": "1:48:45", "remaining_time": "3:12:14"}
+{"current_steps": 400, "total_steps": 1107, "eval_loss": 0.804972231388092, "epoch": 1.0832769126607988, "percentage": 36.13, "elapsed_time": "1:51:48", "remaining_time": "3:17:37"}
+{"current_steps": 405, "total_steps": 1107, "loss": 0.7346, "learning_rate": 7.127859903140311e-07, "epoch": 1.0968178740690588, "percentage": 36.59, "elapsed_time": "1:52:54", "remaining_time": "3:15:42"}
+{"current_steps": 410, "total_steps": 1107, "loss": 0.7409, "learning_rate": 7.062855820031659e-07, "epoch": 1.1103588354773188, "percentage": 37.04, "elapsed_time": "1:54:00", "remaining_time": "3:13:48"}
+{"current_steps": 415, "total_steps": 1107, "loss": 0.7236, "learning_rate": 6.997428787971005e-07, "epoch": 1.1238997968855788, "percentage": 37.49, "elapsed_time": "1:55:05", "remaining_time": "3:11:53"}
+{"current_steps": 420, "total_steps": 1107, "loss": 0.734, "learning_rate": 6.93159222151422e-07, "epoch": 1.1374407582938388, "percentage": 37.94, "elapsed_time": "1:56:10", "remaining_time": "3:10:01"}
+{"current_steps": 425, "total_steps": 1107, "loss": 0.7425, "learning_rate": 6.86535961918433e-07, "epoch": 1.1509817197020988, "percentage": 38.39, "elapsed_time": "1:57:15", "remaining_time": "3:08:09"}
+{"current_steps": 430, "total_steps": 1107, "loss": 0.7271, "learning_rate": 6.798744560703904e-07, "epoch": 1.1645226811103588, "percentage": 38.84, "elapsed_time": "1:58:21", "remaining_time": "3:06:20"}
+{"current_steps": 435, "total_steps": 1107, "loss": 0.729, "learning_rate": 6.731760704210802e-07, "epoch": 1.1780636425186188, "percentage": 39.3, "elapsed_time": "1:59:27", "remaining_time": "3:04:32"}
+{"current_steps": 440, "total_steps": 1107, "loss": 0.7295, "learning_rate": 6.66442178345783e-07, "epoch": 1.1916046039268788, "percentage": 39.75, "elapsed_time": "2:00:32", "remaining_time": "3:02:43"}
+{"current_steps": 445, "total_steps": 1107, "loss": 0.7285, "learning_rate": 6.596741604996897e-07, "epoch": 1.2051455653351388, "percentage": 40.2, "elapsed_time": "2:01:37", "remaining_time": "3:00:56"}
+{"current_steps": 450, "total_steps": 1107, "loss": 0.7466, "learning_rate": 6.528734045348248e-07, "epoch": 1.2186865267433988, "percentage": 40.65, "elapsed_time": "2:02:43", "remaining_time": "2:59:10"}
+{"current_steps": 450, "total_steps": 1107, "eval_loss": 0.7996942400932312, "epoch": 1.2186865267433988, "percentage": 40.65, "elapsed_time": "2:05:45", "remaining_time": "3:03:37"}
+{"current_steps": 455, "total_steps": 1107, "loss": 0.7291, "learning_rate": 6.460413048155354e-07, "epoch": 1.2322274881516588, "percentage": 41.1, "elapsed_time": "2:06:50", "remaining_time": "3:01:45"}
+{"current_steps": 460, "total_steps": 1107, "loss": 0.7502, "learning_rate": 6.391792621326027e-07, "epoch": 1.2457684495599188, "percentage": 41.55, "elapsed_time": "2:07:55", "remaining_time": "2:59:55"}
+{"current_steps": 465, "total_steps": 1107, "loss": 0.7375, "learning_rate": 6.322886834160377e-07, "epoch": 1.2593094109681786, "percentage": 42.01, "elapsed_time": "2:09:01", "remaining_time": "2:58:08"}
+{"current_steps": 470, "total_steps": 1107, "loss": 0.7446, "learning_rate": 6.253709814466167e-07, "epoch": 1.2728503723764386, "percentage": 42.46, "elapsed_time": "2:10:06", "remaining_time": "2:56:20"}
+{"current_steps": 475, "total_steps": 1107, "loss": 0.7307, "learning_rate": 6.184275745662179e-07, "epoch": 1.2863913337846986, "percentage": 42.91, "elapsed_time": "2:11:12", "remaining_time": "2:54:34"}
+{"current_steps": 480, "total_steps": 1107, "loss": 0.727, "learning_rate": 6.114598863870178e-07, "epoch": 1.2999322951929586, "percentage": 43.36, "elapsed_time": "2:12:17", "remaining_time": "2:52:48"}
+{"current_steps": 485, "total_steps": 1107, "loss": 0.7351, "learning_rate": 6.044693454996059e-07, "epoch": 1.3134732566012186, "percentage": 43.81, "elapsed_time": "2:13:23", "remaining_time": "2:51:04"}
+{"current_steps": 490, "total_steps": 1107, "loss": 0.7376, "learning_rate": 5.974573851800817e-07, "epoch": 1.3270142180094786, "percentage": 44.26, "elapsed_time": "2:14:29", "remaining_time": "2:49:20"}
+{"current_steps": 495, "total_steps": 1107, "loss": 0.7413, "learning_rate": 5.904254430961869e-07, "epoch": 1.3405551794177386, "percentage": 44.72, "elapsed_time": "2:15:34", "remaining_time": "2:47:36"}
+{"current_steps": 500, "total_steps": 1107, "loss": 0.7264, "learning_rate": 5.833749610125401e-07, "epoch": 1.3540961408259986, "percentage": 45.17, "elapsed_time": "2:16:40", "remaining_time": "2:45:55"}
+{"current_steps": 500, "total_steps": 1107, "eval_loss": 0.7957150340080261, "epoch": 1.3540961408259986, "percentage": 45.17, "elapsed_time": "2:19:43", "remaining_time": "2:49:37"}
+{"current_steps": 505, "total_steps": 1107, "loss": 0.7327, "learning_rate": 5.763073844950309e-07, "epoch": 1.3676371022342586, "percentage": 45.62, "elapsed_time": "2:20:48", "remaining_time": "2:47:51"}
+{"current_steps": 510, "total_steps": 1107, "loss": 0.7443, "learning_rate": 5.69224162614434e-07, "epoch": 1.3811780636425186, "percentage": 46.07, "elapsed_time": "2:21:53", "remaining_time": "2:46:06"}
+{"current_steps": 515, "total_steps": 1107, "loss": 0.7345, "learning_rate": 5.621267476493052e-07, "epoch": 1.3947190250507786, "percentage": 46.52, "elapsed_time": "2:22:59", "remaining_time": "2:44:21"}
+{"current_steps": 520, "total_steps": 1107, "loss": 0.7236, "learning_rate": 5.550165947882196e-07, "epoch": 1.4082599864590386, "percentage": 46.97, "elapsed_time": "2:24:04", "remaining_time": "2:42:38"}
+{"current_steps": 525, "total_steps": 1107, "loss": 0.7165, "learning_rate": 5.478951618314132e-07, "epoch": 1.4218009478672986, "percentage": 47.43, "elapsed_time": "2:25:09", "remaining_time": "2:40:55"}
+{"current_steps": 530, "total_steps": 1107, "loss": 0.7297, "learning_rate": 5.407639088918888e-07, "epoch": 1.4353419092755586, "percentage": 47.88, "elapsed_time": "2:26:15", "remaining_time": "2:39:13"}
+{"current_steps": 535, "total_steps": 1107, "loss": 0.7307, "learning_rate": 5.33624298096048e-07, "epoch": 1.4488828706838186, "percentage": 48.33, "elapsed_time": "2:27:21", "remaining_time": "2:37:32"}
+{"current_steps": 540, "total_steps": 1107, "loss": 0.7487, "learning_rate": 5.264777932839104e-07, "epoch": 1.4624238320920786, "percentage": 48.78, "elapsed_time": "2:28:27", "remaining_time": "2:35:52"}
+{"current_steps": 545, "total_steps": 1107, "loss": 0.7291, "learning_rate": 5.193258597089809e-07, "epoch": 1.4759647935003386, "percentage": 49.23, "elapsed_time": "2:29:32", "remaining_time": "2:34:12"}
+{"current_steps": 550, "total_steps": 1107, "loss": 0.7286, "learning_rate": 5.121699637378282e-07, "epoch": 1.4895057549085986, "percentage": 49.68, "elapsed_time": "2:30:38", "remaining_time": "2:32:33"}
+{"current_steps": 550, "total_steps": 1107, "eval_loss": 0.7910673022270203, "epoch": 1.4895057549085986, "percentage": 49.68, "elapsed_time": "2:33:41", "remaining_time": "2:35:38"}
+{"current_steps": 555, "total_steps": 1107, "loss": 0.7179, "learning_rate": 5.050115725494339e-07, "epoch": 1.5030467163168586, "percentage": 50.14, "elapsed_time": "2:34:46", "remaining_time": "2:33:56"}
+{"current_steps": 560, "total_steps": 1107, "loss": 0.7366, "learning_rate": 4.978521538343764e-07, "epoch": 1.5165876777251186, "percentage": 50.59, "elapsed_time": "2:35:51", "remaining_time": "2:32:14"}
+{"current_steps": 565, "total_steps": 1107, "loss": 0.7391, "learning_rate": 4.906931754939083e-07, "epoch": 1.5301286391333786, "percentage": 51.04, "elapsed_time": "2:36:57", "remaining_time": "2:30:34"}
+{"current_steps": 570, "total_steps": 1107, "loss": 0.7288, "learning_rate": 4.835361053389921e-07, "epoch": 1.5436696005416386, "percentage": 51.49, "elapsed_time": "2:38:03", "remaining_time": "2:28:54"}
+{"current_steps": 575, "total_steps": 1107, "loss": 0.729, "learning_rate": 4.763824107893532e-07, "epoch": 1.5572105619498986, "percentage": 51.94, "elapsed_time": "2:39:09", "remaining_time": "2:27:15"}
+{"current_steps": 580, "total_steps": 1107, "loss": 0.7177, "learning_rate": 4.692335585726145e-07, "epoch": 1.5707515233581584, "percentage": 52.39, "elapsed_time": "2:40:15", "remaining_time": "2:25:36"}
+{"current_steps": 585, "total_steps": 1107, "loss": 0.7224, "learning_rate": 4.6209101442357116e-07, "epoch": 1.5842924847664184, "percentage": 52.85, "elapsed_time": "2:41:20", "remaining_time": "2:23:58"}
+{"current_steps": 590, "total_steps": 1107, "loss": 0.7327, "learning_rate": 4.549562427836701e-07, "epoch": 1.5978334461746784, "percentage": 53.3, "elapsed_time": "2:42:26", "remaining_time": "2:22:20"}
+{"current_steps": 595, "total_steps": 1107, "loss": 0.7406, "learning_rate": 4.4783070650075537e-07, "epoch": 1.6113744075829384, "percentage": 53.75, "elapsed_time": "2:43:30", "remaining_time": "2:20:42"}
+{"current_steps": 600, "total_steps": 1107, "loss": 0.7251, "learning_rate": 4.407158665291376e-07, "epoch": 1.6249153689911984, "percentage": 54.2, "elapsed_time": "2:44:36", "remaining_time": "2:19:05"}
+{"current_steps": 600, "total_steps": 1107, "eval_loss": 0.7875649333000183, "epoch": 1.6249153689911984, "percentage": 54.2, "elapsed_time": "2:47:39", "remaining_time": "2:21:40"}
+{"current_steps": 605, "total_steps": 1107, "loss": 0.719, "learning_rate": 4.336131816300548e-07, "epoch": 1.6384563303994584, "percentage": 54.65, "elapsed_time": "2:48:44", "remaining_time": "2:20:01"}
+{"current_steps": 610, "total_steps": 1107, "loss": 0.7287, "learning_rate": 4.265241080725808e-07, "epoch": 1.6519972918077184, "percentage": 55.1, "elapsed_time": "2:49:50", "remaining_time": "2:18:22"}
+{"current_steps": 615, "total_steps": 1107, "loss": 0.7399, "learning_rate": 4.194500993350453e-07, "epoch": 1.6655382532159784, "percentage": 55.56, "elapsed_time": "2:50:56", "remaining_time": "2:16:44"}
+{"current_steps": 620, "total_steps": 1107, "loss": 0.7386, "learning_rate": 4.1239260580702634e-07, "epoch": 1.6790792146242384, "percentage": 56.01, "elapsed_time": "2:52:01", "remaining_time": "2:15:07"}
+{"current_steps": 625, "total_steps": 1107, "loss": 0.7246, "learning_rate": 4.053530744919749e-07, "epoch": 1.6926201760324981, "percentage": 56.46, "elapsed_time": "2:53:07", "remaining_time": "2:13:30"}
+{"current_steps": 630, "total_steps": 1107, "loss": 0.7372, "learning_rate": 3.983329487105363e-07, "epoch": 1.7061611374407581, "percentage": 56.91, "elapsed_time": "2:54:12", "remaining_time": "2:11:53"}
+{"current_steps": 635, "total_steps": 1107, "loss": 0.7323, "learning_rate": 3.913336678046232e-07, "epoch": 1.7197020988490181, "percentage": 57.36, "elapsed_time": "2:55:17", "remaining_time": "2:10:17"}
+{"current_steps": 640, "total_steps": 1107, "loss": 0.7097, "learning_rate": 3.8435666684230726e-07, "epoch": 1.7332430602572781, "percentage": 57.81, "elapsed_time": "2:56:23", "remaining_time": "2:08:42"}
+{"current_steps": 645, "total_steps": 1107, "loss": 0.7304, "learning_rate": 3.774033763235861e-07, "epoch": 1.7467840216655381, "percentage": 58.27, "elapsed_time": "2:57:28", "remaining_time": "2:07:07"}
+{"current_steps": 650, "total_steps": 1107, "loss": 0.727, "learning_rate": 3.7047522188708606e-07, "epoch": 1.7603249830737981, "percentage": 58.72, "elapsed_time": "2:58:33", "remaining_time": "2:05:32"}
+{"current_steps": 650, "total_steps": 1107, "eval_loss": 0.7839689254760742, "epoch": 1.7603249830737981, "percentage": 58.72, "elapsed_time": "3:01:36", "remaining_time": "2:07:41"}
+{"current_steps": 655, "total_steps": 1107, "loss": 0.7223, "learning_rate": 3.635736240177627e-07, "epoch": 1.7738659444820581, "percentage": 59.17, "elapsed_time": "3:02:41", "remaining_time": "2:06:04"}
+{"current_steps": 660, "total_steps": 1107, "loss": 0.7313, "learning_rate": 3.5669999775565816e-07, "epoch": 1.7874069058903181, "percentage": 59.62, "elapsed_time": "3:03:47", "remaining_time": "2:04:28"}
+{"current_steps": 665, "total_steps": 1107, "loss": 0.7321, "learning_rate": 3.4985575240577365e-07, "epoch": 1.8009478672985781, "percentage": 60.07, "elapsed_time": "3:04:53", "remaining_time": "2:02:53"}
+{"current_steps": 670, "total_steps": 1107, "loss": 0.7316, "learning_rate": 3.4304229124911856e-07, "epoch": 1.8144888287068381, "percentage": 60.52, "elapsed_time": "3:05:58", "remaining_time": "2:01:18"}
+{"current_steps": 675, "total_steps": 1107, "loss": 0.704, "learning_rate": 3.362610112549955e-07, "epoch": 1.8280297901150981, "percentage": 60.98, "elapsed_time": "3:07:03", "remaining_time": "1:59:43"}
+{"current_steps": 680, "total_steps": 1107, "loss": 0.7167, "learning_rate": 3.295133027945778e-07, "epoch": 1.8415707515233581, "percentage": 61.43, "elapsed_time": "3:08:08", "remaining_time": "1:58:08"}
+{"current_steps": 685, "total_steps": 1107, "loss": 0.7094, "learning_rate": 3.228005493558402e-07, "epoch": 1.8551117129316181, "percentage": 61.88, "elapsed_time": "3:09:13", "remaining_time": "1:56:34"}
+{"current_steps": 690, "total_steps": 1107, "loss": 0.7312, "learning_rate": 3.1612412725990305e-07, "epoch": 1.8686526743398781, "percentage": 62.33, "elapsed_time": "3:10:18", "remaining_time": "1:55:01"}
+{"current_steps": 695, "total_steps": 1107, "loss": 0.7264, "learning_rate": 3.0948540537884185e-07, "epoch": 1.8821936357481381, "percentage": 62.78, "elapsed_time": "3:11:24", "remaining_time": "1:53:28"}
+{"current_steps": 700, "total_steps": 1107, "loss": 0.7277, "learning_rate": 3.0288574485502756e-07, "epoch": 1.8957345971563981, "percentage": 63.23, "elapsed_time": "3:12:30", "remaining_time": "1:51:55"}
+{"current_steps": 700, "total_steps": 1107, "eval_loss": 0.7811039090156555, "epoch": 1.8957345971563981, "percentage": 63.23, "elapsed_time": "3:15:33", "remaining_time": "1:53:42"}
+{"current_steps": 705, "total_steps": 1107, "loss": 0.7287, "learning_rate": 2.9632649882205083e-07, "epoch": 1.9092755585646581, "percentage": 63.69, "elapsed_time": "3:16:39", "remaining_time": "1:52:08"}
+{"current_steps": 710, "total_steps": 1107, "loss": 0.7193, "learning_rate": 2.8980901212728723e-07, "epoch": 1.9228165199729181, "percentage": 64.14, "elapsed_time": "3:17:44", "remaining_time": "1:50:34"}
+{"current_steps": 715, "total_steps": 1107, "loss": 0.7112, "learning_rate": 2.833346210561619e-07, "epoch": 1.9363574813811781, "percentage": 64.59, "elapsed_time": "3:18:49", "remaining_time": "1:49:00"}
+{"current_steps": 720, "total_steps": 1107, "loss": 0.7235, "learning_rate": 2.769046530581708e-07, "epoch": 1.9498984427894381, "percentage": 65.04, "elapsed_time": "3:19:55", "remaining_time": "1:47:27"}
+{"current_steps": 725, "total_steps": 1107, "loss": 0.724, "learning_rate": 2.705204264747125e-07, "epoch": 1.9634394041976981, "percentage": 65.49, "elapsed_time": "3:21:00", "remaining_time": "1:45:54"}
+{"current_steps": 730, "total_steps": 1107, "loss": 0.7156, "learning_rate": 2.6418325026878665e-07, "epoch": 1.9769803656059581, "percentage": 65.94, "elapsed_time": "3:22:06", "remaining_time": "1:44:22"}
+{"current_steps": 735, "total_steps": 1107, "loss": 0.7163, "learning_rate": 2.578944237566174e-07, "epoch": 1.9905213270142181, "percentage": 66.4, "elapsed_time": "3:23:11", "remaining_time": "1:42:50"}
+{"current_steps": 740, "total_steps": 1107, "loss": 0.7161, "learning_rate": 2.5165523634125337e-07, "epoch": 2.004062288422478, "percentage": 66.85, "elapsed_time": "3:24:16", "remaining_time": "1:41:18"}
+{"current_steps": 745, "total_steps": 1107, "loss": 0.6754, "learning_rate": 2.454669672481996e-07, "epoch": 2.017603249830738, "percentage": 67.3, "elapsed_time": "3:25:22", "remaining_time": "1:39:47"}
+{"current_steps": 750, "total_steps": 1107, "loss": 0.6724, "learning_rate": 2.393308852631373e-07, "epoch": 2.031144211238998, "percentage": 67.75, "elapsed_time": "3:26:27", "remaining_time": "1:38:16"}
+{"current_steps": 750, "total_steps": 1107, "eval_loss": 0.7857776880264282, "epoch": 2.031144211238998, "percentage": 67.75, "elapsed_time": "3:29:30", "remaining_time": "1:39:43"}
+{"current_steps": 755, "total_steps": 1107, "loss": 0.6887, "learning_rate": 2.3324824847178494e-07, "epoch": 2.044685172647258, "percentage": 68.2, "elapsed_time": "3:30:35", "remaining_time": "1:38:10"}
+{"current_steps": 760, "total_steps": 1107, "loss": 0.666, "learning_rate": 2.2722030400194975e-07, "epoch": 2.058226134055518, "percentage": 68.65, "elapsed_time": "3:31:40", "remaining_time": "1:36:38"}
+{"current_steps": 765, "total_steps": 1107, "loss": 0.6789, "learning_rate": 2.2124828776782955e-07, "epoch": 2.071767095463778, "percentage": 69.11, "elapsed_time": "3:32:46", "remaining_time": "1:35:07"}
+{"current_steps": 770, "total_steps": 1107, "loss": 0.6665, "learning_rate": 2.1533342421661228e-07, "epoch": 2.085308056872038, "percentage": 69.56, "elapsed_time": "3:33:51", "remaining_time": "1:33:36"}
+{"current_steps": 775, "total_steps": 1107, "loss": 0.6755, "learning_rate": 2.0947692607742618e-07, "epoch": 2.0988490182802977, "percentage": 70.01, "elapsed_time": "3:34:57", "remaining_time": "1:32:05"}
+{"current_steps": 780, "total_steps": 1107, "loss": 0.6821, "learning_rate": 2.0367999411269282e-07, "epoch": 2.1123899796885577, "percentage": 70.46, "elapsed_time": "3:36:02", "remaining_time": "1:30:34"}
+{"current_steps": 785, "total_steps": 1107, "loss": 0.6805, "learning_rate": 1.9794381687193456e-07, "epoch": 2.1259309410968177, "percentage": 70.91, "elapsed_time": "3:37:08", "remaining_time": "1:29:04"}
+{"current_steps": 790, "total_steps": 1107, "loss": 0.6657, "learning_rate": 1.9226957044808494e-07, "epoch": 2.1394719025050777, "percentage": 71.36, "elapsed_time": "3:38:12", "remaining_time": "1:27:33"}
+{"current_steps": 795, "total_steps": 1107, "loss": 0.6789, "learning_rate": 1.866584182363528e-07, "epoch": 2.1530128639133377, "percentage": 71.82, "elapsed_time": "3:39:18", "remaining_time": "1:26:04"}
+{"current_steps": 800, "total_steps": 1107, "loss": 0.6883, "learning_rate": 1.811115106956918e-07, "epoch": 2.1665538253215977, "percentage": 72.27, "elapsed_time": "3:40:22", "remaining_time": "1:24:34"}
+{"current_steps": 800, "total_steps": 1107, "eval_loss": 0.7850033044815063, "epoch": 2.1665538253215977, "percentage": 72.27, "elapsed_time": "3:43:25", "remaining_time": "1:25:44"}
+{"current_steps": 805, "total_steps": 1107, "loss": 0.6811, "learning_rate": 1.7562998511291943e-07, "epoch": 2.1800947867298577, "percentage": 72.72, "elapsed_time": "3:44:30", "remaining_time": "1:24:13"}
+{"current_steps": 810, "total_steps": 1107, "loss": 0.6766, "learning_rate": 1.702149653695395e-07, "epoch": 2.1936357481381177, "percentage": 73.17, "elapsed_time": "3:45:37", "remaining_time": "1:22:43"}
+{"current_steps": 815, "total_steps": 1107, "loss": 0.675, "learning_rate": 1.6486756171131062e-07, "epoch": 2.2071767095463777, "percentage": 73.62, "elapsed_time": "3:46:43", "remaining_time": "1:21:13"}
+{"current_steps": 820, "total_steps": 1107, "loss": 0.6678, "learning_rate": 1.595888705206128e-07, "epoch": 2.2207176709546377, "percentage": 74.07, "elapsed_time": "3:47:48", "remaining_time": "1:19:43"}
+{"current_steps": 825, "total_steps": 1107, "loss": 0.6733, "learning_rate": 1.5437997409165476e-07, "epoch": 2.2342586323628977, "percentage": 74.53, "elapsed_time": "3:48:53", "remaining_time": "1:18:14"}
+{"current_steps": 830, "total_steps": 1107, "loss": 0.6794, "learning_rate": 1.4924194040856973e-07, "epoch": 2.2477995937711577, "percentage": 74.98, "elapsed_time": "3:49:59", "remaining_time": "1:16:45"}
+{"current_steps": 835, "total_steps": 1107, "loss": 0.6871, "learning_rate": 1.4417582292644691e-07, "epoch": 2.2613405551794177, "percentage": 75.43, "elapsed_time": "3:51:04", "remaining_time": "1:15:16"}
+{"current_steps": 840, "total_steps": 1107, "loss": 0.6774, "learning_rate": 1.3918266035534027e-07, "epoch": 2.2748815165876777, "percentage": 75.88, "elapsed_time": "3:52:10", "remaining_time": "1:13:47"}
+{"current_steps": 845, "total_steps": 1107, "loss": 0.6816, "learning_rate": 1.3426347644730047e-07, "epoch": 2.2884224779959377, "percentage": 76.33, "elapsed_time": "3:53:15", "remaining_time": "1:12:19"}
+{"current_steps": 850, "total_steps": 1107, "loss": 0.6709, "learning_rate": 1.2941927978647526e-07, "epoch": 2.3019634394041977, "percentage": 76.78, "elapsed_time": "3:54:20", "remaining_time": "1:10:51"}
+{"current_steps": 850, "total_steps": 1107, "eval_loss": 0.7840232253074646, "epoch": 2.3019634394041977, "percentage": 76.78, "elapsed_time": "3:57:23", "remaining_time": "1:11:46"}
+{"current_steps": 855, "total_steps": 1107, "loss": 0.6765, "learning_rate": 1.2465106358231753e-07, "epoch": 2.3155044008124577, "percentage": 77.24, "elapsed_time": "3:58:28", "remaining_time": "1:10:17"}
+{"current_steps": 860, "total_steps": 1107, "loss": 0.6633, "learning_rate": 1.1995980546594775e-07, "epoch": 2.3290453622207177, "percentage": 77.69, "elapsed_time": "3:59:34", "remaining_time": "1:08:48"}
+{"current_steps": 865, "total_steps": 1107, "loss": 0.678, "learning_rate": 1.153464672897091e-07, "epoch": 2.3425863236289777, "percentage": 78.14, "elapsed_time": "4:00:39", "remaining_time": "1:07:19"}
+{"current_steps": 870, "total_steps": 1107, "loss": 0.6875, "learning_rate": 1.108119949299578e-07, "epoch": 2.3561272850372377, "percentage": 78.59, "elapsed_time": "4:01:45", "remaining_time": "1:05:51"}
+{"current_steps": 875, "total_steps": 1107, "loss": 0.6955, "learning_rate": 1.0635731809312992e-07, "epoch": 2.3696682464454977, "percentage": 79.04, "elapsed_time": "4:02:50", "remaining_time": "1:04:23"}
+{"current_steps": 880, "total_steps": 1107, "loss": 0.6843, "learning_rate": 1.0198335012512271e-07, "epoch": 2.3832092078537577, "percentage": 79.49, "elapsed_time": "4:03:56", "remaining_time": "1:02:55"}
+{"current_steps": 885, "total_steps": 1107, "loss": 0.7081, "learning_rate": 9.769098782403041e-08, "epoch": 2.3967501692620177, "percentage": 79.95, "elapsed_time": "4:05:01", "remaining_time": "1:01:27"}
+{"current_steps": 890, "total_steps": 1107, "loss": 0.6758, "learning_rate": 9.348111125627278e-08, "epoch": 2.4102911306702777, "percentage": 80.4, "elapsed_time": "4:06:06", "remaining_time": "1:00:00"}
+{"current_steps": 895, "total_steps": 1107, "loss": 0.6718, "learning_rate": 8.935458357615583e-08, "epoch": 2.4238320920785377, "percentage": 80.85, "elapsed_time": "4:07:11", "remaining_time": "0:58:33"}
+{"current_steps": 900, "total_steps": 1107, "loss": 0.6598, "learning_rate": 8.531225084889654e-08, "epoch": 2.4373730534867977, "percentage": 81.3, "elapsed_time": "4:08:17", "remaining_time": "0:57:06"}
+{"current_steps": 900, "total_steps": 1107, "eval_loss": 0.7834283113479614, "epoch": 2.4373730534867977, "percentage": 81.3, "elapsed_time": "4:11:20", "remaining_time": "0:57:48"}
+{"current_steps": 905, "total_steps": 1107, "loss": 0.6603, "learning_rate": 8.135494187715475e-08, "epoch": 2.4509140148950577, "percentage": 81.75, "elapsed_time": "4:12:26", "remaining_time": "0:56:20"}
+{"current_steps": 910, "total_steps": 1107, "loss": 0.6832, "learning_rate": 7.748346803110295e-08, "epoch": 2.4644549763033177, "percentage": 82.2, "elapsed_time": "4:13:32", "remaining_time": "0:54:53"}
+{"current_steps": 915, "total_steps": 1107, "loss": 0.6583, "learning_rate": 7.369862308207025e-08, "epoch": 2.4779959377115777, "percentage": 82.66, "elapsed_time": "4:14:37", "remaining_time": "0:53:25"}
+{"current_steps": 920, "total_steps": 1107, "loss": 0.6808, "learning_rate": 7.000118303979463e-08, "epoch": 2.4915368991198377, "percentage": 83.11, "elapsed_time": "4:15:43", "remaining_time": "0:51:58"}
+{"current_steps": 925, "total_steps": 1107, "loss": 0.6762, "learning_rate": 6.639190599331746e-08, "epoch": 2.5050778605280977, "percentage": 83.56, "elapsed_time": "4:16:48", "remaining_time": "0:50:31"}
+{"current_steps": 930, "total_steps": 1107, "loss": 0.6663, "learning_rate": 6.287153195555173e-08, "epoch": 2.518618821936357, "percentage": 84.01, "elapsed_time": "4:17:54", "remaining_time": "0:49:05"}
+{"current_steps": 935, "total_steps": 1107, "loss": 0.6648, "learning_rate": 5.944078271155639e-08, "epoch": 2.5321597833446177, "percentage": 84.46, "elapsed_time": "4:19:00", "remaining_time": "0:47:38"}
+{"current_steps": 940, "total_steps": 1107, "loss": 0.6596, "learning_rate": 5.610036167054838e-08, "epoch": 2.545700744752877, "percentage": 84.91, "elapsed_time": "4:20:06", "remaining_time": "0:46:12"}
+{"current_steps": 945, "total_steps": 1107, "loss": 0.669, "learning_rate": 5.2850953721682635e-08, "epoch": 2.5592417061611377, "percentage": 85.37, "elapsed_time": "4:21:12", "remaining_time": "0:44:46"}
+{"current_steps": 950, "total_steps": 1107, "loss": 0.674, "learning_rate": 4.969322509362761e-08, "epoch": 2.572782667569397, "percentage": 85.82, "elapsed_time": "4:22:17", "remaining_time": "0:43:20"}
+{"current_steps": 950, "total_steps": 1107, "eval_loss": 0.7830283641815186, "epoch": 2.572782667569397, "percentage": 85.82, "elapsed_time": "4:25:20", "remaining_time": "0:43:51"}
+{"current_steps": 955, "total_steps": 1107, "loss": 0.6713, "learning_rate": 4.662782321796849e-08, "epoch": 2.5863236289776577, "percentage": 86.27, "elapsed_time": "4:26:25", "remaining_time": "0:42:24"}
+{"current_steps": 960, "total_steps": 1107, "loss": 0.6747, "learning_rate": 4.365537659646418e-08, "epoch": 2.599864590385917, "percentage": 86.72, "elapsed_time": "4:27:30", "remaining_time": "0:40:57"}
+{"current_steps": 965, "total_steps": 1107, "loss": 0.6846, "learning_rate": 4.0776494672184356e-08, "epoch": 2.6134055517941777, "percentage": 87.17, "elapsed_time": "4:28:36", "remaining_time": "0:39:31"}
+{"current_steps": 970, "total_steps": 1107, "loss": 0.6616, "learning_rate": 3.799176770455526e-08, "epoch": 2.626946513202437, "percentage": 87.62, "elapsed_time": "4:29:42", "remaining_time": "0:38:05"}
+{"current_steps": 975, "total_steps": 1107, "loss": 0.675, "learning_rate": 3.530176664833834e-08, "epoch": 2.640487474610697, "percentage": 88.08, "elapsed_time": "4:30:48", "remaining_time": "0:36:39"}
+{"current_steps": 980, "total_steps": 1107, "loss": 0.6875, "learning_rate": 3.270704303656696e-08, "epoch": 2.654028436018957, "percentage": 88.53, "elapsed_time": "4:31:53", "remaining_time": "0:35:14"}
+{"current_steps": 985, "total_steps": 1107, "loss": 0.6808, "learning_rate": 3.020812886746477e-08, "epoch": 2.667569397427217, "percentage": 88.98, "elapsed_time": "4:32:58", "remaining_time": "0:33:48"}
+{"current_steps": 990, "total_steps": 1107, "loss": 0.6687, "learning_rate": 2.7805536495370373e-08, "epoch": 2.681110358835477, "percentage": 89.43, "elapsed_time": "4:34:03", "remaining_time": "0:32:23"}
+{"current_steps": 995, "total_steps": 1107, "loss": 0.6584, "learning_rate": 2.5499758525688197e-08, "epoch": 2.694651320243737, "percentage": 89.88, "elapsed_time": "4:35:09", "remaining_time": "0:30:58"}
+{"current_steps": 1000, "total_steps": 1107, "loss": 0.656, "learning_rate": 2.329126771388995e-08, "epoch": 2.708192281651997, "percentage": 90.33, "elapsed_time": "4:36:14", "remaining_time": "0:29:33"}
+{"current_steps": 1000, "total_steps": 1107, "eval_loss": 0.7828182578086853, "epoch": 2.708192281651997, "percentage": 90.33, "elapsed_time": "4:39:17", "remaining_time": "0:29:53"}
+{"current_steps": 1005, "total_steps": 1107, "loss": 0.6716, "learning_rate": 2.1180516868584464e-08, "epoch": 2.721733243060257, "percentage": 90.79, "elapsed_time": "4:40:22", "remaining_time": "0:28:27"}
+{"current_steps": 1010, "total_steps": 1107, "loss": 0.6822, "learning_rate": 1.916793875867839e-08, "epoch": 2.735274204468517, "percentage": 91.24, "elapsed_time": "4:41:27", "remaining_time": "0:27:01"}
+{"current_steps": 1015, "total_steps": 1107, "loss": 0.6627, "learning_rate": 1.7253946024645472e-08, "epoch": 2.748815165876777, "percentage": 91.69, "elapsed_time": "4:42:32", "remaining_time": "0:25:36"}
+{"current_steps": 1020, "total_steps": 1107, "loss": 0.6727, "learning_rate": 1.5438931093921804e-08, "epoch": 2.762356127285037, "percentage": 92.14, "elapsed_time": "4:43:37", "remaining_time": "0:24:11"}
+{"current_steps": 1025, "total_steps": 1107, "loss": 0.6618, "learning_rate": 1.372326610044705e-08, "epoch": 2.775897088693297, "percentage": 92.59, "elapsed_time": "4:44:43", "remaining_time": "0:22:46"}
+{"current_steps": 1030, "total_steps": 1107, "loss": 0.6614, "learning_rate": 1.2107302808364638e-08, "epoch": 2.789438050101557, "percentage": 93.04, "elapsed_time": "4:45:48", "remaining_time": "0:21:21"}
+{"current_steps": 1035, "total_steps": 1107, "loss": 0.6665, "learning_rate": 1.0591372539900056e-08, "epoch": 2.802979011509817, "percentage": 93.5, "elapsed_time": "4:46:54", "remaining_time": "0:19:57"}
+{"current_steps": 1040, "total_steps": 1107, "loss": 0.6643, "learning_rate": 9.175786107429085e-09, "epoch": 2.816519972918077, "percentage": 93.95, "elapsed_time": "4:47:59", "remaining_time": "0:18:33"}
+{"current_steps": 1045, "total_steps": 1107, "loss": 0.6739, "learning_rate": 7.860833749751772e-09, "epoch": 2.830060934326337, "percentage": 94.4, "elapsed_time": "4:49:05", "remaining_time": "0:17:09"}
+{"current_steps": 1050, "total_steps": 1107, "loss": 0.6741, "learning_rate": 6.6467850725848705e-09, "epoch": 2.843601895734597, "percentage": 94.85, "elapsed_time": "4:50:10", "remaining_time": "0:15:45"}
+{"current_steps": 1050, "total_steps": 1107, "eval_loss": 0.7824584245681763, "epoch": 2.843601895734597, "percentage": 94.85, "elapsed_time": "4:53:13", "remaining_time": "0:15:55"}
+{"current_steps": 1055, "total_steps": 1107, "loss": 0.6842, "learning_rate": 5.5338889932838306e-09, "epoch": 2.857142857142857, "percentage": 95.3, "elapsed_time": "4:54:19", "remaining_time": "0:14:30"}
+{"current_steps": 1060, "total_steps": 1107, "loss": 0.6806, "learning_rate": 4.5223736898076235e-09, "epoch": 2.870683818551117, "percentage": 95.75, "elapsed_time": "4:55:24", "remaining_time": "0:13:05"}
+{"current_steps": 1065, "total_steps": 1107, "loss": 0.6679, "learning_rate": 3.612446553934723e-09, "epoch": 2.884224779959377, "percentage": 96.21, "elapsed_time": "4:56:30", "remaining_time": "0:11:41"}
+{"current_steps": 1070, "total_steps": 1107, "loss": 0.6733, "learning_rate": 2.804294148741948e-09, "epoch": 2.897765741367637, "percentage": 96.66, "elapsed_time": "4:57:35", "remaining_time": "0:10:17"}
+{"current_steps": 1075, "total_steps": 1107, "loss": 0.6736, "learning_rate": 2.0980821703527886e-09, "epoch": 2.911306702775897, "percentage": 97.11, "elapsed_time": "4:58:40", "remaining_time": "0:08:53"}
+{"current_steps": 1080, "total_steps": 1107, "loss": 0.6649, "learning_rate": 1.4939554139648536e-09, "epoch": 2.924847664184157, "percentage": 97.56, "elapsed_time": "4:59:46", "remaining_time": "0:07:29"}
+{"current_steps": 1085, "total_steps": 1107, "loss": 0.6718, "learning_rate": 9.920377441623994e-10, "epoch": 2.938388625592417, "percentage": 98.01, "elapsed_time": "5:00:51", "remaining_time": "0:06:06"}
+{"current_steps": 1090, "total_steps": 1107, "loss": 0.6805, "learning_rate": 5.92432069520199e-10, "epoch": 2.951929587000677, "percentage": 98.46, "elapsed_time": "5:01:57", "remaining_time": "0:04:42"}
+{"current_steps": 1095, "total_steps": 1107, "loss": 0.6629, "learning_rate": 2.9522032150419705e-10, "epoch": 2.9654705484089368, "percentage": 98.92, "elapsed_time": "5:03:02", "remaining_time": "0:03:19"}
+{"current_steps": 1100, "total_steps": 1107, "loss": 0.6592, "learning_rate": 1.0046343767294852e-10, "epoch": 2.979011509817197, "percentage": 99.37, "elapsed_time": "5:04:08", "remaining_time": "0:01:56"}
+{"current_steps": 1100, "total_steps": 1107, "eval_loss": 0.7824262976646423, "epoch": 2.979011509817197, "percentage": 99.37, "elapsed_time": "5:07:11", "remaining_time": "0:01:57"}
+{"current_steps": 1105, "total_steps": 1107, "loss": 0.6534, "learning_rate": 8.201349183611927e-12, "epoch": 2.9925524712254568, "percentage": 99.82, "elapsed_time": "5:08:16", "remaining_time": "0:00:33"}
+{"current_steps": 1107, "total_steps": 1107, "epoch": 2.997968855788761, "percentage": 100.0, "elapsed_time": "5:09:15", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1765 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.997968855788761,
+  "eval_steps": 50,
+  "global_step": 1107,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013540961408259987,
+      "grad_norm": 18.463732975176427,
+      "learning_rate": 5e-07,
+      "loss": 1.749,
+      "step": 5
+    },
+    {
+      "epoch": 0.027081922816519974,
+      "grad_norm": 12.15126324106773,
+      "learning_rate": 1e-06,
+      "loss": 1.5921,
+      "step": 10
+    },
+    {
+      "epoch": 0.040622884224779957,
+      "grad_norm": 7.7718176367972,
+      "learning_rate": 9.9994874230328e-07,
+      "loss": 1.2948,
+      "step": 15
+    },
+    {
+      "epoch": 0.05416384563303995,
+      "grad_norm": 4.024003853982352,
+      "learning_rate": 9.997949797225268e-07,
+      "loss": 1.1393,
+      "step": 20
+    },
+    {
+      "epoch": 0.06770480704129993,
+      "grad_norm": 3.796718690402949,
+      "learning_rate": 9.995387437838025e-07,
+      "loss": 1.0604,
+      "step": 25
+    },
+    {
+      "epoch": 0.08124576844955991,
+      "grad_norm": 3.4511274356883295,
+      "learning_rate": 9.991800870233637e-07,
+      "loss": 1.0272,
+      "step": 30
+    },
+    {
+      "epoch": 0.0947867298578199,
+      "grad_norm": 3.6605756447735724,
+      "learning_rate": 9.98719082976888e-07,
+      "loss": 1.003,
+      "step": 35
+    },
+    {
+      "epoch": 0.1083276912660799,
+      "grad_norm": 3.5416553128618156,
+      "learning_rate": 9.981558261643982e-07,
+      "loss": 0.9719,
+      "step": 40
+    },
+    {
+      "epoch": 0.12186865267433988,
+      "grad_norm": 3.5000585696846245,
+      "learning_rate": 9.97490432070881e-07,
+      "loss": 0.9584,
+      "step": 45
+    },
+    {
+      "epoch": 0.13540961408259986,
+      "grad_norm": 3.805541453776684,
+      "learning_rate": 9.967230371226118e-07,
+      "loss": 0.9444,
+      "step": 50
+    },
+    {
+      "epoch": 0.13540961408259986,
+      "eval_loss": 0.9377400875091553,
+      "eval_runtime": 182.856,
+      "eval_samples_per_second": 57.422,
+      "eval_steps_per_second": 0.902,
+      "step": 50
+    },
+    {
+      "epoch": 0.14895057549085985,
+      "grad_norm": 3.6018765357986844,
+      "learning_rate": 9.958537986591803e-07,
+      "loss": 0.9198,
+      "step": 55
+    },
+    {
+      "epoch": 0.16249153689911983,
+      "grad_norm": 3.5280703732572545,
+      "learning_rate": 9.948828949012327e-07,
+      "loss": 0.9181,
+      "step": 60
+    },
+    {
+      "epoch": 0.17603249830737983,
+      "grad_norm": 3.6595010678642925,
+      "learning_rate": 9.938105249139305e-07,
+      "loss": 0.9296,
+      "step": 65
+    },
+    {
+      "epoch": 0.1895734597156398,
+      "grad_norm": 3.323630668058957,
+      "learning_rate": 9.92636908566136e-07,
+      "loss": 0.9241,
+      "step": 70
+    },
+    {
+      "epoch": 0.2031144211238998,
+      "grad_norm": 3.425849289666098,
+      "learning_rate": 9.913622864853324e-07,
+      "loss": 0.8917,
+      "step": 75
+    },
+    {
+      "epoch": 0.2166553825321598,
+      "grad_norm": 3.9967436509747025,
+      "learning_rate": 9.89986920008288e-07,
+      "loss": 0.8988,
+      "step": 80
+    },
+    {
+      "epoch": 0.23019634394041977,
+      "grad_norm": 3.436149937331634,
+      "learning_rate": 9.885110911274738e-07,
+      "loss": 0.8774,
+      "step": 85
+    },
+    {
+      "epoch": 0.24373730534867977,
+      "grad_norm": 3.642660003309155,
+      "learning_rate": 9.869351024332466e-07,
+      "loss": 0.8787,
+      "step": 90
+    },
+    {
+      "epoch": 0.25727826675693977,
+      "grad_norm": 3.3574313517064978,
+      "learning_rate": 9.852592770518082e-07,
+      "loss": 0.8897,
+      "step": 95
+    },
+    {
+      "epoch": 0.2708192281651997,
+      "grad_norm": 3.534867148811258,
+      "learning_rate": 9.834839585789557e-07,
+      "loss": 0.8668,
+      "step": 100
+    },
+    {
+      "epoch": 0.2708192281651997,
+      "eval_loss": 0.8815732002258301,
+      "eval_runtime": 182.989,
+      "eval_samples_per_second": 57.38,
+      "eval_steps_per_second": 0.902,
+      "step": 100
+    },
+    {
+      "epoch": 0.2843601895734597,
+      "grad_norm": 3.476334412992533,
+      "learning_rate": 9.816095110096324e-07,
+      "loss": 0.8806,
+      "step": 105
+    },
+    {
+      "epoch": 0.2979011509817197,
+      "grad_norm": 3.5218146742622856,
+      "learning_rate": 9.796363186632983e-07,
+      "loss": 0.8895,
+      "step": 110
+    },
+    {
+      "epoch": 0.3114421123899797,
+      "grad_norm": 3.6344919656503545,
+      "learning_rate": 9.775647861051328e-07,
+      "loss": 0.8675,
+      "step": 115
+    },
+    {
+      "epoch": 0.32498307379823965,
+      "grad_norm": 3.8058175800193537,
+      "learning_rate": 9.753953380630862e-07,
+      "loss": 0.8739,
+      "step": 120
+    },
+    {
+      "epoch": 0.33852403520649965,
+      "grad_norm": 3.5458347600694515,
+      "learning_rate": 9.731284193407981e-07,
+      "loss": 0.8536,
+      "step": 125
+    },
+    {
+      "epoch": 0.35206499661475965,
+      "grad_norm": 3.4919069279296138,
+      "learning_rate": 9.707644947263975e-07,
+      "loss": 0.8598,
+      "step": 130
+    },
+    {
+      "epoch": 0.36560595802301965,
+      "grad_norm": 3.2003162498092848,
+      "learning_rate": 9.683040488972086e-07,
+      "loss": 0.8628,
+      "step": 135
+    },
+    {
+      "epoch": 0.3791469194312796,
+      "grad_norm": 3.337658064243358,
+      "learning_rate": 9.657475863203756e-07,
+      "loss": 0.8633,
+      "step": 140
+    },
+    {
+      "epoch": 0.3926878808395396,
+      "grad_norm": 3.4844992093115987,
+      "learning_rate": 9.63095631149432e-07,
+      "loss": 0.859,
+      "step": 145
+    },
+    {
+      "epoch": 0.4062288422477996,
+      "grad_norm": 3.5999127416589296,
+      "learning_rate": 9.603487271168336e-07,
+      "loss": 0.8436,
+      "step": 150
+    },
+    {
+      "epoch": 0.4062288422477996,
+      "eval_loss": 0.8559273481369019,
+      "eval_runtime": 182.9208,
+      "eval_samples_per_second": 57.402,
+      "eval_steps_per_second": 0.902,
+      "step": 150
+    },
+    {
+      "epoch": 0.4197698036560596,
+      "grad_norm": 3.4543800855029807,
+      "learning_rate": 9.575074374224758e-07,
+      "loss": 0.8431,
+      "step": 155
+    },
+    {
+      "epoch": 0.4333107650643196,
+      "grad_norm": 3.574884162982998,
+      "learning_rate": 9.545723446182201e-07,
+      "loss": 0.8466,
+      "step": 160
+    },
+    {
+      "epoch": 0.44685172647257954,
+      "grad_norm": 3.230714522717894,
+      "learning_rate": 9.515440504884539e-07,
+      "loss": 0.829,
+      "step": 165
+    },
+    {
+      "epoch": 0.46039268788083954,
+      "grad_norm": 3.38192753716993,
+      "learning_rate": 9.484231759267054e-07,
+      "loss": 0.8462,
+      "step": 170
+    },
+    {
+      "epoch": 0.47393364928909953,
+      "grad_norm": 3.562118447176729,
+      "learning_rate": 9.452103608083417e-07,
+      "loss": 0.8602,
+      "step": 175
+    },
+    {
+      "epoch": 0.48747461069735953,
+      "grad_norm": 3.2476691940428353,
+      "learning_rate": 9.419062638593748e-07,
+      "loss": 0.8266,
+      "step": 180
+    },
+    {
+      "epoch": 0.5010155721056195,
+      "grad_norm": 3.494748883924626,
+      "learning_rate": 9.385115625214021e-07,
+      "loss": 0.8219,
+      "step": 185
+    },
+    {
+      "epoch": 0.5145565335138795,
+      "grad_norm": 3.4365818103766452,
+      "learning_rate": 9.350269528127101e-07,
+      "loss": 0.8438,
+      "step": 190
+    },
+    {
+      "epoch": 0.5280974949221394,
+      "grad_norm": 3.245299565361765,
+      "learning_rate": 9.31453149185569e-07,
+      "loss": 0.8337,
+      "step": 195
+    },
+    {
+      "epoch": 0.5416384563303994,
+      "grad_norm": 3.603292666759954,
+      "learning_rate": 9.277908843797492e-07,
+      "loss": 0.8192,
+      "step": 200
+    },
+    {
+      "epoch": 0.5416384563303994,
+      "eval_loss": 0.8383815884590149,
+      "eval_runtime": 183.0029,
+      "eval_samples_per_second": 57.376,
+      "eval_steps_per_second": 0.902,
+      "step": 200
+    },
+    {
+      "epoch": 0.5551794177386594,
+      "grad_norm": 3.3561089172228797,
+      "learning_rate": 9.240409092722852e-07,
+      "loss": 0.8483,
+      "step": 205
+    },
+    {
+      "epoch": 0.5687203791469194,
+      "grad_norm": 3.351512113878825,
+      "learning_rate": 9.20203992723524e-07,
+      "loss": 0.8109,
+      "step": 210
+    },
+    {
+      "epoch": 0.5822613405551794,
+      "grad_norm": 3.4763361691712293,
+      "learning_rate": 9.162809214194851e-07,
+      "loss": 0.8335,
+      "step": 215
+    },
+    {
+      "epoch": 0.5958023019634394,
+      "grad_norm": 3.292224110319897,
+      "learning_rate": 9.122724997105646e-07,
+      "loss": 0.8465,
+      "step": 220
+    },
+    {
+      "epoch": 0.6093432633716994,
+      "grad_norm": 3.566456464228769,
+      "learning_rate": 9.0817954944662e-07,
+      "loss": 0.8257,
+      "step": 225
+    },
+    {
+      "epoch": 0.6228842247799594,
+      "grad_norm": 3.6677580289310088,
+      "learning_rate": 9.040029098084643e-07,
+      "loss": 0.8479,
+      "step": 230
+    },
+    {
+      "epoch": 0.6364251861882194,
+      "grad_norm": 3.4606320291357546,
+      "learning_rate": 8.997434371358092e-07,
+      "loss": 0.8412,
+      "step": 235
+    },
+    {
+      "epoch": 0.6499661475964793,
+      "grad_norm": 3.2432058195015467,
+      "learning_rate": 8.954020047516884e-07,
+      "loss": 0.7984,
+      "step": 240
+    },
+    {
+      "epoch": 0.6635071090047393,
+      "grad_norm": 3.24817794736711,
+      "learning_rate": 8.909795027833996e-07,
+      "loss": 0.834,
+      "step": 245
+    },
+    {
+      "epoch": 0.6770480704129993,
+      "grad_norm": 3.653634156312455,
+      "learning_rate": 8.864768379800016e-07,
+      "loss": 0.8285,
+      "step": 250
+    },
+    {
+      "epoch": 0.6770480704129993,
+      "eval_loss": 0.8261091709136963,
+      "eval_runtime": 182.9038,
+      "eval_samples_per_second": 57.407,
+      "eval_steps_per_second": 0.902,
+      "step": 250
+    },
+    {
+      "epoch": 0.6905890318212593,
+      "grad_norm": 3.5255613554356384,
+      "learning_rate": 8.81894933526402e-07,
+      "loss": 0.8322,
+      "step": 255
+    },
+    {
+      "epoch": 0.7041299932295193,
+      "grad_norm": 3.727303124024427,
+      "learning_rate": 8.772347288540763e-07,
+      "loss": 0.8384,
+      "step": 260
+    },
+    {
+      "epoch": 0.7176709546377793,
+      "grad_norm": 3.731075409838065,
+      "learning_rate": 8.724971794484555e-07,
+      "loss": 0.8263,
+      "step": 265
+    },
+    {
+      "epoch": 0.7312119160460393,
+      "grad_norm": 3.6981830618689484,
+      "learning_rate": 8.676832566530221e-07,
+      "loss": 0.8165,
+      "step": 270
+    },
+    {
+      "epoch": 0.7447528774542993,
+      "grad_norm": 3.498794505216147,
+      "learning_rate": 8.62793947470155e-07,
+      "loss": 0.8037,
+      "step": 275
+    },
+    {
+      "epoch": 0.7582938388625592,
+      "grad_norm": 3.5635605377852024,
+      "learning_rate": 8.578302543587629e-07,
+      "loss": 0.7896,
+      "step": 280
+    },
+    {
+      "epoch": 0.7718348002708192,
+      "grad_norm": 3.63798214652303,
+      "learning_rate": 8.527931950287506e-07,
+      "loss": 0.8129,
+      "step": 285
+    },
+    {
+      "epoch": 0.7853757616790792,
+      "grad_norm": 3.518857236471562,
+      "learning_rate": 8.47683802232356e-07,
+      "loss": 0.8182,
+      "step": 290
+    },
+    {
+      "epoch": 0.7989167230873392,
+      "grad_norm": 3.5608373625732694,
+      "learning_rate": 8.425031235524045e-07,
+      "loss": 0.8256,
+      "step": 295
+    },
+    {
+      "epoch": 0.8124576844955992,
+      "grad_norm": 3.6755850332375286,
+      "learning_rate": 8.372522211875224e-07,
+      "loss": 0.8132,
+      "step": 300
+    },
+    {
+      "epoch": 0.8124576844955992,
+      "eval_loss": 0.8165345191955566,
+      "eval_runtime": 182.8879,
+      "eval_samples_per_second": 57.412,
+      "eval_steps_per_second": 0.902,
+      "step": 300
+    },
+    {
+      "epoch": 0.8259986459038592,
+      "grad_norm": 3.596321476724727,
+      "learning_rate": 8.319321717343535e-07,
+      "loss": 0.8149,
+      "step": 305
+    },
+    {
+      "epoch": 0.8395396073121192,
+      "grad_norm": 3.7225323914645747,
+      "learning_rate": 8.265440659668234e-07,
+      "loss": 0.8124,
+      "step": 310
+    },
+    {
+      "epoch": 0.8530805687203792,
+      "grad_norm": 3.5663300158516016,
+      "learning_rate": 8.210890086124977e-07,
+      "loss": 0.7906,
+      "step": 315
+    },
+    {
+      "epoch": 0.8666215301286392,
+      "grad_norm": 3.4256587260000604,
+      "learning_rate": 8.155681181260776e-07,
+      "loss": 0.81,
+      "step": 320
+    },
+    {
+      "epoch": 0.8801624915368991,
+      "grad_norm": 3.4929314527584077,
+      "learning_rate": 8.099825264600842e-07,
+      "loss": 0.818,
+      "step": 325
+    },
+    {
+      "epoch": 0.8937034529451591,
+      "grad_norm": 3.5559616159997742,
+      "learning_rate": 8.04333378832772e-07,
+      "loss": 0.8067,
+      "step": 330
+    },
+    {
+      "epoch": 0.9072444143534191,
+      "grad_norm": 3.3786924383796544,
+      "learning_rate": 7.98621833493324e-07,
+      "loss": 0.802,
+      "step": 335
+    },
+    {
+      "epoch": 0.9207853757616791,
+      "grad_norm": 3.6281675631205377,
+      "learning_rate": 7.928490614843757e-07,
+      "loss": 0.7991,
+      "step": 340
+    },
+    {
+      "epoch": 0.9343263371699391,
+      "grad_norm": 3.5783671775239068,
+      "learning_rate": 7.870162464019143e-07,
+      "loss": 0.7961,
+      "step": 345
+    },
+    {
+      "epoch": 0.9478672985781991,
+      "grad_norm": 3.523112182862875,
+      "learning_rate": 7.811245841526062e-07,
+      "loss": 0.7997,
+      "step": 350
+    },
+    {
+      "epoch": 0.9478672985781991,
+      "eval_loss": 0.8075853586196899,
+      "eval_runtime": 182.8371,
+      "eval_samples_per_second": 57.428,
+      "eval_steps_per_second": 0.902,
+      "step": 350
+    },
+    {
+      "epoch": 0.9614082599864591,
+      "grad_norm": 3.327823061584991,
+      "learning_rate": 7.75175282708598e-07,
+      "loss": 0.7955,
+      "step": 355
+    },
+    {
+      "epoch": 0.9749492213947191,
+      "grad_norm": 3.353254883691996,
+      "learning_rate": 7.691695618598466e-07,
+      "loss": 0.7945,
+      "step": 360
+    },
+    {
+      "epoch": 0.988490182802979,
+      "grad_norm": 3.4573365027199547,
+      "learning_rate": 7.631086529640229e-07,
+      "loss": 0.8037,
+      "step": 365
+    },
+    {
+      "epoch": 1.002031144211239,
+      "grad_norm": 3.704603819142361,
+      "learning_rate": 7.569937986940475e-07,
+      "loss": 0.7833,
+      "step": 370
+    },
+    {
+      "epoch": 1.015572105619499,
+      "grad_norm": 3.338765249405955,
+      "learning_rate": 7.508262527833028e-07,
+      "loss": 0.736,
+      "step": 375
+    },
+    {
+      "epoch": 1.029113067027759,
+      "grad_norm": 3.5005014577141154,
+      "learning_rate": 7.446072797685799e-07,
+      "loss": 0.7393,
+      "step": 380
+    },
+    {
+      "epoch": 1.042654028436019,
+      "grad_norm": 3.5415652623772753,
+      "learning_rate": 7.383381547308099e-07,
+      "loss": 0.7461,
+      "step": 385
+    },
+    {
+      "epoch": 1.0561949898442788,
+      "grad_norm": 3.430934641227424,
+      "learning_rate": 7.320201630336318e-07,
+      "loss": 0.7359,
+      "step": 390
+    },
+    {
+      "epoch": 1.0697359512525388,
+      "grad_norm": 3.6468766296195896,
+      "learning_rate": 7.256546000598551e-07,
+      "loss": 0.7306,
+      "step": 395
+    },
+    {
+      "epoch": 1.0832769126607988,
+      "grad_norm": 4.055674159253643,
+      "learning_rate": 7.192427709458655e-07,
+      "loss": 0.7335,
+      "step": 400
+    },
+    {
+      "epoch": 1.0832769126607988,
+      "eval_loss": 0.804972231388092,
+      "eval_runtime": 182.8412,
+      "eval_samples_per_second": 57.427,
+      "eval_steps_per_second": 0.902,
+      "step": 400
+    },
+    {
+      "epoch": 1.0968178740690588,
+      "grad_norm": 3.7131013971600244,
+      "learning_rate": 7.127859903140311e-07,
+      "loss": 0.7346,
+      "step": 405
+    },
+    {
+      "epoch": 1.1103588354773188,
+      "grad_norm": 3.496845579088122,
+      "learning_rate": 7.062855820031659e-07,
+      "loss": 0.7409,
+      "step": 410
+    },
+    {
+      "epoch": 1.1238997968855788,
+      "grad_norm": 3.652963743841258,
+      "learning_rate": 6.997428787971005e-07,
+      "loss": 0.7236,
+      "step": 415
+    },
+    {
+      "epoch": 1.1374407582938388,
+      "grad_norm": 3.6316016258989916,
+      "learning_rate": 6.93159222151422e-07,
+      "loss": 0.734,
+      "step": 420
+    },
+    {
+      "epoch": 1.1509817197020988,
+      "grad_norm": 4.106556416672479,
+      "learning_rate": 6.86535961918433e-07,
+      "loss": 0.7425,
+      "step": 425
+    },
+    {
+      "epoch": 1.1645226811103588,
+      "grad_norm": 3.4406596945092764,
+      "learning_rate": 6.798744560703904e-07,
+      "loss": 0.7271,
+      "step": 430
+    },
+    {
+      "epoch": 1.1780636425186188,
+      "grad_norm": 3.5644142212223886,
+      "learning_rate": 6.731760704210802e-07,
+      "loss": 0.729,
+      "step": 435
+    },
+    {
+      "epoch": 1.1916046039268788,
+      "grad_norm": 3.5207779341108316,
+      "learning_rate": 6.66442178345783e-07,
+      "loss": 0.7295,
+      "step": 440
+    },
+    {
+      "epoch": 1.2051455653351388,
+      "grad_norm": 3.8426763234364643,
+      "learning_rate": 6.596741604996897e-07,
+      "loss": 0.7285,
+      "step": 445
+    },
+    {
+      "epoch": 1.2186865267433988,
+      "grad_norm": 3.537416567969802,
+      "learning_rate": 6.528734045348248e-07,
+      "loss": 0.7466,
+      "step": 450
+    },
+    {
+      "epoch": 1.2186865267433988,
+      "eval_loss": 0.7996942400932312,
+      "eval_runtime": 182.8629,
+      "eval_samples_per_second": 57.42,
+      "eval_steps_per_second": 0.902,
+      "step": 450
+    },
+    {
+      "epoch": 1.2322274881516588,
+      "grad_norm": 3.5566566741869603,
+      "learning_rate": 6.460413048155354e-07,
+      "loss": 0.7291,
+      "step": 455
+    },
+    {
+      "epoch": 1.2457684495599188,
+      "grad_norm": 3.6983928953608323,
+      "learning_rate": 6.391792621326027e-07,
+      "loss": 0.7502,
+      "step": 460
+    },
+    {
+      "epoch": 1.2593094109681786,
+      "grad_norm": 3.679881191981186,
+      "learning_rate": 6.322886834160377e-07,
+      "loss": 0.7375,
+      "step": 465
+    },
+    {
+      "epoch": 1.2728503723764386,
+      "grad_norm": 3.635647992456833,
+      "learning_rate": 6.253709814466167e-07,
+      "loss": 0.7446,
+      "step": 470
+    },
+    {
+      "epoch": 1.2863913337846986,
+      "grad_norm": 3.7784368285832675,
+      "learning_rate": 6.184275745662179e-07,
+      "loss": 0.7307,
+      "step": 475
+    },
+    {
+      "epoch": 1.2999322951929586,
+      "grad_norm": 3.975716487359526,
+      "learning_rate": 6.114598863870178e-07,
+      "loss": 0.727,
+      "step": 480
+    },
+    {
+      "epoch": 1.3134732566012186,
+      "grad_norm": 3.8898112879763818,
+      "learning_rate": 6.044693454996059e-07,
+      "loss": 0.7351,
+      "step": 485
+    },
+    {
+      "epoch": 1.3270142180094786,
+      "grad_norm": 3.883701681898452,
+      "learning_rate": 5.974573851800817e-07,
+      "loss": 0.7376,
+      "step": 490
+    },
+    {
+      "epoch": 1.3405551794177386,
+      "grad_norm": 3.5463439014644695,
+      "learning_rate": 5.904254430961869e-07,
+      "loss": 0.7413,
+      "step": 495
+    },
+    {
+      "epoch": 1.3540961408259986,
+      "grad_norm": 3.5029550543033374,
+      "learning_rate": 5.833749610125401e-07,
+      "loss": 0.7264,
+      "step": 500
+    },
+    {
+      "epoch": 1.3540961408259986,
+      "eval_loss": 0.7957150340080261,
+      "eval_runtime": 182.9392,
+      "eval_samples_per_second": 57.396,
+      "eval_steps_per_second": 0.902,
+      "step": 500
+    },
+    {
+      "epoch": 1.3676371022342586,
+      "grad_norm": 3.9766897722099124,
+      "learning_rate": 5.763073844950309e-07,
+      "loss": 0.7327,
+      "step": 505
+    },
+    {
+      "epoch": 1.3811780636425186,
+      "grad_norm": 3.80954804006231,
+      "learning_rate": 5.69224162614434e-07,
+      "loss": 0.7443,
+      "step": 510
+    },
+    {
+      "epoch": 1.3947190250507786,
+      "grad_norm": 3.524183540063996,
+      "learning_rate": 5.621267476493052e-07,
+      "loss": 0.7345,
+      "step": 515
+    },
+    {
+      "epoch": 1.4082599864590386,
+      "grad_norm": 3.620522282934874,
+      "learning_rate": 5.550165947882196e-07,
+      "loss": 0.7236,
+      "step": 520
+    },
+    {
+      "epoch": 1.4218009478672986,
+      "grad_norm": 3.768208934721801,
+      "learning_rate": 5.478951618314132e-07,
+      "loss": 0.7165,
+      "step": 525
+    },
+    {
+      "epoch": 1.4353419092755586,
+      "grad_norm": 3.5182066154018345,
+      "learning_rate": 5.407639088918888e-07,
+      "loss": 0.7297,
+      "step": 530
+    },
+    {
+      "epoch": 1.4488828706838186,
+      "grad_norm": 3.824867160497226,
+      "learning_rate": 5.33624298096048e-07,
+      "loss": 0.7307,
+      "step": 535
+    },
+    {
+      "epoch": 1.4624238320920786,
+      "grad_norm": 3.488297423659722,
+      "learning_rate": 5.264777932839104e-07,
+      "loss": 0.7487,
+      "step": 540
+    },
+    {
+      "epoch": 1.4759647935003386,
+      "grad_norm": 3.493644177453455,
+      "learning_rate": 5.193258597089809e-07,
+      "loss": 0.7291,
+      "step": 545
+    },
+    {
+      "epoch": 1.4895057549085986,
+      "grad_norm": 3.6179715470055824,
+      "learning_rate": 5.121699637378282e-07,
+      "loss": 0.7286,
+      "step": 550
+    },
+    {
+      "epoch": 1.4895057549085986,
+      "eval_loss": 0.7910673022270203,
+      "eval_runtime": 182.8784,
+      "eval_samples_per_second": 57.415,
+      "eval_steps_per_second": 0.902,
+      "step": 550
+    },
+    {
+      "epoch": 1.5030467163168586,
+      "grad_norm": 3.5922430809215777,
+      "learning_rate": 5.050115725494339e-07,
+      "loss": 0.7179,
+      "step": 555
+    },
+    {
+      "epoch": 1.5165876777251186,
+      "grad_norm": 3.4032672519789786,
+      "learning_rate": 4.978521538343764e-07,
+      "loss": 0.7366,
+      "step": 560
+    },
+    {
+      "epoch": 1.5301286391333786,
+      "grad_norm": 3.6567954327498327,
+      "learning_rate": 4.906931754939083e-07,
+      "loss": 0.7391,
+      "step": 565
+    },
+    {
+      "epoch": 1.5436696005416386,
+      "grad_norm": 3.5644839916468243,
+      "learning_rate": 4.835361053389921e-07,
+      "loss": 0.7288,
+      "step": 570
+    },
+    {
+      "epoch": 1.5572105619498986,
+      "grad_norm": 3.650299513434273,
+      "learning_rate": 4.763824107893532e-07,
+      "loss": 0.729,
+      "step": 575
+    },
+    {
+      "epoch": 1.5707515233581584,
+      "grad_norm": 3.8055072261605116,
+      "learning_rate": 4.692335585726145e-07,
+      "loss": 0.7177,
+      "step": 580
+    },
+    {
+      "epoch": 1.5842924847664184,
+      "grad_norm": 3.5985047420048697,
+      "learning_rate": 4.6209101442357116e-07,
+      "loss": 0.7224,
+      "step": 585
+    },
+    {
+      "epoch": 1.5978334461746784,
+      "grad_norm": 3.547274876419971,
+      "learning_rate": 4.549562427836701e-07,
+      "loss": 0.7327,
+      "step": 590
+    },
+    {
+      "epoch": 1.6113744075829384,
+      "grad_norm": 3.511159114275773,
+      "learning_rate": 4.4783070650075537e-07,
+      "loss": 0.7406,
+      "step": 595
+    },
+    {
+      "epoch": 1.6249153689911984,
+      "grad_norm": 3.46127753253687,
+      "learning_rate": 4.407158665291376e-07,
+      "loss": 0.7251,
+      "step": 600
+    },
+    {
+      "epoch": 1.6249153689911984,
+      "eval_loss": 0.7875649333000183,
+      "eval_runtime": 182.8944,
+      "eval_samples_per_second": 57.41,
+      "eval_steps_per_second": 0.902,
+      "step": 600
+    },
+    {
+      "epoch": 1.6384563303994584,
+      "grad_norm": 3.409510769647259,
+      "learning_rate": 4.336131816300548e-07,
+      "loss": 0.719,
+      "step": 605
+    },
+    {
+      "epoch": 1.6519972918077184,
+      "grad_norm": 3.5447361212717925,
+      "learning_rate": 4.265241080725808e-07,
+      "loss": 0.7287,
+      "step": 610
+    },
+    {
+      "epoch": 1.6655382532159784,
+      "grad_norm": 4.059666587103208,
+      "learning_rate": 4.194500993350453e-07,
+      "loss": 0.7399,
+      "step": 615
+    },
+    {
+      "epoch": 1.6790792146242384,
+      "grad_norm": 3.774832103683009,
+      "learning_rate": 4.1239260580702634e-07,
+      "loss": 0.7386,
+      "step": 620
+    },
+    {
+      "epoch": 1.6926201760324981,
+      "grad_norm": 3.5490582421055885,
+      "learning_rate": 4.053530744919749e-07,
+      "loss": 0.7246,
+      "step": 625
+    },
+    {
+      "epoch": 1.7061611374407581,
+      "grad_norm": 3.747116763144729,
+      "learning_rate": 3.983329487105363e-07,
+      "loss": 0.7372,
+      "step": 630
+    },
+    {
+      "epoch": 1.7197020988490181,
+      "grad_norm": 3.4822384940575795,
+      "learning_rate": 3.913336678046232e-07,
+      "loss": 0.7323,
+      "step": 635
+    },
+    {
+      "epoch": 1.7332430602572781,
+      "grad_norm": 3.825022969793332,
+      "learning_rate": 3.8435666684230726e-07,
+      "loss": 0.7097,
+      "step": 640
+    },
+    {
+      "epoch": 1.7467840216655381,
+      "grad_norm": 3.696972226883697,
+      "learning_rate": 3.774033763235861e-07,
+      "loss": 0.7304,
+      "step": 645
+    },
+    {
+      "epoch": 1.7603249830737981,
+      "grad_norm": 3.821368374115622,
+      "learning_rate": 3.7047522188708606e-07,
+      "loss": 0.727,
+      "step": 650
+    },
+    {
+      "epoch": 1.7603249830737981,
+      "eval_loss": 0.7839689254760742,
+      "eval_runtime": 182.875,
+      "eval_samples_per_second": 57.416,
+      "eval_steps_per_second": 0.902,
+      "step": 650
+    },
+    {
+      "epoch": 1.7738659444820581,
+      "grad_norm": 3.665010892266409,
+      "learning_rate": 3.635736240177627e-07,
+      "loss": 0.7223,
+      "step": 655
+    },
+    {
+      "epoch": 1.7874069058903181,
+      "grad_norm": 3.8705676996293916,
+      "learning_rate": 3.5669999775565816e-07,
+      "loss": 0.7313,
+      "step": 660
+    },
+    {
+      "epoch": 1.8009478672985781,
+      "grad_norm": 3.5842111135660057,
+      "learning_rate": 3.4985575240577365e-07,
+      "loss": 0.7321,
+      "step": 665
+    },
+    {
+      "epoch": 1.8144888287068381,
+      "grad_norm": 3.4424140077908767,
+      "learning_rate": 3.4304229124911856e-07,
+      "loss": 0.7316,
+      "step": 670
+    },
+    {
+      "epoch": 1.8280297901150981,
+      "grad_norm": 3.4068267304866646,
+      "learning_rate": 3.362610112549955e-07,
+      "loss": 0.704,
+      "step": 675
+    },
+    {
+      "epoch": 1.8415707515233581,
+      "grad_norm": 3.685081317112416,
+      "learning_rate": 3.295133027945778e-07,
+      "loss": 0.7167,
+      "step": 680
+    },
+    {
+      "epoch": 1.8551117129316181,
+      "grad_norm": 3.7176624860947345,
+      "learning_rate": 3.228005493558402e-07,
+      "loss": 0.7094,
+      "step": 685
+    },
+    {
+      "epoch": 1.8686526743398781,
+      "grad_norm": 3.718001701556429,
+      "learning_rate": 3.1612412725990305e-07,
+      "loss": 0.7312,
+      "step": 690
+    },
+    {
+      "epoch": 1.8821936357481381,
+      "grad_norm": 3.491455379714816,
+      "learning_rate": 3.0948540537884185e-07,
+      "loss": 0.7264,
+      "step": 695
+    },
+    {
+      "epoch": 1.8957345971563981,
+      "grad_norm": 3.7382317800607376,
+      "learning_rate": 3.0288574485502756e-07,
+      "loss": 0.7277,
+      "step": 700
+    },
+    {
+      "epoch": 1.8957345971563981,
+      "eval_loss": 0.7811039090156555,
+      "eval_runtime": 182.9386,
+      "eval_samples_per_second": 57.396,
+      "eval_steps_per_second": 0.902,
+      "step": 700
+    },
+    {
+      "epoch": 1.9092755585646581,
+      "grad_norm": 3.4296946924569442,
+      "learning_rate": 2.9632649882205083e-07,
+      "loss": 0.7287,
+      "step": 705
+    },
+    {
+      "epoch": 1.9228165199729181,
+      "grad_norm": 3.810691598305239,
+      "learning_rate": 2.8980901212728723e-07,
+      "loss": 0.7193,
+      "step": 710
+    },
+    {
+      "epoch": 1.9363574813811781,
+      "grad_norm": 3.3584278752072496,
+      "learning_rate": 2.833346210561619e-07,
+      "loss": 0.7112,
+      "step": 715
+    },
+    {
+      "epoch": 1.9498984427894381,
+      "grad_norm": 3.5743899932997185,
+      "learning_rate": 2.769046530581708e-07,
+      "loss": 0.7235,
+      "step": 720
+    },
+    {
+      "epoch": 1.9634394041976981,
+      "grad_norm": 3.8331759574897375,
+      "learning_rate": 2.705204264747125e-07,
+      "loss": 0.724,
+      "step": 725
+    },
+    {
+      "epoch": 1.9769803656059581,
+      "grad_norm": 3.6084594988279908,
+      "learning_rate": 2.6418325026878665e-07,
+      "loss": 0.7156,
+      "step": 730
+    },
+    {
+      "epoch": 1.9905213270142181,
+      "grad_norm": 3.56873955236049,
+      "learning_rate": 2.578944237566174e-07,
+      "loss": 0.7163,
+      "step": 735
+    },
+    {
+      "epoch": 2.004062288422478,
+      "grad_norm": 4.103162581101771,
+      "learning_rate": 2.5165523634125337e-07,
+      "loss": 0.7161,
+      "step": 740
+    },
+    {
+      "epoch": 2.017603249830738,
+      "grad_norm": 3.7064092978900844,
+      "learning_rate": 2.454669672481996e-07,
+      "loss": 0.6754,
+      "step": 745
+    },
+    {
+      "epoch": 2.031144211238998,
+      "grad_norm": 3.6900542156905196,
+      "learning_rate": 2.393308852631373e-07,
+      "loss": 0.6724,
+      "step": 750
+    },
+    {
+      "epoch": 2.031144211238998,
+      "eval_loss": 0.7857776880264282,
+      "eval_runtime": 183.0378,
+      "eval_samples_per_second": 57.365,
+      "eval_steps_per_second": 0.901,
+      "step": 750
+    },
+    {
+      "epoch": 2.044685172647258,
+      "grad_norm": 3.5536516436485255,
+      "learning_rate": 2.3324824847178494e-07,
+      "loss": 0.6887,
+      "step": 755
+    },
+    {
+      "epoch": 2.058226134055518,
+      "grad_norm": 3.7965121612299564,
+      "learning_rate": 2.2722030400194975e-07,
+      "loss": 0.666,
+      "step": 760
+    },
+    {
+      "epoch": 2.071767095463778,
+      "grad_norm": 3.7936989153822007,
+      "learning_rate": 2.2124828776782955e-07,
+      "loss": 0.6789,
+      "step": 765
+    },
+    {
+      "epoch": 2.085308056872038,
+      "grad_norm": 3.5401816973807043,
+      "learning_rate": 2.1533342421661228e-07,
+      "loss": 0.6665,
+      "step": 770
+    },
+    {
+      "epoch": 2.0988490182802977,
+      "grad_norm": 3.7787164350636555,
+      "learning_rate": 2.0947692607742618e-07,
+      "loss": 0.6755,
+      "step": 775
+    },
+    {
+      "epoch": 2.1123899796885577,
+      "grad_norm": 3.9382718196335267,
+      "learning_rate": 2.0367999411269282e-07,
+      "loss": 0.6821,
+      "step": 780
+    },
+    {
+      "epoch": 2.1259309410968177,
+      "grad_norm": 3.8112238429444782,
+      "learning_rate": 1.9794381687193456e-07,
+      "loss": 0.6805,
+      "step": 785
+    },
+    {
+      "epoch": 2.1394719025050777,
+      "grad_norm": 3.8744335724512204,
+      "learning_rate": 1.9226957044808494e-07,
+      "loss": 0.6657,
+      "step": 790
+    },
+    {
+      "epoch": 2.1530128639133377,
+      "grad_norm": 3.7804638456283346,
+      "learning_rate": 1.866584182363528e-07,
+      "loss": 0.6789,
+      "step": 795
+    },
+    {
+      "epoch": 2.1665538253215977,
+      "grad_norm": 3.8021451485147963,
+      "learning_rate": 1.811115106956918e-07,
+      "loss": 0.6883,
+      "step": 800
+    },
+    {
+      "epoch": 2.1665538253215977,
+      "eval_loss": 0.7850033044815063,
+      "eval_runtime": 182.9949,
+      "eval_samples_per_second": 57.379,
+      "eval_steps_per_second": 0.902,
+      "step": 800
+    },
+    {
+      "epoch": 2.1800947867298577,
+      "grad_norm": 3.864215108703362,
+      "learning_rate": 1.7562998511291943e-07,
+      "loss": 0.6811,
+      "step": 805
+    },
+    {
+      "epoch": 2.1936357481381177,
+      "grad_norm": 3.8300913859664667,
+      "learning_rate": 1.702149653695395e-07,
+      "loss": 0.6766,
+      "step": 810
+    },
+    {
+      "epoch": 2.2071767095463777,
+      "grad_norm": 3.8635188226813666,
+      "learning_rate": 1.6486756171131062e-07,
+      "loss": 0.675,
+      "step": 815
+    },
+    {
+      "epoch": 2.2207176709546377,
+      "grad_norm": 3.9283113465457355,
+      "learning_rate": 1.595888705206128e-07,
+      "loss": 0.6678,
+      "step": 820
+    },
+    {
+      "epoch": 2.2342586323628977,
+      "grad_norm": 3.726732058605602,
+      "learning_rate": 1.5437997409165476e-07,
+      "loss": 0.6733,
+      "step": 825
+    },
+    {
+      "epoch": 2.2477995937711577,
+      "grad_norm": 3.6073721199402318,
+      "learning_rate": 1.4924194040856973e-07,
+      "loss": 0.6794,
+      "step": 830
+    },
+    {
+      "epoch": 2.2613405551794177,
+      "grad_norm": 3.920320006141431,
+      "learning_rate": 1.4417582292644691e-07,
+      "loss": 0.6871,
+      "step": 835
+    },
+    {
+      "epoch": 2.2748815165876777,
+      "grad_norm": 3.781911882917061,
+      "learning_rate": 1.3918266035534027e-07,
+      "loss": 0.6774,
+      "step": 840
+    },
+    {
+      "epoch": 2.2884224779959377,
+      "grad_norm": 4.013058729107201,
+      "learning_rate": 1.3426347644730047e-07,
+      "loss": 0.6816,
+      "step": 845
+    },
+    {
+      "epoch": 2.3019634394041977,
+      "grad_norm": 3.776810144116961,
+      "learning_rate": 1.2941927978647526e-07,
+      "loss": 0.6709,
+      "step": 850
+    },
+    {
+      "epoch": 2.3019634394041977,
+      "eval_loss": 0.7840232253074646,
+      "eval_runtime": 182.9773,
+      "eval_samples_per_second": 57.384,
+      "eval_steps_per_second": 0.902,
+      "step": 850
+    },
+    {
+      "epoch": 2.3155044008124577,
+      "grad_norm": 4.0267886200903344,
+      "learning_rate": 1.2465106358231753e-07,
+      "loss": 0.6765,
+      "step": 855
+    },
+    {
+      "epoch": 2.3290453622207177,
+      "grad_norm": 3.79514301881657,
+      "learning_rate": 1.1995980546594775e-07,
+      "loss": 0.6633,
+      "step": 860
+    },
+    {
+      "epoch": 2.3425863236289777,
+      "grad_norm": 3.7026026349952086,
+      "learning_rate": 1.153464672897091e-07,
+      "loss": 0.678,
+      "step": 865
+    },
+    {
+      "epoch": 2.3561272850372377,
+      "grad_norm": 3.977299316585606,
+      "learning_rate": 1.108119949299578e-07,
+      "loss": 0.6875,
+      "step": 870
+    },
+    {
+      "epoch": 2.3696682464454977,
+      "grad_norm": 3.9505974017459544,
+      "learning_rate": 1.0635731809312992e-07,
+      "loss": 0.6955,
+      "step": 875
+    },
+    {
+      "epoch": 2.3832092078537577,
+      "grad_norm": 3.9944161998447116,
+      "learning_rate": 1.0198335012512271e-07,
+      "loss": 0.6843,
+      "step": 880
+    },
+    {
+      "epoch": 2.3967501692620177,
+      "grad_norm": 4.08644897660094,
+      "learning_rate": 9.769098782403041e-08,
+      "loss": 0.7081,
+      "step": 885
+    },
+    {
+      "epoch": 2.4102911306702777,
+      "grad_norm": 4.033807984306314,
+      "learning_rate": 9.348111125627278e-08,
+      "loss": 0.6758,
+      "step": 890
+    },
+    {
+      "epoch": 2.4238320920785377,
+      "grad_norm": 3.615156557294799,
+      "learning_rate": 8.935458357615583e-08,
+      "loss": 0.6718,
+      "step": 895
+    },
+    {
+      "epoch": 2.4373730534867977,
+      "grad_norm": 3.876477554855966,
+      "learning_rate": 8.531225084889654e-08,
+      "loss": 0.6598,
+      "step": 900
+    },
+    {
+      "epoch": 2.4373730534867977,
+      "eval_loss": 0.7834283113479614,
+      "eval_runtime": 183.0709,
+      "eval_samples_per_second": 57.355,
+      "eval_steps_per_second": 0.901,
+      "step": 900
+    },
+    {
+      "epoch": 2.4509140148950577,
+      "grad_norm": 3.6988949380997336,
+      "learning_rate": 8.135494187715475e-08,
+      "loss": 0.6603,
+      "step": 905
+    },
+    {
+      "epoch": 2.4644549763033177,
+      "grad_norm": 3.931452073089016,
+      "learning_rate": 7.748346803110295e-08,
+      "loss": 0.6832,
+      "step": 910
+    },
+    {
+      "epoch": 2.4779959377115777,
+      "grad_norm": 3.8160191178139047,
+      "learning_rate": 7.369862308207025e-08,
+      "loss": 0.6583,
+      "step": 915
+    },
+    {
+      "epoch": 2.4915368991198377,
+      "grad_norm": 3.8469114382677874,
+      "learning_rate": 7.000118303979463e-08,
+      "loss": 0.6808,
+      "step": 920
+    },
+    {
+      "epoch": 2.5050778605280977,
+      "grad_norm": 3.7497256852290115,
+      "learning_rate": 6.639190599331746e-08,
+      "loss": 0.6762,
+      "step": 925
+    },
+    {
+      "epoch": 2.518618821936357,
+      "grad_norm": 3.663314489242292,
+      "learning_rate": 6.287153195555173e-08,
+      "loss": 0.6663,
+      "step": 930
+    },
+    {
+      "epoch": 2.5321597833446177,
+      "grad_norm": 3.8930436232018333,
+      "learning_rate": 5.944078271155639e-08,
+      "loss": 0.6648,
+      "step": 935
+    },
+    {
+      "epoch": 2.545700744752877,
+      "grad_norm": 3.6616608952378904,
+      "learning_rate": 5.610036167054838e-08,
+      "loss": 0.6596,
+      "step": 940
+    },
+    {
+      "epoch": 2.5592417061611377,
+      "grad_norm": 3.986331709466641,
+      "learning_rate": 5.2850953721682635e-08,
+      "loss": 0.669,
+      "step": 945
+    },
+    {
+      "epoch": 2.572782667569397,
+      "grad_norm": 3.960581833122488,
+      "learning_rate": 4.969322509362761e-08,
+      "loss": 0.674,
+      "step": 950
+    },
+    {
+      "epoch": 2.572782667569397,
+      "eval_loss": 0.7830283641815186,
+      "eval_runtime": 182.8342,
+      "eval_samples_per_second": 57.429,
+      "eval_steps_per_second": 0.902,
+      "step": 950
+    },
+    {
+      "epoch": 2.5863236289776577,
+      "grad_norm": 3.8618441431288217,
+      "learning_rate": 4.662782321796849e-08,
+      "loss": 0.6713,
+      "step": 955
+    },
+    {
+      "epoch": 2.599864590385917,
+      "grad_norm": 3.5409233232724335,
+      "learning_rate": 4.365537659646418e-08,
+      "loss": 0.6747,
+      "step": 960
+    },
+    {
+      "epoch": 2.6134055517941777,
+      "grad_norm": 3.744738202206873,
+      "learning_rate": 4.0776494672184356e-08,
+      "loss": 0.6846,
+      "step": 965
+    },
+    {
+      "epoch": 2.626946513202437,
+      "grad_norm": 3.727245201869487,
+      "learning_rate": 3.799176770455526e-08,
+      "loss": 0.6616,
+      "step": 970
+    },
+    {
+      "epoch": 2.640487474610697,
+      "grad_norm": 3.7258573002382147,
+      "learning_rate": 3.530176664833834e-08,
+      "loss": 0.675,
+      "step": 975
+    },
+    {
+      "epoch": 2.654028436018957,
+      "grad_norm": 3.869690791825916,
+      "learning_rate": 3.270704303656696e-08,
+      "loss": 0.6875,
+      "step": 980
+    },
+    {
+      "epoch": 2.667569397427217,
+      "grad_norm": 4.064616477774205,
+      "learning_rate": 3.020812886746477e-08,
+      "loss": 0.6808,
+      "step": 985
+    },
+    {
+      "epoch": 2.681110358835477,
+      "grad_norm": 3.704371552936023,
+      "learning_rate": 2.7805536495370373e-08,
+      "loss": 0.6687,
+      "step": 990
+    },
+    {
+      "epoch": 2.694651320243737,
+      "grad_norm": 4.055603563401218,
+      "learning_rate": 2.5499758525688197e-08,
+      "loss": 0.6584,
+      "step": 995
+    },
+    {
+      "epoch": 2.708192281651997,
+      "grad_norm": 3.749384489878185,
+      "learning_rate": 2.329126771388995e-08,
+      "loss": 0.656,
+      "step": 1000
+    },
+    {
+      "epoch": 2.708192281651997,
+      "eval_loss": 0.7828182578086853,
+      "eval_runtime": 182.6838,
+      "eval_samples_per_second": 57.476,
+      "eval_steps_per_second": 0.903,
+      "step": 1000
+    },
+    {
+      "epoch": 2.721733243060257,
+      "grad_norm": 3.869599930871293,
+      "learning_rate": 2.1180516868584464e-08,
+      "loss": 0.6716,
+      "step": 1005
+    },
+    {
+      "epoch": 2.735274204468517,
+      "grad_norm": 3.930506514677681,
+      "learning_rate": 1.916793875867839e-08,
+      "loss": 0.6822,
+      "step": 1010
+    },
+    {
+      "epoch": 2.748815165876777,
+      "grad_norm": 3.8320813018837616,
+      "learning_rate": 1.7253946024645472e-08,
+      "loss": 0.6627,
+      "step": 1015
+    },
+    {
+      "epoch": 2.762356127285037,
+      "grad_norm": 3.986150848206186,
+      "learning_rate": 1.5438931093921804e-08,
+      "loss": 0.6727,
+      "step": 1020
+    },
+    {
+      "epoch": 2.775897088693297,
+      "grad_norm": 3.764718626888124,
+      "learning_rate": 1.372326610044705e-08,
+      "loss": 0.6618,
+      "step": 1025
+    },
+    {
+      "epoch": 2.789438050101557,
+      "grad_norm": 3.7384921853849393,
+      "learning_rate": 1.2107302808364638e-08,
+      "loss": 0.6614,
+      "step": 1030
+    },
+    {
+      "epoch": 2.802979011509817,
+      "grad_norm": 3.8134941063063867,
+      "learning_rate": 1.0591372539900056e-08,
+      "loss": 0.6665,
+      "step": 1035
+    },
+    {
+      "epoch": 2.816519972918077,
+      "grad_norm": 3.7735093872780197,
+      "learning_rate": 9.175786107429085e-09,
+      "loss": 0.6643,
+      "step": 1040
+    },
+    {
+      "epoch": 2.830060934326337,
+      "grad_norm": 3.987550484105897,
+      "learning_rate": 7.860833749751772e-09,
+      "loss": 0.6739,
+      "step": 1045
+    },
+    {
+      "epoch": 2.843601895734597,
+      "grad_norm": 3.9380769036431893,
+      "learning_rate": 6.6467850725848705e-09,
+      "loss": 0.6741,
+      "step": 1050
+    },
+    {
+      "epoch": 2.843601895734597,
+      "eval_loss": 0.7824584245681763,
+      "eval_runtime": 183.0944,
+      "eval_samples_per_second": 57.347,
+      "eval_steps_per_second": 0.901,
+      "step": 1050
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 4.011659897593238,
+      "learning_rate": 5.5338889932838306e-09,
+      "loss": 0.6842,
+      "step": 1055
+    },
+    {
+      "epoch": 2.870683818551117,
+      "grad_norm": 3.808051194891409,
+      "learning_rate": 4.5223736898076235e-09,
+      "loss": 0.6806,
+      "step": 1060
+    },
+    {
+      "epoch": 2.884224779959377,
+      "grad_norm": 3.8839001927108856,
+      "learning_rate": 3.612446553934723e-09,
+      "loss": 0.6679,
+      "step": 1065
+    },
+    {
+      "epoch": 2.897765741367637,
+      "grad_norm": 3.9713825006231054,
+      "learning_rate": 2.804294148741948e-09,
+      "loss": 0.6733,
+      "step": 1070
+    },
+    {
+      "epoch": 2.911306702775897,
+      "grad_norm": 3.783696934827739,
+      "learning_rate": 2.0980821703527886e-09,
+      "loss": 0.6736,
+      "step": 1075
+    },
+    {
+      "epoch": 2.924847664184157,
+      "grad_norm": 3.770344601359413,
+      "learning_rate": 1.4939554139648536e-09,
+      "loss": 0.6649,
+      "step": 1080
+    },
+    {
+      "epoch": 2.938388625592417,
+      "grad_norm": 3.8357523688679565,
+      "learning_rate": 9.920377441623994e-10,
+      "loss": 0.6718,
+      "step": 1085
+    },
+    {
+      "epoch": 2.951929587000677,
+      "grad_norm": 4.03615476407359,
+      "learning_rate": 5.92432069520199e-10,
+      "loss": 0.6805,
+      "step": 1090
+    },
+    {
+      "epoch": 2.9654705484089368,
+      "grad_norm": 3.8321791456875283,
+      "learning_rate": 2.9522032150419705e-10,
+      "loss": 0.6629,
+      "step": 1095
+    },
+    {
+      "epoch": 2.979011509817197,
+      "grad_norm": 3.9373632743696056,
+      "learning_rate": 1.0046343767294852e-10,
+      "loss": 0.6592,
+      "step": 1100
+    },
+    {
+      "epoch": 2.979011509817197,
+      "eval_loss": 0.7824262976646423,
+      "eval_runtime": 182.8708,
+      "eval_samples_per_second": 57.418,
+      "eval_steps_per_second": 0.902,
+      "step": 1100
+    },
+    {
+      "epoch": 2.9925524712254568,
+      "grad_norm": 3.6875439191522075,
+      "learning_rate": 8.201349183611927e-12,
+      "loss": 0.6534,
+      "step": 1105
+    },
+    {
+      "epoch": 2.997968855788761,
+      "step": 1107,
+      "total_flos": 6527139780231168.0,
+      "train_loss": 0.7629147509572306,
+      "train_runtime": 18558.2767,
+      "train_samples_per_second": 15.276,
+      "train_steps_per_second": 0.06
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1107,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6527139780231168.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3553522aaa6d5e59cf94ec946160c6542bb8fb70a422fbaa6145df10de7ae467
+size 7096

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed