LeanQuant commited on 23 days ago

Commit

05a9032

verified ·

1 Parent(s): 76cb1cf

Add files using upload-large-folder tool

Browse files

Files changed (44) hide show

.gitattributes +1 -0
README.md +58 -0
added_tokens.json +3 -0
config.json +80 -0
generation_config.json +13 -0
language_model_model_layers_0.safetensors +3 -0
language_model_model_layers_1.safetensors +3 -0
language_model_model_layers_10.safetensors +3 -0
language_model_model_layers_11.safetensors +3 -0
language_model_model_layers_12.safetensors +3 -0
language_model_model_layers_13.safetensors +3 -0
language_model_model_layers_14.safetensors +3 -0
language_model_model_layers_15.safetensors +3 -0
language_model_model_layers_16.safetensors +3 -0
language_model_model_layers_17.safetensors +3 -0
language_model_model_layers_18.safetensors +3 -0
language_model_model_layers_19.safetensors +3 -0
language_model_model_layers_2.safetensors +3 -0
language_model_model_layers_20.safetensors +3 -0
language_model_model_layers_21.safetensors +3 -0
language_model_model_layers_22.safetensors +3 -0
language_model_model_layers_23.safetensors +3 -0
language_model_model_layers_24.safetensors +3 -0
language_model_model_layers_25.safetensors +3 -0
language_model_model_layers_26.safetensors +3 -0
language_model_model_layers_27.safetensors +3 -0
language_model_model_layers_28.safetensors +3 -0
language_model_model_layers_29.safetensors +3 -0
language_model_model_layers_3.safetensors +3 -0
language_model_model_layers_30.safetensors +3 -0
language_model_model_layers_31.safetensors +3 -0
language_model_model_layers_32.safetensors +3 -0
language_model_model_layers_33.safetensors +3 -0
language_model_model_layers_4.safetensors +3 -0
language_model_model_layers_5.safetensors +3 -0
language_model_model_layers_6.safetensors +3 -0
language_model_model_layers_7.safetensors +3 -0
language_model_model_layers_8.safetensors +3 -0
language_model_model_layers_9.safetensors +3 -0
model.safetensors +3 -0
special_tokens_map.json +33 -0
tokenizer.json +3 -0
tokenizer.model +3 -0
tokenizer_config.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+## DFloat11 Compressed Model: `google/gemma-3-4b-it`
+This is a **losslessly compressed** version of [`google/gemma-3-4b-it`](https://huggingface.co/google/gemma-3-4b-it) using our custom **DFloat11** format. The outputs of this compressed model are **bit-for-bit identical** to the original BFloat16 model, while reducing GPU memory consumption by approximately **30%**.
+### 🔍 How It Works
+DFloat11 compresses model weights using **Huffman coding** of BFloat16 exponent bits, combined with **hardware-aware algorithmic designs** that enable efficient on-the-fly decompression directly on the GPU. During inference, the weights remain compressed in GPU memory and are **decompressed just before matrix multiplications**, then **immediately discarded after use** to minimize memory footprint.
+Key benefits:
+* **No CPU decompression or host-device data transfer** -- all operations are handled entirely on the GPU.
+* **Decompression overhead is constant** per forward pass and **independent of batch size**, making DFloat11 increasingly efficient at larger batch sizes.
+* DFloat11 is **much faster than CPU-offloading approaches**, enabling practical deployment in memory-constrained environments.
+* At **batch size = 1**, inference is approximately **2× slower** than the original BF16 model, but the performance gap **narrows significantly** with larger batches.
+* The compression is **fully lossless**, guaranteeing that the model’s outputs are **bit-for-bit identical** to those of the original model.
+### 🔧 How to Use
+1. Install the DFloat11 pip package *(installs the CUDA kernel automatically; requires a CUDA-compatible GPU and PyTorch installed)*:
+    ```bash
+    pip install dfloat11[cuda12]
+    # or if you have CUDA version 11:
+    # pip install dfloat11[cuda11]
+    ```
+2. To use the DFloat11 model, run the following example code in Python:
+    ```python
+    import torch
+    from dfloat11 import DFloat11Model
+    from transformers import AutoTokenizer
+    model_id = "DFloat11/gemma-3-4b-it-DF11"
+    model = DFloat11Model.from_pretrained(model_id, device_map="auto")
+    tokenizer = AutoTokenizer.from_pretrained(model_id)
+    tokenizer.pad_token = tokenizer.eos_token
+    prompt = "Question: What is a binary tree and its applications? Answer:"
+    inputs = tokenizer(prompt, return_tensors="pt", padding=True).to(model.device)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=256,
+            do_sample=True,
+        )
+    print(tokenizer.batch_decode(output, skip_special_tokens=True))
+    ```
+### 📄 Learn More
+* **Paper**: [70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float](https://arxiv.org/abs/2504.11651)
+* **GitHub**: [https://github.com/LeanModels/DFloat11](https://github.com/LeanModels/DFloat11)
+* **HuggingFace**: [https://huggingface.co/DFloat11](https://huggingface.co/DFloat11)

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

config.json ADDED Viewed

	@@ -0,0 +1,80 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "dfloat11_config": {
+    "bytes_per_thread": 8,
+    "pattern_dict": {
+      "language_model.model.layers.\\d+": [
+        "self_attn.q_proj",
+        "self_attn.k_proj",
+        "self_attn.v_proj",
+        "self_attn.o_proj",
+        "mlp.gate_proj",
+        "mlp.up_proj",
+        "mlp.down_proj"
+      ]
+    },
+    "threads_per_block": [
+      512
+    ],
+    "version": "0.2.0"
+  },
+  "eoi_token_index": 256000,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "cache_implementation": "hybrid",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 2560,
+    "initializer_range": 0.02,
+    "intermediate_size": 10240,
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 8,
+    "num_hidden_layers": 34,
+    "num_key_value_heads": 4,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "sliding_window_pattern": 6,
+    "torch_dtype": "bfloat16",
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "torch_dtype": "bfloat16",
+    "vision_use_head": false
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.51.3"
+}

language_model_model_layers_0.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d96d1c18d4c910f85cdfaca653bfbeef0c278dd580735694f7abee75c3b2d41d
+size 130067084

language_model_model_layers_1.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94b140291206b39729a80108c10ad39b7446a868014cf1f44ca93e8bdc8de40d
+size 131243860

language_model_model_layers_10.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:312a41e6f08d6bf508384626ea3ac2184067d68670231f50f9b0f5095be36f1e
+size 129889362

language_model_model_layers_11.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8e073cca130406b8724356539bcf82de791971efad0df9802b6d6aaf7d70684
+size 131255936

language_model_model_layers_12.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:271b7e427e45fd879fb1e270afb5634ac5c6a44ebb9aee94635966d92310682c
+size 129072774

language_model_model_layers_13.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:734e44ed162ef2ab001993ec00e30f946f019c1e199458050dd44c3f07830646
+size 129713937

language_model_model_layers_14.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cdb8f6e7a199a75ffa91197af09f3703f68dcc1235d17f4841dbced277329e4
+size 130166670

language_model_model_layers_15.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14044517d99440b9724e5433b21781ed744735d96adb123eb8fec1e6cb1454af
+size 131318060

language_model_model_layers_16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4b473b45d6d2ad0b617cabcc82c169126317f5d106eb9f3e79c84d51e0be0e3
+size 129423821

language_model_model_layers_17.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf677d9648711d84b91e1c6a48e47ee2419f862e961bd44730c0b8aa7725354d
+size 129659537

language_model_model_layers_18.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aecfc721f3577d14bbb72e4fe92b788385b0cc815a2ce85a6fa86fb756c863e6
+size 129900626

language_model_model_layers_19.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4c7197c56985889aa6d398f3aa7a735858aa11e26c33213b857e1754186d289
+size 130376486

language_model_model_layers_2.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:983e98ca6dbfd10a2209331665305dbdc7651d6f5ce0b800f50fdec0662ba168
+size 130189406

language_model_model_layers_20.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b2b53aa7d9201c305918861b57c7e44ee1646b23152124dd2756f1d527e7b8a
+size 130110260

language_model_model_layers_21.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67036e439f81ec79e6a3076bb5976a5e5e0a912416031ececb936487d902320c
+size 130046228

language_model_model_layers_22.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf6500e71f8609251355517380e603869e186b1b87ad63b85c1db32e26f0859f
+size 129728210

language_model_model_layers_23.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44c17c0583a9c1cce8946fe80439e7af5de0508297830ef6e1f8d046c3a91495
+size 130031413

language_model_model_layers_24.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e88444ad556a35457d334e91060f38476cb886edfa7e3dc07e6966489077fb6a
+size 130844436

language_model_model_layers_25.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0be9e9f850cd96b1f4072bbaa13a86b8dacc891d0850498f3963c9470176291
+size 130842754

language_model_model_layers_26.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c712012d5cac0b3faf6c718c12b48a324aa763e8d1662df8180e123405a1085
+size 130986040

language_model_model_layers_27.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e64a448b881750d83f5b01725ff151d1b031972a15e03394d4c76ab61d374f23
+size 128983307

language_model_model_layers_28.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f3f163e0b5b554b8f9939a622bab5561a97d00b818c83fcb01f77040ed0ccac
+size 129339139

language_model_model_layers_29.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:911ad3c606a9225c126ef2d7b45d5ad063c80b10e0ba9d045674e542f98c53d4
+size 129636099

language_model_model_layers_3.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57cb796cb40f0a7dfd54f69747d83716d900f7aa5473f52e61e3a96c63b308a3
+size 129269069

language_model_model_layers_30.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a5b1215dcc25fc97b812b4480e8c01278775cf46f481c3bb0db95aa3b6a234f
+size 130210658

language_model_model_layers_31.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e949b6653f27749f6141510d3e3af0f7b077f553a4a8a21156749738707fcde7
+size 129042385

language_model_model_layers_32.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3db564ac2741992a44b4c7bfdfa94c311a42341702410e2645441fcb62cef9a8
+size 130803443

language_model_model_layers_33.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1e06a57cb8b2e3c0f00a0ecc44d460de2576c4a79db85370e578e8ca4aecb19
+size 129538026

language_model_model_layers_4.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:483e521ad8f080c6302b2f04d1f8d052d3a1264756eeb56f48bdab5f6c2449f0
+size 130128696

language_model_model_layers_5.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cc6389e3d9973b6e34d3fbe9fe3b2fb3365dee4cde56cabf9c0e1e62ecf2649
+size 131390778

language_model_model_layers_6.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d92d1f5a862f24f595233ccc9edee93cbd658ff01e63a0e428d19e11b4ba996a
+size 129612687

language_model_model_layers_7.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44b9b1f90d39e034c66c4f3041f61c8e0c347f81a4d4c4a839e97335ccc80d13
+size 129364046

language_model_model_layers_8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e42ee77737412c45c23ce55720066bb91b67188cd8420afa16a7ef88207ee6cf
+size 128874261

language_model_model_layers_9.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32a3b29c62806c01f91971a15712c5336b7e6be741a75f8b37c476e3d08e883d
+size 129368394

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b013904f9a949dc3c02db07bc8d42ba27ef0eb2829bc8d8be53908efee9b333c
+size 2182203576

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff