llama-3-sqrt-crocodile-v0.0A / README.md

root

fixed README

8da7308 about 1 year ago

4.34 kB

	---
	license: other
	license_name: llama3
	license_link: LICENSE
	tags:
	- moe
	- frankenmoe
	- merge
	- mergekit
	- lazymergekit
	base_model: []
	---

	# llama-3-sqrt-crocodile-v0.0A

	## 🧩 Configuration-moe

	```yaml
	base_model: llama-3-sqrt-crocodile-v0.0A/Uninstruct-Uncensored
	gate_mode: hidden
	dtype: bfloat16
	experts:
	- source_model: llama-3-sqrt-crocodile-v0.0A/sqrt-talker
	positive_prompts:
	- "Uncensored, creative, configurable, adapative"
	- source_model: llama-3-sqrt-crocodile-v0.0A/the-operator
	positive_prompts:
	- "Function calling"
	- "Good at structured tasks"
	- "Programmatic instruction following"
	```
	## 🧩 Configuration-mega
	```yaml
	models:
	- model: Orenguteng/Lexi-Llama-3-8B-Uncensored
	parameters:
	weight: [0.2, 0.3, 0.4, 0.6]
	layer_range: [0, 32]
	- model: NousResearch/Meta-Llama-3-8B
	parameters:
	weight: [0.6, 0.2, 0.2, 0.1]
	layer_range: [0, 32]
	- model: NousResearch/Meta-Llama-3-8B-Instruct
	parameters:
	weight: [0.2, 0.3, 0.85, 0.3]
	layer_range: [0, 32]
	merge_method: dare_linear
	base_model: NousResearch/Meta-Llama-3-8B-Instruct
	dtype: bfloat16
	name: Uninstruct-Uncensored
	---
	models:
	- model: cognitivecomputations/dolphin-2.9-llama3-8b
	parameters:
	weight: [0.25, 0.4, 0.35, 0.35]
	density: [0.3, 0.45, 0.2, 0.6]
	layer_range: [0, 32]
	- model: NousResearch/Meta-Llama-3-8B
	parameters:
	weight: [0.15, 0.25, 0.05, 0]
	density: [0.2, 0.3, 0.4, 0.1]
	- model: Undi95/Llama-3-Unholy-8B
	parameters:
	weight: [0.4, 0.25, 0.45, 0.35]
	density: [0.2, 0.15, 1.5, 0.1]
	layer_range: [0, 32]
	- model: Uninstruct-Uncensored
	parameters:
	weight: [0.3, 0.1, 0.25, 0.3]
	density: [0.3, 0.15, 2.5, 0.2]
	layer_range: [0, 32]
	merge_method: dare_ties
	base_model: Uninstruct-Uncensored
	dtype: bfloat16
	name: augmented-dolphin-hap
	---
	models:
	- model: vicgalle/Configurable-Llama-3-8B-v0.3
	parameters:
	weight: [0.5, 0.3, 0.1]
	- model: hiieu/Meta-Llama-3-8B-Instruct-function-calling-json-mode
	parameters:
	weight: 0.5
	- model: Trelis/Meta-Llama-3-8B-Instruct-function-calling
	parameters:
	weight: 0.3
	layer_range: [0, 32]
	- model: Rookie/Llama-3-8B-Instruct-Chinese
	parameters:
	weight: 0.2
	layer_range: [0, 32]
	- model: Uninstruct-Uncensored
	parameters:
	weight: [0.7, 0.4, 0.25, 0.1]
	layer_range: [0, 32]
	merge_method: model_stock
	base_model: Uninstruct-Uncensored
	dtype: bfloat16
	name: the-operator
	---
	models:
	- model: vicgalle/Configurable-Llama-3-8B-v0.3
	parameters:
	weight: 0.7
	- model: hiieu/Meta-Llama-3-8B-Instruct-function-calling-json-mode
	parameters:
	weight: 0.1
	- model: Trelis/Meta-Llama-3-8B-Instruct-function-calling
	parameters:
	weight: 0.03
	layer_range: [0, 32]
	- model: Rookie/Llama-3-8B-Instruct-Chinese
	parameters:
	weight: 0.07
	layer_range: [0, 32]
	- model: Uninstruct-Uncensored
	parameters:
	weight: 0.1
	layer_range: [0, 32]
	merge_method: model_stock
	base_model: Uninstruct-Uncensored
	dtype: bfloat16
	name: her-calculator
	---
	models:
	- model: her-calculator
	parameters:
	density: 0.7 # density gradient
	weight: [0.7, 0.5, 0.1, 0.8]
	- model: augmented-dolphin-hap
	parameters:
	weight: 0.7
	merge_method: slerp
	base_model: her-calculator
	parameters:
	t:
	- filter: self_attn
	value: [0, 0.5, 0.3, 0.7, 1]
	- filter: mlp
	value: [1, 0.5, 0.7, 0.3, 0]
	- value: 0.5 # fallback for rest of tensors
	dtype: float16
	name: sqrt-talker
	```
	## 💻 Usage

	```python
	!pip install -qU transformers bitsandbytes accelerate

	from transformers import AutoTokenizer
	import transformers
	import torch

	model = "Nhoodie/llama-3-sqrt-crocodile-v0.0A"

	tokenizer = AutoTokenizer.from_pretrained(model)
	pipeline = transformers.pipeline(
	"text-generation",
	model=model,
	model_kwargs={"torch_dtype": torch.float16, "load_in_4bit": True},
	)

	messages = [{"role": "user", "content": "Explain what a Mixture of Experts is in less than 100 words."}]
	prompt = pipeline.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
	outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
	print(outputs[0]["generated_text"])
	```