MilkyLoong-Qwen2.5-1.5B模型示意图

本模型是使用mergekit(模型合并工具包)融合多个预训练语言模型而成的集成模型,其预期用途为在龙芯3A6000系统上进行部署,且无需依赖独立显卡。在该系统配置下,模型输出速度虽较为缓慢,但仍处于可接受范围,能满足日常对话等场景需求。

合并详情

合并方法

该模型采用Model Stock(模型库存)合并方法,以Lunzima/MilkyLoong-Qwen2.5-1.5B-pass5为基础模型进行融合。

参与合并的模型

以下模型被包含在此次合并中:

配置文件

生成该模型使用的YAML配置如下:

models:  
  - model: bond005/meno-tiny-0.1  
  - model: fblgit/miniclaus-qw1.5B-UNAMGS-GRPO  
  - model: Sakalti/Saba1.5-1.5B  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass1  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass2  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass3  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass4  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass5  
merge_method: model_stock  
base_model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass5  
dtype: bfloat16  
parameters:  
  int8_mask: true  

技术说明

  1. Model Stock合并方法:该方法通过计算多个模型的几何中心,在保持基础模型核心能力的同时,融合其他模型的特性。这种方法在日常对话任务中表现出较好的稳定性。
  2. Pass系列模型:指经过多轮迭代优化的MilkyLoong-Qwen2.5-1.5B模型(如pass1至pass5),每轮迭代均针对特定任务进行了增强训练。

应用场景

该合并模型适用于日常对话场景,尤其在低资源环境下,例如仅配备龙芯3A6000系统且无独立显卡的设备中,表现出较高的性价比。虽然在模型输出速度上无法与配备高性能独立显卡的系统相比,但在可接受的缓慢速度下,依然能够为用户提供较为稳定的对话交互体验,满足诸如简单咨询、闲聊等日常使用需求。

Downloads last month
10
Safetensors
Model size
1.54B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Lunzima/MilkyLoong-Qwen2.5-1.5B

Quantizations
1 model

Collection including Lunzima/MilkyLoong-Qwen2.5-1.5B