Lunzima/MilkyLoong-Qwen2.5-1.5B

本模型是使用mergekit（模型合并工具包）融合多个预训练语言模型而成的集成模型，其预期用途为在龙芯3A6000系统上进行部署，且无需依赖独立显卡。在该系统配置下，模型输出速度虽较为缓慢，但仍处于可接受范围，能满足日常对话等场景需求。

合并详情

合并方法

该模型采用Model Stock（模型库存）合并方法，以Lunzima/MilkyLoong-Qwen2.5-1.5B-pass5为基础模型进行融合。

参与合并的模型

以下模型被包含在此次合并中：

配置文件

生成该模型使用的YAML配置如下：

models:  
  - model: bond005/meno-tiny-0.1  
  - model: fblgit/miniclaus-qw1.5B-UNAMGS-GRPO  
  - model: Sakalti/Saba1.5-1.5B  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass1  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass2  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass3  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass4  
  - model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass5  
merge_method: model_stock  
base_model: Lunzima/MilkyLoong-Qwen2.5-1.5B-pass5  
dtype: bfloat16  
parameters:  
  int8_mask: true

技术说明

Model Stock合并方法：该方法通过计算多个模型的几何中心，在保持基础模型核心能力的同时，融合其他模型的特性。这种方法在日常对话任务中表现出较好的稳定性。
Pass系列模型：指经过多轮迭代优化的MilkyLoong-Qwen2.5-1.5B模型（如pass1至pass5），每轮迭代均针对特定任务进行了增强训练。

应用场景

该合并模型适用于日常对话场景，尤其在低资源环境下，例如仅配备龙芯3A6000系统且无独立显卡的设备中，表现出较高的性价比。虽然在模型输出速度上无法与配备高性能独立显卡的系统相比，但在可接受的缓慢速度下，依然能够为用户提供较为稳定的对话交互体验，满足诸如简单咨询、闲聊等日常使用需求。

Lunzima
/

MilkyLoong-Qwen2.5-1.5B

合并详情

合并方法

参与合并的模型

配置文件

技术说明

应用场景

Model tree for Lunzima/MilkyLoong-Qwen2.5-1.5B

Collection including Lunzima/MilkyLoong-Qwen2.5-1.5B

NQLSG and its friends