--- datasets: - Congliu/Chinese-DeepSeek-R1-Distill-data-110k language: - zh base_model: - meta-llama/Llama-3.2-3B --- # Llama-3.2-3B-Traditional-Chinese-FREE-Seek 範例 Colab - Llama-3.2-3B 蒸餾繁體中文模型:FREE-Seek ![人工智慧 - 自由團隊](https://raw.githubusercontent.com/chenkenanalytic/img/master/af/aifreeteam.png) ## Preface 前言 在 DeepSeek 掀起全球一陣對於推理模型的風潮後,各家學研機構、企業都紛紛投入研究,在台灣也有不少 LLM 領域的技術先進加入此戰局,但願意將其數據、模型進行開源的開發團隊卻少之少,因此在投入推理模型研究的路上, AI . FREE Team 自詡能拋磚引玉,提供台灣、繁體中文社群我們團隊初步的研究成果:FREE-Seek,即使模型仍有許多改善面向與空間,但希望能透過此開源專案,活絡台灣在開源 LLM 的技術研究。
## Training Data Details 訓練資料說明 FREE-Seek 模型使用 Llama-3.2-3B 進行兩階段訓練,包含:(1)預訓練(Pretraining) (2)蒸餾訓練(Distill-SFT), - 在(1)預訓練中,在繁體中文網站中進行各式新聞、各大網路社群的純文本爬蟲,訓練資料量約為 5GB, - 在(2)蒸餾訓練中,主要採行兩種資料:1. 使用 gpt-4o 合成資料訓練; 2. 使用繁體化的 Deepseek 數據集。
## Updates 更新紀錄 - 2025.03.10 增加 Repo 說明、Colab 運行程式碼 - 2025.03.03 上傳 FREE-Seek V1 模型到 HuggingFace (FREE-Seek)
## Datasets 資料集 - 預訓練資料集 (暫不提供) - 蒸餾資料集 (開源簡中數據集、繁中化數據集-整理中)
## Usage 使用方法 ### 1. 使用 Transformers 套件 ``` bash from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 確保使用的是 FREE-Seek 的模型 MODEL_NAME = "AI-FREE-Team/Llama-3.2-3B-Traditional-Chinese-FREE-Seek" # 設定裝置 (使用 CUDA 或 CPU) device = "cuda" if torch.cuda.is_available() else "cpu" # 載入 Tokenizer 和模型 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) model = AutoModelForCausalLM.from_pretrained( MODEL_NAME, torch_dtype=torch.float16 if device == "cuda" else torch.float32, device_map="auto" ) ``` ### 2. 使用 Google Colab 範例 Colab
Note: 請記得選擇 GPU! ## Issues 問題與發現 1. 現行模型僅能進行單輪問答,可能原因為: (1)訓練資料 token 數量分佈多在2k-4k,SFT階段max-token設定在4k (2)3B小模型參數量限制。 2. 現行模型未進行"護欄"訓練,模型可能產生不適當的回覆,請使用者切勿用於非法用途。 (若有其他發現,歡迎使用者隨時跟我們 Updates) ## Citing ``` @misc{AI.FREE2025, author = {Po-Chuan Chen}, title = {Llama-3.2-3B-Traditional-Chinese-FREE-Seek}, year = {2025}, publisher = {HuggingFace}, howpublished = {\url{https://huggingface.co/AI-FREE-Team/Llama-3.2-3B-Traditional-Chinese-FREE-Seek}}, } ```