--- license: mit datasets: - ticoAg/Chinese-medical-dialogue language: - zh metrics: - brier_score base_model: - baichuan-inc/Baichuan-M1-14B-Instruct pipeline_tag: question-answering library_name: peft tags: - medical --- # ☯️ 太上老君中医药大模型 (Taishang Laojun TCM LLM) ☯️ (Developed by Geng Hu, Beihang University) ## Taishang Laojun:首个专注于肺纤维化药物设计的中医药大型语言模型 肺纤维化(PF)是一种进行性、不可逆的肺部疾病,现有西医治疗方法存在疗效有限、副作用显著等问题。本文提出了**Taishang Laojun(太上老君)**,首个基于中医药理论的大型语言模型(LLM),专注于肺纤维化的药物设计与诊疗方案优化。通过整合《黄帝内经》、《伤寒杂病论》等经典中医文献、现代临床研究数据以及多模态医学知识图谱,Taishang Laojun深入解析肺纤维化的病机,并提出创新性中药复方与新靶点发现。实验结果表明,该模型在诊疗方案生成准确率和药物靶点预测精度等指标上显著优于现有的中西医结合模型(如**Huatuo-2**、**Med-Gemini**),并成功验证了“益气化瘀通络法”在肺纤维化治疗中的新机制。本研究为中医药智能化和精准医疗提供了范式突破。 肺纤维化的特征为肺泡结构破坏和间质胶原沉积,符合中医“肺痿”与“痰瘀互结”的病理范畴。当前,西医治疗主要依赖糖皮质激素和抗纤维化药物(如尼达尼布),但其存在耐药性高、肝肾毒性等问题。中医药通过多靶点调控展现出独特优势,然而其复杂的辨证逻辑与依赖经验的治疗方式,限制了其标准化推广。 近年来,大型语言模型(LLM)在医学领域的应用(如Baichuan-M1、Med-PaLM、ChatDoctor)已初步验证了其在疾病诊断与药物发现中的潜力,但针对中医药的模型仍面临以下两大挑战: 1. **数据稀缺性**:中医古籍术语晦涩,现代临床数据标注不足; 2. **逻辑复杂性**:需要融合“四诊合参”、“君臣佐使”等辨证论治规则。 Taishang Laojun通过构建**PF-TCM-Corpus**(涵盖12万条肺纤维化相关中医药数据)与动态辨证推理框架,首次实现从“病机-治法-方药”全链条智能化输出,为肺纤维化中西医结合治疗提供新思路。 ### Taishang Laojun架构概述 Taishang Laojun采用基于**Baichuan-M1**的预训练架构,结合中医药知识图谱(CMeKG)与**HQ-GCM-PF-C1**数据集进行深度微调。模型通过全微调、增量微调和**低秩适配(LoRA)**等技术,确保对肺纤维化病机、病理特征及中医药诊疗方法的精准理解。此外,模型集成了分层注意力机制与**实体关系检索增强(ERRE)**,提升了对中医经典文献和现代生物分子数据的推理能力。 该模型架构采用多层次神经网络,能够处理大量文本数据和医学知识图谱。通过多层次的特征提取与语义理解,Taishang Laojun能够准确识别和分析肺纤维化相关症状、病理机制及潜在的药物靶点。具体来说,模型基于**Transformer架构**,结合自注意力机制和位置编码,捕捉文本中的长距离依赖关系和语义信息。此外,集成中医药知识图谱使模型能够理解中医术语和概念。 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65853859ebe2be20807ae0e7/8XDb4WblKzmQmOdLA_JTm.png) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/65853859ebe2be20807ae0e7/2PjRyqcWawsgTftmG3ADI.png)