ChemLLM 介绍
ChemLLM 系列模型是由上海人工智能实验室基于InternLM2 开发的首个兼备化学专业能力和对话、推理等通用能力的开源大模型。相比于现有的其他大模型,ChemLLM 对化学空间进行了有效建模,在分子、反应和其他领域相关的化学任务上表现优异。
上海人工智能实验室 AI for Science 团队基于自建 ChemData 化学专业数据集,在本年初发布的浦科·化学基础上,更新发布了 ChemLLM-1.5 化学大模型,并在新构建的 ChemBench 测评数据集上进行了全面的测评。更新后,ChemLLM 在核心化学任务上的效果与 GPT-4 相当,而在通用任务上与尺寸相近的语言模型难分伯仲。
科学大语言模型的机遇与挑战
大型语言模型已在图像处理、文字识别、视频制作等多个领域展现出卓越的能力,并已成功应用于化学研究,为科学研究和生产提供支持。目前的研究主要依赖于大型语言模型调用专业化学工具来解决具体的化学问题。然而,直接将化学知识集成到语言模型中,仍然存在以下挑战:
结构化数据的限制: 大多数化学信息和知识存储在结构化数据库中,直接使用这些数据训练 LLM 可能会损害模型处理自然语言的能力,使得模型的对话和逻辑推理能力发生退化; 特殊的化学信息学表示: 化学信息学中,分子用特殊符号表示,如 SMILES。这类数据往往不符合自然语言的规范,因此常规的语言模型难以正确理解和生成这种符号; 化学数据和任务的多样性: 化学数据和任务种类繁多,设计一个灵活并能泛化到多种化学任务上的训练流程十分困难。
ChemLLM 的技术核心
为解决上述困难,研究人员采用两阶段指令微调框架对模型进行训练。第一阶段中,研究人员使用开源的 Multi-Corpus 通用语料数据集进行指令微调,赋予 InternLM2-base 的基座模型以通用语言能力;第二阶段中,研究人员将构造的 ChemData 专业数据集与部分通用语料数据集混合对模型进行二次指令微调,在保有模型通用语言、推理能力不受损害的前提下,注入化学知识。
经过两个阶段的训练,模型的通用能力被激发并保留,同时 ChemLLM 有效地建模了化学空间,具有解决复杂的化学问题的潜力。
ChemLLM 能力测评
研究人员运用构建的 ChemBench 测评数据集,在在分子名称转换、分子描述、分子性质预测、分子生成、化学反应产物预测、产率预测、逆合成分析、溶剂预测、温度预测共九大专业化学任务上测试了 ChemLLM。同时选取了 LLaMA2-7B、Mistral-7B、ChatGLM3-6B、Owen-7B、InterLM2-chat-7B,共五个规模相近的语言大模型,和超大通用语言模型 GPT-3.5和 GPT-4,与 ChemLLM进行了比较。
在所有九个化学任务中,ChemLLM显著地超越了五个同规模大模型和通用超大模型 GPT-3.5,在基于文本的分子生成、名称转换、性质预测、温度预测、产率预测、逆合成分析六个任务上能够媲美于 GPT-4,证明了 ChemLLM对化学空间的有效学习。
研究人员也采集并开源了中高考化学测试数据集,连同其他三个公开通用评测数据集上一起,对上述大模型进行了通用知识评测。这四个数据集的测试内容包括中英文多学科认知性知识测试、数学推理能力测试、基础化学能力等,全面考察模型的综合认知和逻辑推理。结果证明,ChemLLM的通用能力达到主流大语言模型水平。
|