8月27日,智慧芽宣布开放“生物医药大模型评测数据集”,旨在全面评估生物医药领域的大模型在药物研发、临床试验等专业场景中的问答能力,为生物医药大模型的蓬勃发展提供强有力的技术支撑和保障,助推行业打破医药研发的“三十魔咒”。
智慧芽“生物医药大模型评测数据集”基于通用评估标准,并结合医药领域中生物医药研发、临床试验与循证医学、药政与准入、生物序列与化学结构等真实业务场景,以及综合能力考试,构建了3500个高质量问答对,以准确评测大模型的问答能力。目前,该数据集中的核心问答对已正式向业界开放。
智慧芽技术副总裁屠昶旸表示:“评测数据集是检验大模型应用能力的试金石。智慧芽构建评测数据集,不仅是为了给自研的垂直领域大模型提供科学、严谨的优化方向,确保其在专业领域中的卓越表现,更是希望通过向全行业开放这一评测基准,助力推动AI大模型在医药领域的深度应用,提升信息获取分析效率,最终加速药物研发进程。”
构建3500个问答对,紧贴生物医药专业场景
鉴于生物医药领域研发专业性强、数据量大、准确性要求高等特点,通用大模型难以完全满足其应用需求,因此市场上涌现了众多专注于生物医药领域的大模型。然而,现有的评测方法主要关注医药知识问答和对话生成任务的性能,忽视了关系提取、信息检索等关键能力的评估。这不仅影响了开发人员对大模型性能的准确评估,也限制了大模型在药物研发关键环节中的实际应用。
为应对这一行业挑战,智慧芽构建了“生物医药大模型评测数据集”,致力于为生物医药领域大模型的研发和应用提供全新的标准化评测基准。它不仅考察大模型对生物医药知识的掌握程度,更注重其在实际业务场景中的应用能力,有效弥补了现有评测基准未能覆盖医药研发实践中真实业务挑战的不足。智慧芽诚挚邀请各大模型开发团队利用该评测数据集来全面评估模型能力。
图:智慧芽生物医药大模型评测数据集题目示意
智慧芽邀请十余位从事生物医药产品测试检验的资深专家参与构建本评测数据集,从该领域的专利文献、论文文献、新闻资讯及领域专家的文章等内容中提取问答对或者自主构建相关的问题,以生成具有标准期望答案的问答对。随后,多名生物医药领域专家进行交叉复审,最终形成了涵盖药物研发、临床试验等专业场景的3500条高质量问答对,全面考察大模型应对前沿知识和解决实际难题的能力。
图:智慧芽大模型评测数据集构建方法
生物医药领域大模型的开发人员可借助该数据集,对其模型在专业场景中的问答能力进行综合评估,了解其在不同任务中的表现,并以此为依据不断改进模型,提升性能。经"智慧芽生物医药评测数据集"评估的大模型,有望显著加速新药研发和临床试验进程,提高生物医药研究的效率和准确性,进而降低研发成本,推动医疗健康行业的整体发展。
智慧芽生物医药大模型,专业能力超越通用大模型
根据“生物医药大模型评测数据集”评测结果显示,“智慧芽生物医药大模型”达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平,专业能力比肩人类专家,并在考试能力、机器翻译、分类能力等多个维度上整体优于商业通用大模型。
图:智慧芽生物医药大模型评测结果
“智慧芽生物医药大模型”基于融合命名实体识别(NER)、化学式图像识别技术以及医药知识图谱等尖端算法,构建了全面的数据处理框架,通过知识增强和行业逻辑的结合,有效解决了信息"幻觉"问题,确保了信息的准确性和合规性。此外,在训练过程中,“智慧芽生物医药大模型”的预训练数据中整合了1600万+医药专利、1000万+生命科学论文、100万+行业新闻、20万+临床试验数据、5万+医药政策文件等数据,为其强大的专业能力奠定了数据基础。
展望未来,智慧芽将开放更多大模型评测数据集,与业界共享研究成果,同时也诚邀各行业专家参与垂直领域大模型的开发应用,共同推动AI赋能科技创新的发展。