FlagEval
北京智源人工智能研究院推出的大模型评测体系及开放平台
PubMedQA是一个创新的生物医学领域问答数据集,其内容全部源自PubMed数据库的学术摘要。该数据集的核心任务是:通过阅读给定的研究摘要,来回答一个相关的生物医学研究问题,并且答案通常限定为“是”、“否”或“可能”。
该数据集规模庞大,旨在推动机器对生物医学文本的理解与推理。其具体构成如下:
为了确保任务的明确性和可评估性,PubMedQA中的每一个样本都包含四个关键部分:
PubMedQA是首个要求对生物医学研究文本进行深度推理,特别是量化内容推理的QA数据集。这为自然语言处理在专业领域的应用设立了新的标杆。
目前,基于BioBERT模型并结合多阶段微调的最佳系统,准确率达到68.1%。然而,这与人类专家78.0%的准确率仍有差距,也远高于55.2%的简单基线模型。这表明该领域存在巨大的研究和改进空间。
PubMed数据集已公开可用,为全球研究人员提供了宝贵的资源。