MMLU2(Massive Multitask Language Understanding 2)是MMLU基准测试的升级版本,旨在全面评估语言模型的多任务理解和推理能力。它涵盖STEM、人文、社科等57个学科领域,包含约15,000道高质量选择题,难度更高、范围更广,并新增对抗性样本以检验模型鲁棒性。MMLU2通过细粒度领域划分和平衡的数据分布,更精准衡量模型的知识广度和跨学科泛化能力,尤其关注零样本和少样本学习下的表现。该基准已成为衡量AI系统综合性能的重要标准,推动语言模型向更深入、更可靠的认知智能发展。
立即下载