MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models - researchr publication related

researchr

You are not signed in
Sign in
Sign up

Mianxin Liu, Weiguo Hu, Jinru Ding, Jie Xu, Xiaoyang Li, Lifeng Zhu, Zhian Bai, Xiaoming Shi, Benyou Wang, Haitao Song 0001, Pengfei Liu 0003, Xiaofan Zhang 0002, Shanshan Wang 0002, Kang Li 0004, Haofen Wang, Tong Ruan, Xuanjing Huang 0001, Xin Sun, Shaoting Zhang 0001. MedBench: A Comprehensive, Standardized, and Reliable Benchmarking System for Evaluating Chinese Medical Large Language Models. Big Data Min. Anal., 7(4):1116-1128, 2024. [doi]

The following publications are possibly variants of this publication:

MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language ModelsYan Cai 0001, Linlin Wang, Ye Wang, Gerard de Melo, Ya Zhang, Yanfeng Wang, Liang He. AAAI 2024: 17709-17717 [doi]

Benchmarking Large Language Models on CMExam - A comprehensive Chinese Medical Exam DatasetJunling Liu, Peilin Zhou, Yining Hua, Dading Chong, Zhongyu Tian, Andrew Liu, Helin Wang, Chenyu You, Zhenhua Guo, Lei Zhu, Michael Lingzhi Li. nips 2023: [doi]

LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language ModelsHaitao Li 0006, You Chen, Qingyao Ai, Yueyue Wu, Ruizhe Zhang 0005, Yiqun Liu 0001. nips 2024: [doi]

WenMind: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Classical Literature and Language ArtsJiahuan Cao, Yang Liu, Yongxin Shi, Kai Ding 0009, Lianwen Jin. nips 2024: [doi]

runs on WebDSL