LOADING
中国首个面向企业场景的人工智能大模型。
由前搜狗公司CEO王小川创立,构建中国最优秀的大模型底座。
一个基于人工智能技术的模型开源社区
全方位的多模态大模型能力评测体系
斯坦福大学推出的大模型评测体系
大规模多任务语言理解基准
FlagEval 是智源研究院推出的大模型评测平台
Open LLM Leaderboard 是 Hugging Face 推出的一个开源大模型排行榜单
H2O EvalGPT 是由 H2O.ai 推出的一款基于 Elo 评级方法的大模型评估系统
LLMEval3是由复旦大学NLP实验室推出的大模型评测基准。
C-Eval 是一个全面的中文基础模型评估套件。
PubMedQA是一个用于生物医学研究问题回答的数据集。
OpenCompass是上海人工智能实验室开源的大模型评测平台。
SuperCLUE是中文通用大模型综合性评测基准。