向阳乔木 0 关注者 关注 7小时前 感觉现在已经不知道怎么评测大模型了。 专业有专业的评测数据集,普通人用大模型普遍用的很浅。 挖空心思找到相对实用场景的 aha-moment太难了。 大家拿到新模型一般会怎么测啊? 前往原网页查看