本文全文数据截至 2020 年 3 月 4 日。

我现在逐渐感觉我自己的评分标准简直乱七八糟,所以还不如自己给自己定个规矩,或者说,省得自己之后看不懂。

MoeImp AVG/Gal 部门的评分细则从 2 月初开始就一改再改,到现在(20/03/04)已经是两套体系四个分数,但是核心部分都是不变的,如下:

对于单线:印象分(满分 10.0)、趣味性与情感(满分 0.8)、人物刻画与剧情表现(满分 1.0)、人物设定(满分 0.7,包括声音和作画)、剧情深度等杂项(不包含在满分内,作为加分项),合计满分 12.5;
对于整作:对各条线路作加权平均,在此基础上根据系统和音乐进行加分(不包含在满分内,但一般不会超过分别 -0.3~+0.5 范围),对于 MoeImp 和 MoeImp-v2 线路加权平均直接使用 12.5 满分的机制,对于 MoeImp-N 和 MoeImp-N2 则使用加权平均 ×0.8 实现标准化到 10 分满分。

从这个标准可以看出,我对一条线的印象分占比在整条线评分的 80%,基本算是以印象定下基调。在此基础上,如果作品有趣或者说令人感动,则会获得额外的加分。人物性格刻画和剧情表现在一般的平均制打分系统(典型的比如说 Hakula 站 这种)其实应该是作为重要分项占据相当的比重的,但是考虑到这两个要素很大程度上影响了印象分本身,所以并没有给特别高的比重。人物声优表现和作画等也是同样的道理。至于没有给剧情深度以打分范围,主要是因为并不是所有的剧情都想讲一个有深度的故事,这个也不必强求。

最开始的时候就是按照这样的方式进行打分,但是问题逐渐开始显现。一方面第一作 Making*Lovers 的可憐和レイナ两条线印象分分别给出的 9.5 和 8.5 很大程度上作为上限和下限锁死了印象分的给分范围,能够超过 9.5 印象分的寥寥无几,低于 8.5 的一个也没有,而实际上印象分小于 9.0 的就算是印象比较差的了,但是这种差距可以通过加分项轻易弥补,良作和一般甚至有点差的作品分数拉不开;另一方面 White Album 2 的雪菜 TE 直接超过了 12.5 分满分,考虑到之后有可能还要继续推一些剧情向高质量作品(据说 CLANNAD 算一个),全员 12.5+ 也不是个办法,所以必须要想个办法(虽然 White Album 2 的剧情质量和口碑基本都是业界天花板,用来做上限也不错)

这个办法就是:调整印象分。新的印象分为原来印象分的函数,采用公式 f(x)=IF(x>9,2.5\*x-15,MAX(5\*x-37.5,0)) (采用了 Excel 的公式语法),也即 f(10.0)=10.0, f(9.0)=7.5, f(8.5)=5.0, f(7.5)=0.0 作为关键点中间以直线连接,这就是 MoeImp-v2。这样的方式算是拉开了一定的差距,虽然说带来了新的问题:这个分数实际上偏低。

(20/03/09 更新:通过调整 Magic Number 我觉得基本上解决了这个问题。新的公式为 =IF(x>9,2*x-10,MAX(6*x-46,0)) 也即 f(10.0)=10.0, f(9.0)=8.0, f(8.5)=5.0, f(7.67)=0.0)

我大概看了一眼,将各条线的调整后的印象分和 v2 的单线评分 ×0.8 得到的 10 分满分的分数做对比,会发现目前为止只有两条线的印象分是比最终得分低的(也就是分数真的加了上去),剩下的实际上都是被减分了,因为加分项很难加到 2.5 分满分的 80%。虽然说大部分线路的分数都在满分的 65.0%~84.9% 之间也即是「7-8 分」,但是还是感觉有点过头了(不过倒也差不多就是了)。(20/03/09 更新:其实更大的问题是这样操作很难给出 SS 及以上的高分,因为需要加分项也基本拉满。)

顺便一提,这两条线分别是宁宁 Restart 和雪菜 TE,单线分分别是 12.0 (v2 11.4→11.6) 和 12.6 (v2 12.5)。

更严重的问题在于作品总体评分。采用的看似是「所有线路加权平均」的设计,看似权重可以随意更改,但是实际上一般都是主线完全平均,支线完全平均,单条主线和单条支线的权重比为 3:1 左右。仅有的例外是宁宁 Restart 线因为篇幅较长的原因直接给了全作 50% 的权重。但是平均制这种看似合理的方式带来了其他的问题。依旧是以 Making*Lovers 为例,MoeImp-N2 7.01 分,乍一看就是 7 分作中位水平。但是其中有一条线有准 9 分水准,其他线不差的话 8 分作还是算得上的,但是有一条线按 v2 标准 4.6 分,一下子就拖下了将近 1 分降到 7 分中位了。但是即便如此我愿意称之为一部比较优秀的作品,并且给了一定要玩的 tag,因为确实值得一玩。

我在思考一个很难办的问题:是否要增大优秀线路的比重而削弱较差线路的比重?如果要的话,怎么调整?

我没有答案。

(20/03/09 更新:已经试行非平均权重)



那么为什么不直接采用平均制打分?主要有以下几个原因。一个是部分萌作根本说不上有什么明确的剧情,相比之下日常的部分更多。就像你很难去说点兔的剧情主线怎么样,因为所有的剧情都服务于情感线,有一点单元剧的感觉。这种时候去打剧情分感觉不太妥当。另一方面不管作品怎样优秀,给玩家带来良好的游玩体验才是最根本的标准。也就是说,游玩体验本身应该作为重要的评判标准占较大比重。游玩体验(也就是印象分)事实上也是和之后的各个加分项影响密切,所以其他要素比重实际上并不太低。整体上我还是觉得这个体系是可行的,但是微小调整每天都在发生。