AI評価指標(Evals)の限界と活用法|Cline事例 | CITEC