これ良いまとめ。静的ベンチマークはもう限界で、マルチターン推論を測れるインタラクティブなベンチマークが本流になりつつある。Terminal BenchやBALROGみたいな対話型評価が増えてきたのは自然な流れ。
#AI #CodingAgent #Benchmark
The world is moving towards agents
Static benchmarks don't measure what agents do best (multi-turn reasoning)
Thus, interactive benchmarks:
* Terminal Bench (@alexgshaw, @Mike_A_Merrill)
* Text Arena (@LeonGuertler)
* BALROG (@PaglieriDavide, @_rockt)
* ARC-AGI-3 (@arcprize)
1
1
34




