Anthropic Engineering

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

エージェント型コーディング評価におけるインフラノイズの定量化

  • エージェント型コーディング評価において、実行環境の設定がモデルの性能スコアに影響することが示された。
  • 評価ベンチマーク(SWE-bench、Terminal-Bench)のスコア差は、インフラ構成によって数パーセント変動する可能性がある。
  • 読者は、モデル評価の際はリソース設定を考慮し、スコアの解釈に注意することで、より適切なモデル選定や活用に繋げられる。