エージェント型コーディング評価におけるインフラノイズの定量化エージェント型コーディング評価において、実行環境の設定がモデルの性能スコアに影響することが示された。評価ベンチマーク(SWE-bench、Terminal-Bench)のスコア差は、インフラ構成によって数パーセント変動する可能性がある。読者は、モデル評価の際はリソース設定を考慮し、スコアの解釈に注意することで、より適切なモデル選定や活用に繋げられる。2026-02-06Anthropic Engineering