最近のClaude Codeの品質レポートに関するアップデートClaude Codeの品質低下を引き起こした3つのバグを特定・修正した推論設定の変更、思考履歴の欠落バグ、冗長性抑制プロンプトが原因だった再発防止のためeval強化・段階的リリース・コードレビュー改善を実施する2026-04-25Anthropic Engineering
エージェント型コーディング評価におけるインフラノイズの定量化エージェント型コーディング評価において、実行環境の設定がモデルの性能スコアに影響することが示された。評価ベンチマーク(SWE-bench、Terminal-Bench)のスコア差は、インフラ構成によって数パーセント変動する可能性がある。読者は、モデル評価の際はリソース設定を考慮し、スコアの解釈に注意することで、より適切なモデル選定や活用に繋げられる。2026-02-06Anthropic Engineering