Anthropic Engineering

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

Anthropic Engineering

プロダクト全体でClaudeを制御する方法

エージェントAIの安全な運用に向けた設計と失敗事例を共有
サンドボックスやVMによる「行動範囲の制限」が最も効果的な防御策
承認疲れや許可済みドメイン経由の情報漏洩など、設計の盲点を具体的に学べる

Anthropic Engineering

最近のClaude Codeの品質レポートに関するアップデート

Claude Codeの品質低下を引き起こした3つのバグを特定・修正した
推論設定の変更、思考履歴の欠落バグ、冗長性抑制プロンプトが原因だった
再発防止のためeval強化・段階的リリース・コードレビュー改善を実施する

Anthropic Engineering

エージェント型コーディング評価におけるインフラノイズの定量化

エージェント型コーディング評価において、実行環境の設定がモデルの性能スコアに影響することが示された。
評価ベンチマーク（SWE-bench、Terminal-Bench）のスコア差は、インフラ構成によって数パーセント変動する可能性がある。
読者は、モデル評価の際はリソース設定を考慮し、スコアの解釈に注意することで、より適切なモデル選定や活用に繋げられる。