Anthropic Engineering

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

Anthropic Engineering

プロダクト全体でClaudeを制御する方法

  • エージェントAIの安全な運用に向けた設計と失敗事例を共有
  • サンドボックスやVMによる「行動範囲の制限」が最も効果的な防御策
  • 承認疲れや許可済みドメイン経由の情報漏洩など、設計の盲点を具体的に学べる
Anthropic Engineering

最近のClaude Codeの品質レポートに関するアップデート

  • Claude Codeの品質低下を引き起こした3つのバグを特定・修正した
  • 推論設定の変更、思考履歴の欠落バグ、冗長性抑制プロンプトが原因だった
  • 再発防止のためeval強化・段階的リリース・コードレビュー改善を実施する
Anthropic Engineering

エージェント型コーディング評価におけるインフラノイズの定量化

  • エージェント型コーディング評価において、実行環境の設定がモデルの性能スコアに影響することが示された。
  • 評価ベンチマーク(SWE-bench、Terminal-Bench)のスコア差は、インフラ構成によって数パーセント変動する可能性がある。
  • 読者は、モデル評価の際はリソース設定を考慮し、スコアの解釈に注意することで、より適切なモデル選定や活用に繋げられる。