21-11-2024
更新gpt-4o-2024-11-20
17-11-2024
更新Google Gemini-Exp-1114
23-10-2024
更新Anthropic Claude 3.5 Sonnet
新版的 Claude 3.5 Sonnet 在業界基準測試中展現全面性的進步,特別在主動式編碼和工具使用任務方面有顯著提升。在編碼方面,它在 SWE-bench Verified 的表現從 33.4% 提升至 49.0%,超越所有公開可用的模型—包括 OpenAI o1-preview 等推理模型和專門設計用於主動式編碼的系統。在 TAU-bench(一項主動式工具使用任務)中,零售領域的表現從 62.6% 提升至 69.2%,在較具挑戰性的航空領域則從 36.0% 提升至 46.0%。新版 Claude 3.5 Sonnet 在維持與前代相同的價格和速度下,提供這些進階功能。
早期客戶反饋顯示,升級後的 Claude 3.5 Sonnet 在 AI 輔助編碼方面取得重大突破。GitLab 在測試該模型的 DevSecOps 任務時發現,它在不增加延遲的情況下提供更強的推理能力(各使用案例提升達 10%),使其成為支援多步驟軟體開發流程的理想選擇。Cognition 使用新版 Claude 3.5 Sonnet 進行自主 AI 評估,在編碼、規劃和問題解決方面相較前版本有顯著改進。The Browser Company 在使用該模型自動化網路工作流程時注意到,Claude 3.5 Sonnet 的表現超越他們之前測試過的所有模型。
作為我們持續與外部專家合作的一部分,新版 Claude 3.5 Sonnet 模型的部署前聯合測試由美國 AI 安全研究所(US AISI)和英國安全研究所(UK AISI)進行。
我們也評估了升級後的 Claude 3.5 Sonnet 的災難性風險,發現我們負責任擴展政策中概述的 ASL-2 標準仍適用於此模型。
Claude 3.5 Haiku 將於本月晚些時候推出
Claude 3.5 Haiku 是我們最快模型的新一代產品。以相同的成本和與 Claude 3 Haiku 相近的速度,Claude 3.5 Haiku 在各項技能上都有所提升,在許多智能基準測試中甚至超越了我們上一代最大的模型 Claude 3 Opus。Claude 3.5 Haiku 在編碼任務上表現特別出色。例如,在 SWE-bench Verified 測試中得分達 40.6%,超越了許多使用公開可用的最先進模型的代理—包括原始的 Claude 3.5 Sonnet 和 GPT-4。
憑藉低延遲、改進的指令執行能力和更準確的工具使用,Claude 3.5 Haiku 非常適合面向用戶的產品、專門的子代理任務,以及從大量數據(如購買歷史、定價或庫存記錄)中生成個性化體驗。