發佈版本通知

追蹤GPTNow的最新進展!我們精心維護的更新日誌,為您呈現產品的不斷創新。

時刻關注這份動態記錄,體驗GPTNow的持續進化。雖然可能未能完全涵蓋所有細節變更,但我們竭誠為您提供最重要、最激動人心的更新資訊。

與GPTNow一同成長,見證人工智能的無限可能!

21-11-2024

更新gpt-4o-2024-11-20

17-11-2024

更新Google Gemini-Exp-1114

23-10-2024

更新Anthropic Claude 3.5 Sonnet

Sonnet 3.5 update 22
新版的 Claude 3.5 Sonnet 在業界基準測試中展現全面性的進步,特別在主動式編碼和工具使用任務方面有顯著提升。在編碼方面,它在 SWE-bench Verified 的表現從 33.4% 提升至 49.0%,超越所有公開可用的模型—包括 OpenAI o1-preview 等推理模型和專門設計用於主動式編碼的系統。在 TAU-bench(一項主動式工具使用任務)中,零售領域的表現從 62.6% 提升至 69.2%,在較具挑戰性的航空領域則從 36.0% 提升至 46.0%。新版 Claude 3.5 Sonnet 在維持與前代相同的價格和速度下,提供這些進階功能。

早期客戶反饋顯示,升級後的 Claude 3.5 Sonnet 在 AI 輔助編碼方面取得重大突破。GitLab 在測試該模型的 DevSecOps 任務時發現,它在不增加延遲的情況下提供更強的推理能力(各使用案例提升達 10%),使其成為支援多步驟軟體開發流程的理想選擇。Cognition 使用新版 Claude 3.5 Sonnet 進行自主 AI 評估,在編碼、規劃和問題解決方面相較前版本有顯著改進。The Browser Company 在使用該模型自動化網路工作流程時注意到,Claude 3.5 Sonnet 的表現超越他們之前測試過的所有模型。

作為我們持續與外部專家合作的一部分,新版 Claude 3.5 Sonnet 模型的部署前聯合測試由美國 AI 安全研究所(US AISI)和英國安全研究所(UK AISI)進行。

我們也評估了升級後的 Claude 3.5 Sonnet 的災難性風險,發現我們負責任擴展政策中概述的 ASL-2 標準仍適用於此模型。

Claude 3.5 Haiku 將於本月晚些時候推出

Claude 3.5 Haiku 是我們最快模型的新一代產品。以相同的成本和與 Claude 3 Haiku 相近的速度,Claude 3.5 Haiku 在各項技能上都有所提升,在許多智能基準測試中甚至超越了我們上一代最大的模型 Claude 3 Opus。Claude 3.5 Haiku 在編碼任務上表現特別出色。例如,在 SWE-bench Verified 測試中得分達 40.6%,超越了許多使用公開可用的最先進模型的代理—包括原始的 Claude 3.5 Sonnet 和 GPT-4。

憑藉低延遲、改進的指令執行能力和更準確的工具使用,Claude 3.5 Haiku 非常適合面向用戶的產品、專門的子代理任務,以及從大量數據(如購買歷史、定價或庫存記錄)中生成個性化體驗。

26-09-2024

更新Meta Llama 3.2 Models

Llama 3.2 的 1B 和 3B 模型支援 128K 標記的上下文長度,在同類模型中堪稱最先進,適用於邊緣設備的本地運算場景,如摘要生成、指令執行和重寫任務。

在廣泛生態系統的支持下,Llama 3.2 的 11B 和 90B 視覺模型可直接替代相應的純文字模型,同時在圖像理解任務上優於 Claude 3 Haiku 等封閉模型。

Modality Category
Benchmark
Llama 3.2 11B Llama 3.2 90B Claude 3 - Haiku GPT-4o-mini
Image College-level Problems and Mathematical Reasoning
MMMU (Lab, Cloze CoT, micro avg accuracy)
50.7 60.3 50.2 59.4
MMMU-Pro, Standard (10 parts, test) 33.0 45.2 27.3 42.3
MMMU-Pro, Vision (test) 23.7 33.8 20.1 36.5
MathVista (test/mini) 51.5 57.3 46.4 56.7
Charts and Diagram Understanding
ChartQA (test, 0-shot CoT relaxed accuracy)*
83.4 85.5 81.7
AI2 Diagram (test)* 91.1 92.3 86.7
DocVQA (test, ANLS)* 88.4 90.1 88.8
General Visual Question Answering
VQAv2 (test)
75.2 78.1
Text General
MMLU (5-shot, CoT)
73.0 86.0 75.2
(5-shot)
82.0
Math
MATH (0-shot, CoT)
51.9 68.0 38.9 70.2
Reasoning
GPQA (5-shot, CoT)
32.8 46.7 33.3 40.2
Multilingual
MGSM (5-shot, CoT)
68.9 86.9 75.1 87.0

13-09-2024

更新OpenAI o1-preview, o1-mini

我們很高興地宣布推出全新的 OpenAI o1 系列人工智能模型。這是我們在深度思考型 AI 領域的重大突破,現已在 ChatGPT 和我們的 API 中提供預覽版本。

主要特點:
1. 深度思考能力:o1 模型在回應前會進行更深入的思考和推理,能夠處理更複雜的任務。
2. 卓越的問題解決能力:在科學、編碼和數學等領域表現優異,可解決先前模型無法處理的難題。
3. 顯著的性能提升:在國際數學奧林匹克(IMO)資格考試中,o1 模型的正確率達到 83%,遠超 GPT-4o 的 13%。
4. 編碼實力:在 Codeforces 競賽中達到第 89 百分位。

安全性提升:
- 新型安全訓練方法,大幅提高模型對安全規則的遵守能力。
- 在最嚴格的"越獄"測試中,o1 預覽版得分 84(滿分 100),而 GPT-4o 僅為 22。
- 強化了內部治理和與政府合作的安全措施。

適用場景:
o1 模型特別適合需要複雜推理的任務,如:
- 醫療研究數據分析
- 高等物理學計算
- 多步驟軟件開發流程

未來展望:
這只是 o1 系列的開端,我們將持續更新和改進模型性能。雖然目前還不支持網頁瀏覽和文件上傳等功能,但在複雜推理任務方面已展現出強大實力。

我們誠摯邀請您體驗這一革命性的 AI 模型,並期待收到您的寶貴反饋。

28-08-2024

推出 Artifacts 功能

我們很高興宣布推出 Artifacts,這是一項強大的新功能,旨在提升您的內容創建和管理體驗。

什麼是 Artifacts?
Artifacts 是獨立的重要內容片段,會在主對話框旁的專用視窗中顯示。這項新功能使您更容易處理可能需要修改、擴展或日後參考的重要內容。

主要特點:
1. 專用顯示:Artifacts 會在主聊天視窗右側的新視窗中顯示,方便查看和互動。

2. 版本控制:每次對 Artifact 的編輯都會創建一個新版本,可通過 Artifact 視窗左下角的版本選擇器訪問。

3. 多個 Artifact 管理:使用聊天控制項在一個對話中打開和查看多個 Artifacts。

4. 輕鬆編輯:可要求對 Artifact 內容進行編輯或迭代,這些更改將直接在 Artifact 視窗中更新。

5. 導出選項:查看底層代碼、將內容複製到剪貼板或下載文件以供外部使用。

Artifacts 的類型:
Artifacts 可以包括多種內容類型,例如:
- 文檔(Markdown 或純文本)
- 代碼片段
- 網站(單頁 HTML)
- 可縮放向量圖形(SVG)圖像
- 圖表和流程圖
- 互動式 React 組件

什麼時候會創建 Artifacts?
Artifacts 會為以下類型的內容生成:
- 重要且獨立(通常超過 15 行)
- 可能需要在對話外進行編輯、迭代或重複使用
- 複雜且無需額外上下文即可獨立存在
- 可能用於將來參考

我們相信 Artifacts 將顯著提高您在對話中創建、管理和利用複雜內容的能力。我們期待看到您如何使用這項新功能來提升生產力和創造力。

18-08-2024

OpenAI

更新最新chatgpt-4o-latest, OpenAI 最先進模型

Anthropic

新功能:提示快取

• 提示快取功能現已在 Anthropic API 上推出,使開發人員能夠在 API 呼叫之間快取常用的上下文。

• 此功能允許客戶為 Claude 提供更多背景知識和範例輸出。

• 對於長提示,可將延遲時間減少高達 85%。

使用場景:

1. 對話代理:適用於延長對話,特別是包含長指令或上傳文件的情況。

2. 編碼助手:通過在提示中保留代碼庫的摘要版本,改善自動完成和代碼庫問答功能。

3. 大型文件處理:在不增加回應延遲的情況下,將完整的長篇材料(包括圖像)納入提示中。

4. 詳細指令集:分享廣泛的指令、程序和範例清單,以微調 Claude 的回應。

5. 代理搜索和工具使用:增強涉及多輪工具呼叫和迭代變更的場景性能。

6. 與書籍、論文、文檔、播客文字稿和其他長篇內容互動:將整個文件嵌入提示中,讓用戶能夠提問。

Claude 3.5 Sonnet版本現已可用。

07-08-2024

更新最新gpt-4o-2024-08-06, OpenAI 最新模型