發佈版本通知

追蹤GPTNow的最新進展！我們精心維護的更新日誌，為您呈現產品的不斷創新。

時刻關注這份動態記錄，體驗GPTNow的持續進化。雖然可能未能完全涵蓋所有細節變更，但我們竭誠為您提供最重要、最激動人心的更新資訊。

與GPTNow一同成長，見證人工智能的無限可能！

23-05-2025

更新Claude 4 Sonnet, Opus

Claude 4 是 Anthropic 最強大的模型，也是世界上最優秀的程式設計模型，在 SWE-bench (72.5%) 和 Terminal-bench (43.2%) 等基準測試中都居於領先地位。它能在需要專注努力和數千個步驟的長期任務中保持穩定的表現，可以連續工作數小時——大幅超越所有 Sonnet 模型，並顯著擴展了 AI 代理能夠完成的任務範圍。

Claude 4 在程式設計和複雜問題解決方面表現出色，為前沿代理產品提供動力。Cursor 稱其為程式設計領域的最先進技術，在複雜程式碼庫理解方面取得了重大突破。Replit 報告指出，它在處理跨多個檔案的複雜更改時，準確度有所提高且取得顯著進展。Block 稱其為首個能在其代理（代號為 goose）中提升程式碼編輯和除錯品質的模型，同時保持完整的性能和可靠性。Rakuten 通過一項要求嚴格的開源重構專案驗證了其能力，該專案獨立運行了 7 小時並保持穩定表現。Cognition 指出 Opus 4 在解決其他模型無法處理的複雜挑戰方面表現出色，成功處理了先前模型可能遺漏的關鍵操作。

Claude Sonnet 4 在 Sonnet 3.7 領先業界的功能基礎上有了顯著改進，在程式設計方面表現出色，在 SWE-bench 上達到了 72.7% 的最先進水平。該模型在內部和外部用例中平衡了性能和效率，並增強了可控性以獲得更大的實施控制。儘管在大多數領域無法與 Opus 4 相提並論，但它提供了能力和實用性的最佳組合。

17-04-2025

更新o4-mini, o3

發布了 OpenAI o3 和 o4-mini，這是我們 o 系列模型中最新的產品，經過訓練能在回應前進行更長時間的思考。這些是我們迄今為止發布的最智能的模型，代表了 ChatGPT 能力的重大突破，普通用戶到高級研究人員都能受益。

15-04-2025

更新GPT-4.1

今天，推出三個新模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。這些模型在各方面都優於GPT-4o和GPT-4o mini，在編碼和指令執行方面有重大進展。它們還具有更大的上下文視窗——支援多達100萬個標記的上下文——並且能夠通過改進的長上下文理解能力更好地使用這些上下文。它們的知識截止日期更新至2024年6月。

GPT-4.1在以下行業標準測量中表現出色：

編碼：GPT-4.1在SWE-bench Verified上得分54.6%，比GPT-4o提高了21.4個百分點，比GPT-4.5提高了26.6個百分點——使其成為編碼領域的領先模型。

指令執行：在Scale的MultiChallenge（在新視窗中開啟）基準測試中，這是一項衡量指令執行能力的指標，GPT-4.1得分38.3%，比GPT-4o提高了10.5個百分點。

長上下文：在Video-MME（在新視窗中開啟）上，這是一個多模態長上下文理解的基準，GPT-4.1創造了新的最高水平——在長篇、無字幕類別中得分72.0%，比GPT-4o提高了6.7個百分點。

28-02-2025

更新GPT-4.5 Research Preview

我們很高興宣布加入GPT-4.5 研究預覽版本 - 這是OpenAI 迄今為止規模最大、效能最佳的對話模型。GPT-4.5 在預訓練和後訓練方面都實現了重大突破。

通過擴展無監督學習的規模，GPT-4.5 提升了識別模式、建立關聯以及生成創意洞見的能力，無需依賴推理過程。早期測試顯示，與 GPT-4.5 的互動體驗更加自然流暢。其更廣泛的知識庫、更準確地理解用戶意圖的能力，以及更高的「情商」，使其在改進寫作、程式設計和解決實際問題等任務上發揮更大效用。我們也預期它產生幻覺性內容的機率將大幅降低。

25-02-2025

更新Anthropic Claude 3.7 Sonnet

Claude 3.7 Sonnet 現已在 GPTNow 上線

我們很榮幸地宣布，Claude 3.7 Sonnet 現已正式發布。這是 Anthropic 迄今為止最智能的模型，也是市場上首個混合推理模型。

主要特點：
• 支持即時回應及可視化的逐步思考過程
• API 用戶可精確控制模型的思考時間
• 程式編寫和前端網頁開發能力顯著提升

深度研究 Deep Research

我們很興奮地在GPTNow推出全新的深度研究 Deep Research功能，這是一項突破性的智能代理技術，能夠在網路上進行多步驟研究，解決複雜任務。

它能在幾十分鐘內完成人類需要數小時才能完成的工作。

深度研究是下一代獨立工作的智能代理：只需提供研究主題自動搜索和分析數百個在線資源綜合整理出專業分析師級別的完整報告這項革命性的功能將徹底改變我們進行研究的方式，為您節省寶貴的時間，同時提供深入、全面的分析結果。

01-02-2025

更新OpenAI o3-mini

OpenAI於2024年12月預覽並在今日正式發布全新的o3-mini模型。這是一款專注於推理能力的小型模型，具備以下特點：

在科學、數學和編程領域表現出色
維持較低成本和延遲
首次支持函數調用、結構化輸出等開發者功能
提供三種推理強度選項：低、中、高

與o1-mini相比，o3-mini錯誤率降低39%，性能提升明顯，特別適合STEM領域的應用。

21-01-2025

更新deepseek-reasoner

DeepSeek 推出了第一代推理模型：DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一個通過大規模強化學習（RL）訓練的模型，無需監督式微調（SFT）作為初步步驟，在推理方面展現出卓越的表現。通過強化學習，DeepSeek-R1-Zero自然地產生了許多強大且有趣的推理行為。然而，DeepSeek-R1-Zero面臨著無盡重複、可讀性差以及語言混雜等挑戰。為了解決這些問題並進一步提升推理性能，我們推出了DeepSeek-R1，該模型在強化學習之前加入了冷啟動數據。DeepSeek-R1在數學、程式碼和推理任務方面達到了與OpenAI-o1相當的性能。為了支持研究社群，我們開源了DeepSeek-R1-Zero、DeepSeek-R1，以及基於Llama和Qwen從DeepSeek-R1中提煉出的六個密集模型。其中，DeepSeek-R1-Distill-Qwen-32B在各種基準測試中的表現超越了OpenAI-o1-mini，為密集模型創造了新的最優水平。

20-12-2024

更新gemini-2.0-flash-thinking-exp-1219

Gemini 2.0 閃速思考模式是一個實驗性模型，經過訓練能夠在回應過程中產生模型的「思考過程」。因此，思考模式在回應時具有比基礎 Gemini 2.0 閃速模型更強的推理能力。

04-12-2024

更新AWS Nova Micro, Lite and Pro

21-11-2024

更新gpt-4o-2024-11-20

17-11-2024

更新Google Gemini-Exp-1114

23-10-2024

更新Anthropic Claude 3.5 Sonnet

新版的 Claude 3.5 Sonnet 在業界基準測試中展現全面性的進步，特別在主動式編碼和工具使用任務方面有顯著提升。在編碼方面，它在 SWE-bench Verified 的表現從 33.4% 提升至 49.0%，超越所有公開可用的模型—包括 OpenAI o1-preview 等推理模型和專門設計用於主動式編碼的系統。在 TAU-bench（一項主動式工具使用任務）中，零售領域的表現從 62.6% 提升至 69.2%，在較具挑戰性的航空領域則從 36.0% 提升至 46.0%。新版 Claude 3.5 Sonnet 在維持與前代相同的價格和速度下，提供這些進階功能。

早期客戶反饋顯示，升級後的 Claude 3.5 Sonnet 在 AI 輔助編碼方面取得重大突破。GitLab 在測試該模型的 DevSecOps 任務時發現，它在不增加延遲的情況下提供更強的推理能力（各使用案例提升達 10%），使其成為支援多步驟軟體開發流程的理想選擇。Cognition 使用新版 Claude 3.5 Sonnet 進行自主 AI 評估，在編碼、規劃和問題解決方面相較前版本有顯著改進。The Browser Company 在使用該模型自動化網路工作流程時注意到，Claude 3.5 Sonnet 的表現超越他們之前測試過的所有模型。

作為我們持續與外部專家合作的一部分，新版 Claude 3.5 Sonnet 模型的部署前聯合測試由美國 AI 安全研究所（US AISI）和英國安全研究所（UK AISI）進行。

我們也評估了升級後的 Claude 3.5 Sonnet 的災難性風險，發現我們負責任擴展政策中概述的 ASL-2 標準仍適用於此模型。

Claude 3.5 Haiku 將於本月晚些時候推出

Claude 3.5 Haiku 是我們最快模型的新一代產品。以相同的成本和與 Claude 3 Haiku 相近的速度，Claude 3.5 Haiku 在各項技能上都有所提升，在許多智能基準測試中甚至超越了我們上一代最大的模型 Claude 3 Opus。Claude 3.5 Haiku 在編碼任務上表現特別出色。例如，在 SWE-bench Verified 測試中得分達 40.6%，超越了許多使用公開可用的最先進模型的代理—包括原始的 Claude 3.5 Sonnet 和 GPT-4。

憑藉低延遲、改進的指令執行能力和更準確的工具使用，Claude 3.5 Haiku 非常適合面向用戶的產品、專門的子代理任務，以及從大量數據（如購買歷史、定價或庫存記錄）中生成個性化體驗。

26-09-2024

更新Meta Llama 3.2 Models

Llama 3.2 的 1B 和 3B 模型支援 128K 標記的上下文長度，在同類模型中堪稱最先進，適用於邊緣設備的本地運算場景，如摘要生成、指令執行和重寫任務。

在廣泛生態系統的支持下，Llama 3.2 的 11B 和 90B 視覺模型可直接替代相應的純文字模型，同時在圖像理解任務上優於 Claude 3 Haiku 等封閉模型。

Modality	Category Benchmark	Llama 3.2 11B	Llama 3.2 90B	Claude 3 - Haiku	GPT-4o-mini
Image	College-level Problems and Mathematical Reasoning MMMU (Lab, Cloze CoT, micro avg accuracy)	50.7	60.3	50.2	59.4
	MMMU-Pro, Standard (10 parts, test)	33.0	45.2	27.3	42.3
	MMMU-Pro, Vision (test)	23.7	33.8	20.1	36.5
	MathVista (test/mini)	51.5	57.3	46.4	56.7
	Charts and Diagram Understanding ChartQA (test, 0-shot CoT relaxed accuracy)*	83.4	85.5	81.7	—
	AI2 Diagram (test)*	91.1	92.3	86.7	—
	DocVQA (test, ANLS)*	88.4	90.1	88.8	—
	General Visual Question Answering VQAv2 (test)	75.2	78.1	—	—
Text	General MMLU (5-shot, CoT)	73.0	86.0	75.2 (5-shot)	82.0
	Math MATH (0-shot, CoT)	51.9	68.0	38.9	70.2
	Reasoning GPQA (5-shot, CoT)	32.8	46.7	33.3	40.2
	Multilingual MGSM (5-shot, CoT)	68.9	86.9	75.1	87.0

13-09-2024

更新OpenAI o1-preview, o1-mini

我們很高興地宣布推出全新的 OpenAI o1 系列人工智能模型。這是我們在深度思考型 AI 領域的重大突破，現已在 ChatGPT 和我們的 API 中提供預覽版本。

主要特點：
1. 深度思考能力：o1 模型在回應前會進行更深入的思考和推理，能夠處理更複雜的任務。
2. 卓越的問題解決能力：在科學、編碼和數學等領域表現優異，可解決先前模型無法處理的難題。
3. 顯著的性能提升：在國際數學奧林匹克（IMO）資格考試中，o1 模型的正確率達到 83%，遠超 GPT-4o 的 13%。
4. 編碼實力：在 Codeforces 競賽中達到第 89 百分位。

安全性提升：
- 新型安全訓練方法，大幅提高模型對安全規則的遵守能力。
- 在最嚴格的"越獄"測試中，o1 預覽版得分 84（滿分 100），而 GPT-4o 僅為 22。
- 強化了內部治理和與政府合作的安全措施。

適用場景：
o1 模型特別適合需要複雜推理的任務，如：
- 醫療研究數據分析
- 高等物理學計算
- 多步驟軟件開發流程

未來展望：
這只是 o1 系列的開端，我們將持續更新和改進模型性能。雖然目前還不支持網頁瀏覽和文件上傳等功能，但在複雜推理任務方面已展現出強大實力。

我們誠摯邀請您體驗這一革命性的 AI 模型，並期待收到您的寶貴反饋。

28-08-2024

推出 Artifacts 功能

我們很高興宣布推出 Artifacts，這是一項強大的新功能，旨在提升您的內容創建和管理體驗。

什麼是 Artifacts？
Artifacts 是獨立的重要內容片段，會在主對話框旁的專用視窗中顯示。這項新功能使您更容易處理可能需要修改、擴展或日後參考的重要內容。

主要特點：
1. 專用顯示：Artifacts 會在主聊天視窗右側的新視窗中顯示，方便查看和互動。

2. 版本控制：每次對 Artifact 的編輯都會創建一個新版本，可通過 Artifact 視窗左下角的版本選擇器訪問。

3. 多個 Artifact 管理：使用聊天控制項在一個對話中打開和查看多個 Artifacts。

4. 輕鬆編輯：可要求對 Artifact 內容進行編輯或迭代，這些更改將直接在 Artifact 視窗中更新。

5. 導出選項：查看底層代碼、將內容複製到剪貼板或下載文件以供外部使用。

Artifacts 的類型：
Artifacts 可以包括多種內容類型，例如：
- 文檔（Markdown 或純文本）
- 代碼片段
- 網站（單頁 HTML）
- 可縮放向量圖形（SVG）圖像
- 圖表和流程圖
- 互動式 React 組件

什麼時候會創建 Artifacts？
Artifacts 會為以下類型的內容生成：
- 重要且獨立（通常超過 15 行）
- 可能需要在對話外進行編輯、迭代或重複使用
- 複雜且無需額外上下文即可獨立存在
- 可能用於將來參考

我們相信 Artifacts 將顯著提高您在對話中創建、管理和利用複雜內容的能力。我們期待看到您如何使用這項新功能來提升生產力和創造力。

18-08-2024

OpenAI

更新最新chatgpt-4o-latest, OpenAI 最先進模型

Anthropic

新功能：提示快取

• 提示快取功能現已在 Anthropic API 上推出，使開發人員能夠在 API 呼叫之間快取常用的上下文。

• 此功能允許客戶為 Claude 提供更多背景知識和範例輸出。

• 對於長提示，可將延遲時間減少高達 85%。

使用場景：

1. 對話代理：適用於延長對話，特別是包含長指令或上傳文件的情況。

2. 編碼助手：通過在提示中保留代碼庫的摘要版本，改善自動完成和代碼庫問答功能。

3. 大型文件處理：在不增加回應延遲的情況下，將完整的長篇材料（包括圖像）納入提示中。

4. 詳細指令集：分享廣泛的指令、程序和範例清單，以微調 Claude 的回應。

5. 代理搜索和工具使用：增強涉及多輪工具呼叫和迭代變更的場景性能。

6. 與書籍、論文、文檔、播客文字稿和其他長篇內容互動：將整個文件嵌入提示中，讓用戶能夠提問。

Claude 3.5 Sonnet版本現已可用。

07-08-2024

更新最新gpt-4o-2024-08-06, OpenAI 最新模型