發佈版本通知
追蹤GPTNow的最新進展!我們精心維護的更新日誌,為您呈現產品的不斷創新。
時刻關注這份動態記錄,體驗GPTNow的持續進化。雖然可能未能完全涵蓋所有細節變更,但我們竭誠為您提供最重要、最激動人心的更新資訊。
與GPTNow一同成長,見證人工智能的無限可能!
26-09-2024
更新Meta Llama 3.2 Models
Llama 3.2 的 1B 和 3B 模型支援 128K 標記的上下文長度,在同類模型中堪稱最先進,適用於邊緣設備的本地運算場景,如摘要生成、指令執行和重寫任務。
在廣泛生態系統的支持下,Llama 3.2 的 11B 和 90B 視覺模型可直接替代相應的純文字模型,同時在圖像理解任務上優於 Claude 3 Haiku 等封閉模型。
Modality | Category Benchmark |
Llama 3.2 11B | Llama 3.2 90B | Claude 3 - Haiku | GPT-4o-mini |
---|---|---|---|---|---|
Image | College-level Problems and Mathematical Reasoning MMMU (Lab, Cloze CoT, micro avg accuracy) |
50.7 | 60.3 | 50.2 | 59.4 |
MMMU-Pro, Standard (10 parts, test) | 33.0 | 45.2 | 27.3 | 42.3 | |
MMMU-Pro, Vision (test) | 23.7 | 33.8 | 20.1 | 36.5 | |
MathVista (test/mini) | 51.5 | 57.3 | 46.4 | 56.7 | |
Charts and Diagram Understanding ChartQA (test, 0-shot CoT relaxed accuracy)* |
83.4 | 85.5 | 81.7 | — | |
AI2 Diagram (test)* | 91.1 | 92.3 | 86.7 | — | |
DocVQA (test, ANLS)* | 88.4 | 90.1 | 88.8 | — | |
General Visual Question Answering VQAv2 (test) |
75.2 | 78.1 | — | — | |
Text | General MMLU (5-shot, CoT) |
73.0 | 86.0 | 75.2 (5-shot) |
82.0 |
Math MATH (0-shot, CoT) |
51.9 | 68.0 | 38.9 | 70.2 | |
Reasoning GPQA (5-shot, CoT) |
32.8 | 46.7 | 33.3 | 40.2 | |
Multilingual MGSM (5-shot, CoT) |
68.9 | 86.9 | 75.1 | 87.0 |
13-09-2024
更新OpenAI o1-preview, o1-mini
我們很高興地宣布推出全新的 OpenAI o1 系列人工智能模型。這是我們在深度思考型 AI 領域的重大突破,現已在 ChatGPT 和我們的 API 中提供預覽版本。
主要特點:
1. 深度思考能力:o1 模型在回應前會進行更深入的思考和推理,能夠處理更複雜的任務。
2. 卓越的問題解決能力:在科學、編碼和數學等領域表現優異,可解決先前模型無法處理的難題。
3. 顯著的性能提升:在國際數學奧林匹克(IMO)資格考試中,o1 模型的正確率達到 83%,遠超 GPT-4o 的 13%。
4. 編碼實力:在 Codeforces 競賽中達到第 89 百分位。
安全性提升:
- 新型安全訓練方法,大幅提高模型對安全規則的遵守能力。
- 在最嚴格的"越獄"測試中,o1 預覽版得分 84(滿分 100),而 GPT-4o 僅為 22。
- 強化了內部治理和與政府合作的安全措施。
適用場景:
o1 模型特別適合需要複雜推理的任務,如:
- 醫療研究數據分析
- 高等物理學計算
- 多步驟軟件開發流程
未來展望:
這只是 o1 系列的開端,我們將持續更新和改進模型性能。雖然目前還不支持網頁瀏覽和文件上傳等功能,但在複雜推理任務方面已展現出強大實力。
我們誠摯邀請您體驗這一革命性的 AI 模型,並期待收到您的寶貴反饋。
28-08-2024
推出 Artifacts 功能
我們很高興宣布推出 Artifacts,這是一項強大的新功能,旨在提升您的內容創建和管理體驗。
什麼是 Artifacts?
Artifacts 是獨立的重要內容片段,會在主對話框旁的專用視窗中顯示。這項新功能使您更容易處理可能需要修改、擴展或日後參考的重要內容。
主要特點:
1. 專用顯示:Artifacts 會在主聊天視窗右側的新視窗中顯示,方便查看和互動。
2. 版本控制:每次對 Artifact 的編輯都會創建一個新版本,可通過 Artifact 視窗左下角的版本選擇器訪問。
3. 多個 Artifact 管理:使用聊天控制項在一個對話中打開和查看多個 Artifacts。
4. 輕鬆編輯:可要求對 Artifact 內容進行編輯或迭代,這些更改將直接在 Artifact 視窗中更新。
5. 導出選項:查看底層代碼、將內容複製到剪貼板或下載文件以供外部使用。
Artifacts 的類型:
Artifacts 可以包括多種內容類型,例如:
- 文檔(Markdown 或純文本)
- 代碼片段
- 網站(單頁 HTML)
- 可縮放向量圖形(SVG)圖像
- 圖表和流程圖
- 互動式 React 組件
什麼時候會創建 Artifacts?
Artifacts 會為以下類型的內容生成:
- 重要且獨立(通常超過 15 行)
- 可能需要在對話外進行編輯、迭代或重複使用
- 複雜且無需額外上下文即可獨立存在
- 可能用於將來參考
我們相信 Artifacts 將顯著提高您在對話中創建、管理和利用複雜內容的能力。我們期待看到您如何使用這項新功能來提升生產力和創造力。
18-08-2024
OpenAI
更新最新chatgpt-4o-latest, OpenAI 最先進模型
Anthropic
新功能:提示快取
• 提示快取功能現已在 Anthropic API 上推出,使開發人員能夠在 API 呼叫之間快取常用的上下文。
• 此功能允許客戶為 Claude 提供更多背景知識和範例輸出。
• 對於長提示,可將延遲時間減少高達 85%。
使用場景:
1. 對話代理:適用於延長對話,特別是包含長指令或上傳文件的情況。
2. 編碼助手:通過在提示中保留代碼庫的摘要版本,改善自動完成和代碼庫問答功能。
3. 大型文件處理:在不增加回應延遲的情況下,將完整的長篇材料(包括圖像)納入提示中。
4. 詳細指令集:分享廣泛的指令、程序和範例清單,以微調 Claude 的回應。
5. 代理搜索和工具使用:增強涉及多輪工具呼叫和迭代變更的場景性能。
6. 與書籍、論文、文檔、播客文字稿和其他長篇內容互動:將整個文件嵌入提示中,讓用戶能夠提問。
Claude 3.5 Sonnet版本現已可用。
07-08-2024
更新最新gpt-4o-2024-08-06, OpenAI 最新模型