
本文大綱
核心特點摘要
Gemini 2.5 是 Google 迄今為止最智能的 AI 模型,首發的實驗版本 2.5 Pro 在多項基準測試中展現出卓越表現,並在 LMArena 榜單中以顯著優勢排名第一。
這是一款「思考型模型」(thinking model),能夠在回應前進行邏輯推理,從而提升效能與準確度。Google 通過結合顯著強化的基礎模型與改進後的訓練技術,達到了全新的性能水平。

技術突破與性能表現
增強的推理能力
- Gemini 2.5 Pro 在需要高階推理的基準測試中達到頂尖水平
- 在數學和科學基準測試(如 GPQA 和 AIME 2025)中領先,且不需要增加成本的測試時多數表決技術
- 在「人類最終考試」(Humanity’s Last Exam) 測試中獲得 18.8% 的最佳成績,這是由數百位專家設計的測試,代表人類知識與推理的前沿
進階編碼能力
- 相較於 Gemini 2.0,編碼能力有顯著提升
- 在 SWE-Bench Verified(業界標準代理式程式評估)中,使用自定義代理設置達到 63.8% 的成績
- 擅長創建視覺化網頁應用、代理式程式應用、程式碼轉換與編輯
- 能夠從單行提示創建完整可執行的程式,例如示範中的恐龍遊戲
繼承 Gemini 的優勢特性
- 原生多模態能力:可處理文字、音頻、圖像、視頻甚至整個程式碼庫
- 龐大上下文窗口:目前支援 100 萬 token,即將升級至 200 萬 token
- 表現優於先前世代,能夠理解龐大數據集並處理來自不同信息源的複雜問題

實用資訊
Gemini 2.5 Pro 實驗版本現已在 Google AI Studio 和 Gemini 應用程式(針對 Gemini Advanced 用戶)中提供使用,並將很快在 Vertex AI 上推出。Google 計劃在未來幾週內推出定價方案,讓用戶能夠以更高的速率限制大規模使用 2.5 Pro。
這款模型不僅在多項技術基準測試中表現優異,更顯著改進了使用者體驗,為開發者和企業用戶提供了更強大的 AI 工具。
總結
Gemini 2.5 代表了 AI 技術的重大進步,特別是在推理能力方面。Google 將「思考」功能直接構建到所有模型中,使其能夠處理更複雜的問題,並支援更強大、更具上下文感知的代理。這一進步將為未來的 AI 應用開創更廣闊的可能性。