Google, rekor kıran benchmark puanları ile en gelişmiş Gemini 3.1 Pro AI modelini tanıttı. Bu model, Gemini 3 Pro modeline göre çok daha güçlü çok adımlı akıl yürütme ve çok modlu yeteneklere sahip. Google ayrıca, yeni modelin uzun, çok adımlı görevleri daha iyi yönetebildiğini söylüyor. Gemini uygulamasında, NotebookLM, Google AI Studio, Antigravity ve Vertex API aracılığıyla kullanıma sunuluyor.
Gemini 3.1 Pro, ARC-AGI-2'de %77'den Fazla Puan Aldı
Öncelikle, yeni Gemini 3.1 Pro AI modeli, herhangi bir araç kullanmadan zorlu İnsanlığın Son Sınavı'nda %44.4 puan aldı ve arama ve kodlama araçları ile %51.4 puan elde etti. Yenilikçi ARC-AGI-2 benchmarkında, Gemini 3.1 Pro, muazzam bir %77.1 puan aldı ve bu, Anthropic'in en son Claude Opus 4.6'sının %68.8'inden bile daha yüksek.

Sonrasında, bilimsel bilgiyi test eden GPQA Diamond benchmarkında, Gemini 3.1 Pro %94.3 puan aldı — tüm rakiplerinden daha yüksek. SWE-Bench Verified ise ajans kodlamayı değerlendiriyor ve Gemini 3.1 Pro AI modeli %80.6 puan aldı, bu da Claude Opus 4.6'nın %80.8'inin biraz altında. Yeni model ayrıca kullanıcı talimatlarını takip etme konusunda da çok daha iyi hale geldi.
Google, Gemini 3.1 Pro'dan birçok animasyonlu SVG'yi sergiledi ve çıktısını Gemini 3 Pro ile karşılaştırdı. Vektör illüstrasyonu gördüğünüzde fark oldukça şaşırtıcı. Google, Gemini 3.1 Pro'nun şu anda önizlemede olduğunu ve şirketin modeli herkesin kullanımına sunmadan önce geliştirmeye devam edeceğini belirtiyor.
Aralık ayında, OpenAI, Gemini 3 Pro'ya karşı koymak için ChatGPT 5.2 modelini piyasaya sürdü ve yakın zamanda geliştirilmiş ajans kodlama performansı için GPT-5.3-Codex'i tanıttı. Artık Gemini 3.1 Pro piyasaya çıktığına göre, OpenAI'nin Google'ı AI yarışında geride bırakmak için çok daha güçlü bir model yayınlaması gerekecek.
Yorumlar
(8 Yorum)