Sumarizované TechBotom
- Nová séria modelov prekonáva predchodcov v kódovaní, matematike a úlohách vyžadujúcich vizuálne porozumenie.
- GPT-5.2 Thinking dosahuje lepšie výsledky pri práci s autonómnymi agentmi a spracovaní extrémne dlhých dokumentov.
- Modely sú dostupné pre predplatiteľov, pričom staršia verzia GPT-5.1 bude v priebehu mesiacov ukončená.
Spoločnosť OpenAI oznámila vydanie série modelov GPT-5.2, ktoré označuje za svoj najpokročilejší systém pre profesionálnu prácu. Nová línia, ktorá zahŕňa varianty Instant, Thinking a Pro, prichádza s prísľubom vyššej efektivity pri tvorbe tabuliek, programovaní a analýze rozsiahlych kontextov.
Podľa interných dát spoločnosti už súčasní používatelia ChatGPT Enterprise uvádzajú úsporu času 40 – 60 minút denne, pričom nový model má túto hodnotu ešte zvýšiť.
Zameranie na produktivitu a ekonomickú hodnotu
OpenAI pri vývoji kládla dôraz na metriku nazvanú GDPval, ktorá testuje schopnosti umelej inteligencie v úlohách špecifických pre 44 rôznych povolaní. Podľa zverejnených výsledkov model GPT-5.2 Thinking dosahuje alebo prekonáva úroveň ľudských expertov v 70,9 % porovnaní v rámci týchto úloh. Ide o výrazný posun oproti modelu GPT-5, ktorý dosahoval úspešnosť 38,8 %.
Testované scenáre zahŕňali tvorbu predajných prezentácií, účtovných tabuliek či plánovanie rozvrhov. Spoločnosť tvrdí, že model dokáže produkovať výstupy pri zlomku nákladov a výrazne vyššej rýchlosti v porovnaní s ľudskou prácou, hoci zdôrazňuje nutnosť ľudského dohľadu. V internom benchmarku zameranom na investičné bankovníctvo sa presnosť modelu pri tvorbe finančných modelov zvýšila z 59,1 % (GPT-5.1) na 68,4 %.
Technické vylepšenia v kódovaní a logike
V oblasti softvérového inžinierstva dosahuje GPT-5.2 Thinking skóre 55,6 % v benchmarku SWE-Bench Pro, ktorý testuje schopnosť modelu riešiť reálne problémy v štyroch programovacích jazykoch. V teste SWE-bench Verified, ktorý je zameraný výlučne na Python, dosiahol model úspešnosť 80 %.
Výrazné zlepšenie nastalo aj vo vedeckých a matematických disciplínach:
- GPQA Diamond (veda): 92,4 % úspešnosť.
- AIME 2025 (súťažná matematika): 100 % úspešnosť (bez použitia nástrojov).
- FrontierMath: Model vyriešil 40,3 % expertnej matematiky (Tier 1-3), čo predstavuje nový štandard v odvetví.
Model vykazuje aj nižšiu mieru halucinácií. Na vzorke anonymizovaných dopytov z ChatGPT klesol počet odpovedí obsahujúcich chyby o približne 30 % v porovnaní s predchádzajúcou verziou GPT-5.1 Thinking.
Práca s kontextom a agentové schopnosti
Jednou z kľúčových vlastností novej verzie je vylepšená práca s dlhým kontextom. V teste OpenAI MRCRv2, ktorý vyžaduje vyhľadanie a syntézu informácií roztrúsených v texte o dĺžke až 256-tisíc tokenov, dosiahol model takmer 100 % presnosť. To umožňuje efektívnejšiu analýzu dlhých reportov, právnych zmlúv či výskumných prác.
Firmy ako Notion, Databricks či Shopify, ktoré mali k modelu predčasný prístup, hlásia zlepšenie v oblasti tzv. agentového správania (agentic behavior). GPT-5.2 dokáže spoľahlivejšie vykonávať viackrokové úlohy, ako je koordinácia zákazníckej podpory, kde je potrebné vyriešiť prebookovanie letu, ubytovanie a kompenzácie v jednom vlákne. V benchmarku Tau2-bench Telecom dosiahol model úspešnosť 98,7 % pri používaní externých nástrojov.
Varianty modelu a dostupnosť
Séria GPT-5.2 je v ChatGPT dostupná od dnešného dňa pre používateľov platených programov (Plus, Pro, Enterprise).
- GPT-5.2 Instant: Rýchly model pre bežné úlohy, písanie a preklady.
- GPT-5.2 Thinking: Model určený pre hlbšiu analýzu, kódovanie a prácu s dokumentmi.
- GPT-5.2 Pro: Najvýkonnejší variant pre najnáročnejšie dopyty.
Pre vývojárov je model dostupný cez API. Cena je stanovená na 1,75 USD za 1 milión vstupných tokenov a 14 USD za 1 milión výstupných tokenov. Spoločnosť zároveň oznámila, že starší model GPT-5.1 bude v ChatGPT dostupný ešte tri mesiace v rámci sekcie „legacy“, následne bude jeho podpora ukončená.
Uvedenie modelu prichádza v čase, keď OpenAI čelí silnejúcemu tlaku konkurencie, najmä zo strany Google. Podľa informácií portálu The Verge CEO Sam Altman nedávno vyhlásil „poplach“, aby urýchlil vývoj a nasadenie nových vylepšení. Súčasťou stratégie je aj posilnenie bezpečnostných prvkov, vrátane nových filtrov pre obsah týkajúci sa sebapoškodzovania a pripravovaného systému na detekciu veku používateľov.