💬
Retail – data, powered by AI
top of page

Chat GPT 5.2 vs Gemini Pro 3.0 - bitva titánů


ChatGPT 5.2

Je to zhruba týden, co jsme tady detailně psali o tom, co obsahuje plán ChatGPT Plus (cca 20 USD/měsíčně) a zda má smysl si ho pořizovat. Jak se již mnohokrát ukázalo, tak týden ve světě AI je zhruba jako dva tři roky v normálním světě. Během té doby totiž neočekávaně společnost OpenAI, která stojí za aktuálně stále nejpopulárnějším AI nástrojem současnosti - ChatemGPT, vypustila do světa nový model, který přichází z přívlastkem 5.2. Tato neočekávaná aktivita přišla v návaznosti na uvedení modelu Gemini 3.0, který zase neočekávaně ohlásila společnost Google 18.listopadu.


To je pro nás uživatele skvělá zpráva, protože se můžeme těšit na další kolo neutuchající bitvy mezi těmito dvěma velikány, kteří se neustále předhánějí o to, kdo bude mít nejlepší AI model na světě. A tato bitva nebude ústit v nic jiného než v dramatickém posouvání dovedností jednotlivých modelů. Jak si tedy aktuální světová jednička a světová dvojka stojí?


Když se podíváme na výsledky různých metrik podle kterých posuzujeme kvalitu AI nástrojů (programování, porozumění textu, komplexní přemýšlení, výsledky školních nebo univerzitních testů atd), tak je tento souboj poměrně vyrovnaný. Nicméně na papíře se věci obvykle nějak tváří, ale realita může být jiná. Pojďme se tedy na tuto realitu podívat.


Obecná kvalita práce s AI

Rovnou se zaměříme na to nejdůležitější, a to jak se nám s AI vlastně pracuje. Většina uživatelů používá totiž AI jen velmi omezeně a na (pro AI) banální úkoly. Co ale pro AI banální z daleka není, je aby byla schopna podávat kvalitní výsledky z nekvalitních, myšleno obecných, promptů. A to je vlastně něco, co tyto dva modely opravdu spojuje. Každým novým updatem se zmenšuje rozdíl mezi tím, co je třeba s AI umět a co nám dává při špatných vstupech. V prvních letech používání AI jsme museli být opravdu naprosto přesní, abychom nedostávali výstupy, ze kterých chceme vyskočit z okna, což se ale ve většině případů stejně nedařilo a výstupy nesplňovali ani to, co jsme do promptů psali (ani nemluvě o tom, co jsme do nich nenapsali). Ale to se s nástupem letošní zimy opravdu významně mění. Oba tyto modely totiž už velmi dobře chápou, co po nich asi chceme, i když nedáváme úplně dobré prompty. Stále je samozřejmě třeba umět promptovat, abychom dostávali skvělé výstupy, ale tyto modely už nepotřebují tak dobré prompty, jako dřív.


V tomto ohledu už byl model ChatGPT 5.1 (předchůdce této vlajkové lodi) opravdu velmi-velmi dobrý. Vysoko nad Gemini (v té době verze 2.5), se kterým byla souvislá práce daleko méně přívětivá a efektivní než s ChatemGPT. Příchodem modelu Gemini 3.0 se tento rozdíl zcela smazal. Popravdě řečeno, já už nejsem schopen zhodnotit, se kterým AI nástrojem se mi pracuje obecně lépe, protože kvalita porozumění mých myšlenek (i při špatných promptech) je tak vysoká, že už je dle mého nerozeznatelná od sebe.


Takže pokud se bavíme obecně o tom, jaký dojem v nás nechává práce s tím, či oným AI nástrojem, tak zde bych to už nazval remízou. A dokud nám AI nebude číst myšlenky, tak se domnívám, že to již remízou zůstane a AI nás zkrátka bude dokonale chápat.


Vylepšení modelu 5.2 oproti předchůdci

Co se ale s modelem GPT 5.2 dramaticky mění, jsou jeho schopnosti zvládání některých úkolů. Společnost OpenAI se očividně zaměřila na práci s generováním smysluplných výstupů (prezentace, tabulky atd). Každý uživatel AI, ví, jaký příšerný bolehlav nám způsobuje, když chceme z AI dostat nějakou pěknou prezentaci, nebo tabulku s grafy. V průběhu posledních měsíců se tyto dovednosti samozřejmě také velmi výrazně zlepšily, ale stejně jsme většinou buď použili specializovaný AI nástroj (například Gamma pro prezentace), nebo jsme se smířili s tím, že nám AI pomůže z texty, ale grafiku a formu výstupu si uděláme sami. Tohle chce model ChatGPT 5.2 zjevně změnit. A po našem testování musíme říci, že se jim to opravdu povedlo - nebo k tomu alespoň udělali velmi silný krok. 20% podíl společnosti Microsoft v OpenAI tady asi nebyl úplně na škodu. Pořád je samozřejmě na čem pracovat, ale speciálně pro skeptiky, jako jsem třeba já, je docela příjemná změna, když si zkusíme vygenerovat nějaký excelový dokument a vyjde z toho něco už alespoň trochu použitelného (myšleno graficky).



Další vylepšení jsou pro běžné uživatele už ne úplně dobře postřehnutelné:


  • Až o 30% nižší halucinování - to zní fantasticky, ale abychom se tak úplně neradovali, tak OpenAI zvěřejnila procento halucinování u modelu GPT 5.1 na 8,8% a nástupce 6,2%. Jenže již nezveřejnila, od čeho toto procento počítá. Jak víme, tak když vlezeme na internet se špatným promptem, tak máme zhruba 50% šanci na halucinaci. Při dobrých promptech a v uzavřených pracovních prostorech je zase halucinování už teď skoro na nule.


  • Lepší paměť - kontextové okno pro neplatící uživatele je 256k Tokenů. To zůstalo bez změny, nicméně asi málokdo věděl, že GPT 5.1 před zaplněním kontextového okna téměř polovinu informací už zapomněl. Nyní model GPT 5.2 už téměř nic nezapomíná. Ale tato změna pro většinu uživatelů žádnou dramatické zlepšení práce, prostě nepřinese.


  • Lepší výsledky úplně ve všem - další mraky technických parametrů a neověřitelných výstupů z testování se dají shrnout do prostého - je o trošku lepší úplně ve všem, oproti svému předchůdci. Kdyby si někdo chtěl počíst kompletní zprávu od společnosti OpenAI ohledně své nové vlajkové lodi, tak můžete ke zdroji: https://openai.com/index/introducing-gpt-5-2/



Jak se dá kvalita výstupů ověřit? Aneb podle čeho poznám, který model je lepší?

Když se bavíme o režimu pro normální běžné uživatele, kteří chtějí vyřešit určitou část své práce, nebo soukromé aktivity za pomocí některých nástrojů umělé inteligence, tak vždycky ten konkrétní člověk rozhoduje o tom, jestli se mu ten úkol podařilo dobře zpracovat a jestli je výstup za něj použitelný a případně na kolik%. Pokročilejší uživatelé už hodnotí za jak dlouho se k určitému cíly s nějakým AI nástrojem dostanou. Samozřejmě zde platí pravidlo, že čím více pracuji s AI, tím lépe mě zná a její výstupy jsou v průběhu času lepší. Také čim více s ní pracujeme, tak tím lépe jsme schopni předpovídat, jaké budou její "slepé uličky" a na co si v promptování dávat pozor. Ale z pravidla když se prokoušeme nějakým těžkým úkolem, který děláme mnoho hodin, tak neznám moc lidí, kteří by si řekli: "No tak super, tohle mi trvalo dva dny, tak si to teď zkusím v Gemini.", nebo naopak.



Neexistuje moc lidí, kteří testují stejné kroky v různých AI nástrojích a hodnotí trnitost cesty a průběžné výstupy a porozumění jednotlivých AI modelů. Respektive je jich dost, ale tito lidé jsou většinou zaměstnaní ve firmách, které AI staví. Ani odborná AI komunita není schopná zhodnotit, zda model, který má programování na 88% je skutečně horší než ten model, který má 90,5%. Na to si vždy musejí přijít samotní uživatelé, protože budou řešit svoje konkrétní situace svým konkrétním způsobem se svou konkrétní historií kontextového okna, personalizovaným nastavením atd.


Jinými slovy, pro mě osobně vlajková loď ChatuGPT 5.2 na epickém závodě ve světě AI nezměnila vůbec nic. A že dokáže tvořit prezentace, excel a PDF výrazně lépe než dříve, je určitě super, ale to je v souboji s Googlem stále žalostně málo a OpenAI to moc dobře ví. I jistě pro to zvažuje, mimo jiné, zařazení obsahu pro dospělé do svého předplatného, aby si zkrátka udržel uživatele, protože pokud nepřijde s něčím opravdu převratným, tak jejich význam v tomto závodu bude pouze jako pomyslný vodič/tempař, který po chvíli odpadne. A proč tohle vůbec můžu říct? (disclaimer: tohle není placená propagace, ale subjektivně-objektivní zhodnocení)


Google Gemini 3.0

Níže se podíváme na to, co všechno používání Gemini a ekosystému Googlu, nabízí. Pricing, funkcionality, doprovodné aplikace a vše, co potřebuje uživatel vědět před rozhodování, na který AI nástroj přesedlat.


Plány


Free

Stejně jako v případě ChatuGPT i tady máte k dispozici verzi Zdarma, kde máte k dispozici používání nejsilnějších modelů (Gemini 3.0 Pro a jejich obrázkový generátor Nano Banana Pro), byť v omezené míře. Limity pro používání modelu Gemini 3.0 Pro se mi zdají lehce přísnější a vyčerpávají se, podle mě rychleji. Jenže model Nano Banana je oproti Dall-e 3 (což je obrázkový generátor společnosti OpenAI) úplně jinde a pokud generujete nějaké obrázky, tak je Chat GPT až jedna z posledních variant, po kterých by uživatel měl sáhnout. Možnosti tvoření nádherné infografiky z právě rozebíraného tématu s přesnými popisky, a navíc velmi rychle, si zamiluje každý, kdo tuto funkcionalitu alespoň jednou zkusí.


Roboti Gem (neboli agenti v podání Googlu)

Funkcionalita, která hýbe světem produktivity je v ekosystému Gemini zcela zdarma (samozřejmě až na limity používání, ale nikoliv na limity vytváření). Pokud tuto funkcionalitu chcete využívat (ano, dají se používat sdílení agenti, ale teď se bavíme o možnosti agenty tvořit a nastavovat pro svoje účely). Funkcionalita se téměř neliší od ChatuGPT s vyjímkou toho, že nemá omezenou velikost systémových promptů na 8000 znaků, tak jako má Chat GPT. Ano, dá se to obcházet vkládáním dokumentů do znalostní báze pro dílčí části práce agenta, ale kdo to chce dělat, když nemusí. Takže tady je druhý velký bod pro Gemini


NotebookLM

Jde v podstatě o agenta, který je velmi robustně nastaven tak, aby pracoval pouze s informacemi, které do něj vložíte, a je schopen z nich na jedno kliknutí dělat mnoho typů různých výstupů. Velmi slavná je možnost vytvářet podcasty, které si nastavíte, zda jsou akademické debaty, vtipná talk show, nebo hospodská povídačka nad konkrétním tématem. Ale v možnostech je mnohem více. Tato funkcionalita - opět zdarma.


Kontextové okno

Kontextové okno je u Gemini 1M (jeden milion) tokenů. U Chatu GPT je to 256 tisíc. To se může zdát až přehnaně moc, ale když třeba máte nahraný hodinový audiozáznam, který chcete vložit do AI, aby Vám udělal transcript, tak se Vám každý token hodí. Jak se říká, na velikosti prostě záleží.


Rozpoznávání obrázků (myšleno jak dobře obrázku rozumí)

Gemini má o třídu lepší rozpoznávání detailů na obrázcích a videích. Má daleko hlubší chápání, co přesně na obrázku je. Ačkoliv model 5.2 udělal tady obrovský skok dopředu, tak Gemini je stále vepředu.


Hlasový režim Google

Samozřejmě hlasový režim je zdarma u obou poskytovatelů, ale rozdíl v jejich používání je zcela čitelný. Příklad sám za vše. Moje 7letá dcera se chce učit anglicky. V jednom z AI nástrojů od Googlu (zmíním níže) ji vytvářím aplikaci typu Lingokids. Než ale projekt dokončím, tak chci, aby na ní mluvil rodilý mluvčí. Ale kde takhle najdu v sedum večer rodilého mluvčího na telefonu, aby neměl indický přízvuk. Obrátím se tedy na AI a její hlasový režim. Protože jsem dinosaurus a hlasový režim jsem vždy dělal na ChatuGPT, tak jsem dobře vypromptoval požadavky na výuku, roli a všechno možné. Ale nemohli jsme se dobrat smysluplného výstupu. Po 10 minutách trápení a frustrace jsem zapnul Gemini a na první dobrou zcela přirozená konverzace, až sem to dceři po půl hodině musel vzít, že si dělala novou anglickou kamarádku a ptala se ji, jak se má.



Další příklad souvisí s výše popsaným lepším rozpoznáváním vizuálních vjemů. Když budete potřebovat pomoci s nějakou fyzickou opravou, nebo nastavením programu, se kterým třeba tolik neumíte, tak Google také udělá většinou lepší práci. Nechci tady ale na Chat GPT být úplně přísný, protože úkol v drtivé většině zvládnete i v Chatu GPT.


Antigravity - (to je ten program, přes který dělám dceři učící aplikaci)

Vzhledem k tomu, že tato platforma pro vývoj aplikací je stará jako Gemini 3.0 (takže od 18.listopadu), tak je stále spíše testováno, co na to uživatelé. Zatím je možné i zdarma používat, ale nejspíše to pokračovat nebude. Každopádně jde o přímou konkurenci AI platforem pro tvorbu funkčních aplikací typu Lovable (evaluace 6,3 mld USD, Cursor (evaluace necelých 30 mld. USD), kterou nyní máme jen tak na hraní.


Ani nezmiňuji další aplikace a platformy, kterých má Google pod palcem další desítky a to vše k dispozici pro své i neplatící uživatele (byť s omezeními).


Ještě jsme nedali Googlu ani korunu a dostali jsme všechno výše popsané. Když mu nějaké peníze dáme (cca 20 USD v plánu PRO), tak se situace ještě zpestří o:


Ekosystém Google

Nemůžeme mluvit o Google Gemini a nemluvit o Google aplikacích, které denně používáme. Možnost kliknout na Gemini diamant kdykoliv jsme v Google prostředí, aby nám s něčím pomohl, také není k zahození. Navíc máte zdarma 2 TB cloudového úložiště.


Flows - (automatizační platforma pro ekosystém Google)

Automatizační platforma, ve které si sami můžete nastavit automatizační schémata podobně jako v n8n, Make nebo Zapier, akorát, že nemusíte platit za tokeny využití při implementace AI agenta do automatizace. Na obranu Chatu GPT, tuhle funkcionalitu mají platící uživatelé Plus také k dispozici, jen chybí ten Google ekosystém.


Větší a bohatší limity na vše

Kdybychom se bavili čistě o limitech, tak bych to nazval remízou. Jenže pokud programujete v Antigravity, projekty zpracováváte v NotebookuLM a využíváte obrazovou tvorbu na denní bázi, tak už to tak vyrovnané nebude.



Závěr:

Abychom to shrnuli. Každý nechť si udělá svůj vlastní názor podložený svými zkušenostmi a preferencemi. Pořád je zhruba 800 milionů aktivních uživatelů ChatuGPT (Gemini zhruba 650 milionů) a pořád se dá krásně pracovat ve free verzích obou AI platforem. Díky metapromptování, které jsme zmiňovali v našich příspěvcích, můžeme operovat v mnoha AI nástrojích zároveň a zkoušet, který se nám nejvíce líbí.



Ostatně, jak jsem psal na začátku. Rozdíly v používání jsou pro většinu uživatelů zanedbatelné. Ke zdárnému výsledku se dostaneme nepochybně u obou nástrojů. Jen Google aktuálně nabízí ve všech směrech daleko více a vzhledem k šíři záběru Googlu si nedokážu představit (ani s penězi Oraclu, Microsoftu a Nvidie - kteří se párují s OpenAI), jak by mohl Google tento závod prohrát. Ale ještě máme spoustu dalších hráčů, kteří k tomuto tématu mají co říct a také co zaplatit (Anthropic, Perplexity, xAi, čínská armáda velkých jazykových modelů, Meta se svým skvělým opensource modelem a mnoho dalších).








Komentáře


bottom of page