Spoločnosť Meta uviedla na trh svoje najnovšie modely umelej inteligencie, Llama 4 Scout a Llama 4 Maverick, ktoré predstavujú významný pokrok v oblasti multimodálnej AI.
Tieto modely sú navrhnuté tak, aby spracovávali a generovali rôzne typy dát, vrátane textu, obrázkov a zvuku, čo umožňuje vytváranie bohatších a interaktívnejších aplikácií. Lenže v prípade nových modelov existujú pochybnosti o ich skutočnom výkone pri porovnaní s konkurenciou.
Výkonnosť a efektivita
Podľa nezávislých hodnotení dosiahol model Llama 4 Maverick skóre 49 bodov v „Intelligence Index“ od spoločnosti Artificial Analysis, čím prekonal model Claude 3.7 Sonnet, ale zaostal za Deepseek V3 0324.
Model Scout dosiahol 36 bodov, čo je porovnateľné s GPT-4o-mini a prevyšuje Claude 3.5 Sonnet a Mistral Small 3.1. Oba modely preukázali konzistentné schopnosti v oblastiach ako všeobecné uvažovanie, kódovanie a matematické úlohy, bez výrazných slabín v konkrétnych oblastiach.

Z hľadiska efektivity architektúry využíva Maverick iba 17 miliárd aktívnych parametrov, čo je približne polovica v porovnaní s 37 miliardami u Deepseek V3, pričom celkový počet parametrov je 402 miliárd oproti 671 miliardám u Deepseek V3. Na rozdiel od Deepseek V3, ktorý spracováva iba text, Maverick dokáže pracovať aj s obrázkami.
Kontroverzie okolo benchmarkov
Po uvedení modelov Llama 4 sa objavili kontroverzie týkajúce sa ich výkonu v benchmarkoch. Meta priznala, že na benchmark LMArena použila „experimentálnu chatovaciu verziu“ modelu Maverick, čo naznačuje možnú optimalizáciu pre ľudských hodnotiteľov prostredníctvom detailných a dobre štruktúrovaných odpovedí s jasným formátovaním. Aktivácia funkcie „Style Control“ v LMArena spôsobila pokles Mavericka z druhého na piate miesto v rebríčku, čo poukazuje na vplyv prezentácie odpovedí na hodnotenie modelu.



Ahmad Al-Dahle, viceprezident pre generatívnu AI v spoločnosti Meta, poprel tvrdenia, že spoločnosť umelo zvyšovala výsledky benchmarkov tým, že trénovala modely na testovacích sadách. Zdôraznil, že takéto praktiky nie sú pravdivé a že spoločnosť neustále pracuje na opravách chýb a spolupracuje s partnermi na zlepšení implementácie modelov.
Výzvy pri spracovaní dlhých kontextov
Napriek sľubným výsledkom v štandardných testoch sa ukázalo, že modely Llama 4 majú problémy pri spracovaní úloh s dlhým kontextom. Testy vykonané spoločnosťou Fiction.live, ktoré hodnotia schopnosť modelov porozumieť zložitým naratívam s viacerými vrstvami, odhalili, že Maverick nepreukázal výrazné zlepšenie v porovnaní s predchádzajúcimi modelmi, čo naznačuje potrebu ďalšieho vývoja v tejto oblasti.
Záver
Uvedenie modelov Llama 4 Scout a Maverick predstavuje významný krok vpred v oblasti multimodálnej umelej inteligencie. Napriek určitým kontroverziám a výzvam, najmä v oblasti spracovania dlhých kontextov, tieto modely naznačujú smerovanie k vytváraniu sofistikovanejších a efektívnejších AI systémov schopných pracovať s rôznymi typmi dát.
[…] predvíkendovom uvedení dvoch nových modelov – Scout a Maverick – Meta tvrdila, že Maverick prekonáva konkurentov ako GPT-4o a Gemini 2.0 Flash v rôznych AI […]