SprávyBiznisMeta manipulovala s AI benchmarkmi pri modeli Llama 4 Maverick

Meta manipulovala s AI benchmarkmi pri modeli Llama 4 Maverick

Prehrať článok
Pripravené na čítanie INFO

Meta zasa raz klamala a podvádzala. Už to nie je ani veľkým prekvapením, keďže Meta mala v minulosti množstvo prešľapov. 

Spoločnosť Meta sa ocitla v centre pozornosti po tom, čo sa ukázalo, že pri testovaní svojho nového AI modelu Llama 4 Maverick na platforme LMArena použila špeciálne upravenú verziu, ktorá nie je verejne dostupná. Tento krok vyvolal otázky o transparentnosti a férovosti v hodnotení výkonnosti AI modelov.

Llama 4 Maverick: Rýchly nástup na vrchol rebríčka

Po predvíkendovom uvedení dvoch nových modelov – Scout a Maverick – Meta tvrdila, že Maverick prekonáva konkurentov ako GPT-4o a Gemini 2.0 Flash v rôznych AI benchmarkoch. 

Maverick rýchlo získal druhé miesto na rešpektovanom rebríčku LMArena s pôsobivým ELO skóre 1417, čím sa zaradil nad modely od OpenAI a tesne pod Gemini 2.5 Pro.

Odhalenie: Použitá verzia nebola verejne dostupná

AI výskumníci však zistili, že verzia Maverick-03-26-Experimental, testovaná na LMArena, bola špeciálne optimalizovaná pre konverzačné schopnosti a líšila sa od verejne dostupnej verzie. 

Meta v dokumentácii priznala, že išlo o experimentálnu chatovaciu verziu, čo vyvolalo kritiku zo strany odborníkov. Meta sa totiž pri uvedení vytasila s porovnaním s modelmi od Open AI ako ChatGPT 4o, ktorý je však verejne dostupný a nejde o experimentálny model na rozdiel od testovanej verzie Maverick. 

Reakcia LMArena a zmena pravidiel

Platforma LMArena reagovala vyhlásením, že Meta mala jasnejšie komunikovať, že ide o upravený model. V dôsledku toho aktualizovala svoje pravidlá, aby zabezpečila férové hodnotenia v budúcnosti. Stále však platí, že žiadny benchmark nie je stopercentným nástrojom. 

Meta obhajuje svoje postupy

Hovorkyňa Meta, Ashley Gabriel, uviedla, že experimentovanie s rôznymi variantmi modelov je bežnou praxou. Zdôraznila, že experimentálna verzia bola optimalizovaná pre konverzácie a že verejná verzia je teraz dostupná pre vývojárov. Nič to však nemení na fakte, že Meta klamala a zavádzala. Koho by to však prekvapilo? 

Dôsledky pre dôveryhodnosť benchmarkov

Tento incident poukazuje na rastúce napätie v AI priemysle ohľadom používania benchmarkov. Keď spoločnosti prezentujú upravené modely, ktoré nie sú dostupné verejnosti, môže to skresliť reálny obraz o výkonnosti a spôsobiť nedôveru medzi vývojármi a výskumníkmi.

Meta svoju umelú inteligenciu nanútila aj používateľom Messengera a WhatsAppu. Doteraz pritom so svojou AI neotravovala používateľov v Európe. V minulom týždni však Meta AI zamierila masívne aj do Európy a mnohých prekvapilo, že nechcenú AI nie je možné vypnúť

Vidíte v článku chybu alebo nepresnosť? Dajte nám vedieť.
Nahlásiť chybu

TechArena Premium

Podporte nezávislú žurnalistiku

  • Web úplne bez reklám
  • Odomknuté Premium články
  • PDF verzie návodov
  • AI Asistent TechBot
už od 2,50 € / mesiac
Chcem Premium
Diskusia
Online

Neviete si rady s mobilom, PC alebo výberom elektroniky? Opýtajte sa našej komunity.

Aký mobil do 300€?
Problém s aktualizáciou...
Položiť Otázku

ZANECHAŤ ODPOVEĎ

Pridajte svoj komentár!
Zadajte svoje meno tu
Captcha verification failed!
Používateľské skóre captcha zlyhalo. prosím kontaktuj nás!
Váš profil
System Online
ID: GUEST
Identita neznáma
Prihláste sa pre prístup k funkciám.

VÝBER PODĽA TÉMY