Nebolo by to nič nezvyčajné. Jazykové modeli potrebujú obrovské množstvo dát, aby dokázali odpovedať na položené otázky. Služby ako ChatGPT si môžete predstaviť ako rozšírený a komplikovanejší vyhľadávač. Po poleží otázky jednoducho vyhľadá dostupné údaje vo svojej pamäti a zostaví vám odpoveď.
Množstvo dát
Na rozdiel napríklad od vyhľadávania na Google, však umelá inteligencia zostaví vlastný text. Google vám zobrazí len odkazy na webstránky a údaje si musíte jednoducho naštudovať. Umelá inteligencia vám na zadanú otázku priamo odpovie, aj keď odpoveď nemusí byť presná.
OpenAI a aj ďalšie podobné spoločnosti sú tak trocha na hrane zákona. Jej jazykový model ChatGPT využíva „voľne prístupné dáta na internete“. Lenže nie všetko čo je na internete je možné len tak využívať. Občas môže ísť o texty, ktoré sú chránené autorským právom. OpenAI na trénovanie modelu potrebuje množstvo dát a získať tieto dáta legálnou cestou nemusí byť vždy jednoduché.
Využili YouTube
Podľa denníka The New York Times využili zamestnanci na trénovanie jazykového modelu ChatGPT aj videá na YouTube a to pravidlá služby zakazujú. Všetko malo dôjsť tak ďaleko, že ChatGPT mal „vidieť“ už milión hodín videa. OpenAI využila videá na trénovanie existujúceho modelu ChatGPT 4, ale dáta mohli byť použité aj na trénovanie pripravovaného ChatGPT 5.
Pritom iba nedávno podobné praktiky kritizoval generálny riaditeľ YouTube Neal Mohan. V rozhovore pre Bloomberg to dokonca označil za praktiku porušujúcu pravidlá služby YouTube.
Regulácia AI
V OpenAI sa všetko malo diať po posvätení jej generálnym riaditeľom Gregom Brockmanom. Ten mal podľa zdrojov denníka The New York Times o všetkom vedieť. OpenAI sa samozrejme k trénovaniu na videách YouTube nevyjadrila. V stanovisku pre portál theverge.com OpenAI iba uviedla, že na trénovanie jazykových modelov využívajú pripravené balíky dát.
Pokiaľ sa potvrdí, že OpenAI využilo na trénovanie ChatGPT aj videá na YouTube, tak je to ďalší dôvod pre zavedenie regulácie umelej inteligencie. Prvý rámec regulácie nedávno schválil Európsky parlament. Nové pravidlá však môžu rozvoj umelej inteligencie aj pridusiť. Tá sa pritom stala neodmysliteľnou súčasťou nášho života.
Je to jedno, všetky ai sa cvičia na dátach z netu, takže ani ostatní v tom nebudu nevinne. Tipnem, že tak polovica vedomostí čo chatgpt je nelegalnych a mali za ne zaplatiť alebo ich nemali pouzžiť vôbec. nedokazali by tak rychlo vyvijat ai ak by nezneuzivali data.