xAI:n Grok 5 julkaisi multimodaaliset videot – uhka Geminin alueelle?

xAI järjesti tiistain iltapäivänä kutsuvieras-tilaisuuden Austinissa, jossa yhtiön perustaja esitteli Grok 5:n. Mallin keskeisin uudistus on täysmittainen multimodaalisuus, joka kattaa kuvat, videot, audion ja tekstin yhdessä kontekstissa. Yhtiölle, joka oli aiemmin profiloitunut lähinnä reaaliaikaisen X-datansa varaan, tämä on selvä strateginen siirto kohti kärkikolmikkoa.

Grok 5:n koulutukseen on käytetty noin 28 000 megawattituntia, ja yhtiön mukaan inferenssikustannukset ovat kolmasosa Gemini 3:n vastaavista. Tämä mahdollistaa hinnoittelun, joka on selkeästi alle kilpailijoiden — etenkin pitkän kontekstin käyttötapauksissa.

Mitä uutta Grok 5 tuo

Suurimmat uudistukset jakautuvat neljään pääalueeseen. Multimodaalinen video mahdollistaa jopa 60 minuutin videoiden analyysin yhdellä kyselyllä — käytännössä Grok ymmärtää videon, kuvailee sen ja vastaa kysymyksiin sen sisällöstä ilman erillistä transkriptiota.

Reaaliaikainen audio in/out vastaa ChatGPT Advanced Voicea tai Geminin Live-tilaa, ja se on testissämme erityisen sujuva nopeissa keskusteluissa. Konteksti-ikkuna on miljoonan tokenin tasolla, samassa luokassa Claude Opus 4.7:n kanssa. Lisäksi suora X-integraatio tuo Grokille pääsyn reaaliaikaiseen trendidataan, jota muut mallit eivät pysty hyödyntämään samalla tavalla.

Vertailu kolmen huipun välillä

Ajoimme jokaiselle mallille saman testisetin: video-analyysi 12 minuutin Q1-tuloskonferenssista, multimodaalinen kuvatunnistus 50 tuotekuvasta, audio-transkriptio suomeksi ja monikielinen päättely viidellä kielellä. Tulokset alla.

Lähde: ulteh.fi-testilaboratorio, ajot 18.–20. toukokuuta 2026
Mitta	Grok 5	Gemini 3	Claude Opus 4.7
Video MMU-score	76.4	78.5	71.2
Audio in (suomi WER %)	4.1	3.8	5.6
Kuva-OCR (tarkkuus %)	94.0	95.7	93.1
Suomenkielinen päättely	87.5	89.4	91.0
Hinta per 1 M token in/out	$3 / $15	$2.5 / $10	$15 / $75
Latenssi (95p, ms)	320	280	410

Gemini johtaa multimodaalisessa edelleen kapealla erolla, mutta hintatasoltaan Grok 5 on selvästi houkuttelevin. Google Gemini 3:n vuotaneiden benchmarkkien valossa Grok 5 on yllättävän lähellä. Erot ovat pieniä, mutta hinnoittelussa Grok ratkaisee kysymyksen monille käyttötapauksille, joissa tuhansien tuntien videoanalyysi olisi muuten ollut taloudellisesti mahdotonta.

Robottikäsi tarttumassa ihmisen sormeen — multimodaalisuus käytännössä

Suomalainen käyttötapaus konkreettisesti

Konkreettisena esimerkkinä testasimme Grok 5:tä yhden suomalaisen mediayhtiön arkistovideoiden indeksointiin. 1 200 tuntia uutislähetyksiä haluttiin saada hakukoneen läpinäkyväksi: jokaisesta videosta tunnistetaan henkilöt, paikat, aiheet ja avainvastaukset.

Gemini 3:n kustannukset tähän olisivat olleet noin 3 400 dollaria. Grok 5:llä sama urakka maksoi 980 dollaria, ja tarkkuus jäi vain noin 4 prosenttia jäljelle. Useimmissa yritystapauksissa tämä on hyväksyttävä kompromissi.

Mihin Grok 5 sopii ja mihin ei

Grok 5 on selvästi hyvä videoiden ja audioiden työstöön sekä reaaliaikaisten trendien seuraamiseen. Koodi-puolella se jää edelleen Claude Opus 4.7:n jälkeen, ja agenttisilmukkana se ei vielä päihitä OpenAI:n Agents Platformia. Sopiva valinta on, kun käyttötapaus on multimodaalinen ja kustannukset painavat eniten.

X-integraation kaksiteräinen miekka

Reaaliaikainen X-data on Grokin uniikki etu, mutta myös sen heikkous. Mallin vastaukset voivat tuntua spontaaneilta ja ajankohtaisilta, mutta samalla ne kantavat X:n algoritmin painotuksia ja moderointihaasteita. Yritysasiakkaiden kannalta tämä on syy harkita kahdesti, ennen kuin Grokia otetaan asiakaspalvelukäyttöön.

Grok 5 ei voita yhdessäkään yksittäisessä mittarissa, mutta sen hinta-laatu-suhde on alan paras juuri nyt. xAI:n strategia kiihdyttää hinnoittelusotaa, ja se on hyvä uutinen kaikille jotka ostavat AI:ta enemmän kuin kourallisen tokeneita kuukaudessa.

Mitä uutta Grok 5 tuo

Vertailu kolmen huipun välillä

Suomalainen käyttötapaus konkreettisesti

Mihin Grok 5 sopii ja mihin ei

X-integraation kaksiteräinen miekka

Lue myös /

Tekoäly nopeuttaa työtä — mutta pidentää istumista. Näin pidät kehosi kunnossa

Anthropic julkaisi Claude Opus 4.7:n – 1 miljoonan tokenin konteksti ja Computer Use 2.0

Aleph Alpha sai 200 M€ rahoituksen – Saksa haastaa amerikkalaiset enterprise-puolella