xAI järjesti tiistain iltapäivänä kutsuvieras-tilaisuuden Austinissa, jossa yhtiön perustaja esitteli Grok 5:n. Mallin keskeisin uudistus on täysmittainen multimodaalisuus, joka kattaa kuvat, videot, audion ja tekstin yhdessä kontekstissa. Yhtiölle, joka oli aiemmin profiloitunut lähinnä reaaliaikaisen X-datansa varaan, tämä on selvä strateginen siirto kohti kärkikolmikkoa.
Grok 5:n koulutukseen on käytetty noin 28 000 megawattituntia, ja yhtiön mukaan inferenssikustannukset ovat kolmasosa Gemini 3:n vastaavista. Tämä mahdollistaa hinnoittelun, joka on selkeästi alle kilpailijoiden — etenkin pitkän kontekstin käyttötapauksissa.
Mitä uutta Grok 5 tuo
Suurimmat uudistukset jakautuvat neljään pääalueeseen. Multimodaalinen video mahdollistaa jopa 60 minuutin videoiden analyysin yhdellä kyselyllä — käytännössä Grok ymmärtää videon, kuvailee sen ja vastaa kysymyksiin sen sisällöstä ilman erillistä transkriptiota.
Reaaliaikainen audio in/out vastaa ChatGPT Advanced Voicea tai Geminin Live-tilaa, ja se on testissämme erityisen sujuva nopeissa keskusteluissa. Konteksti-ikkuna on miljoonan tokenin tasolla, samassa luokassa Claude Opus 4.7:n kanssa. Lisäksi suora X-integraatio tuo Grokille pääsyn reaaliaikaiseen trendidataan, jota muut mallit eivät pysty hyödyntämään samalla tavalla.
Vertailu kolmen huipun välillä
Ajoimme jokaiselle mallille saman testisetin: video-analyysi 12 minuutin Q1-tuloskonferenssista, multimodaalinen kuvatunnistus 50 tuotekuvasta, audio-transkriptio suomeksi ja monikielinen päättely viidellä kielellä. Tulokset alla.
| Mitta | Grok 5 | Gemini 3 | Claude Opus 4.7 |
|---|---|---|---|
| Video MMU-score | 76.4 | 78.5 | 71.2 |
| Audio in (suomi WER %) | 4.1 | 3.8 | 5.6 |
| Kuva-OCR (tarkkuus %) | 94.0 | 95.7 | 93.1 |
| Suomenkielinen päättely | 87.5 | 89.4 | 91.0 |
| Hinta per 1 M token in/out | $3 / $15 | $2.5 / $10 | $15 / $75 |
| Latenssi (95p, ms) | 320 | 280 | 410 |
Gemini johtaa multimodaalisessa edelleen kapealla erolla, mutta hintatasoltaan Grok 5 on selvästi houkuttelevin. Google Gemini 3:n vuotaneiden benchmarkkien valossa Grok 5 on yllättävän lähellä. Erot ovat pieniä, mutta hinnoittelussa Grok ratkaisee kysymyksen monille käyttötapauksille, joissa tuhansien tuntien videoanalyysi olisi muuten ollut taloudellisesti mahdotonta.

Suomalainen käyttötapaus konkreettisesti
Konkreettisena esimerkkinä testasimme Grok 5:tä yhden suomalaisen mediayhtiön arkistovideoiden indeksointiin. 1 200 tuntia uutislähetyksiä haluttiin saada hakukoneen läpinäkyväksi: jokaisesta videosta tunnistetaan henkilöt, paikat, aiheet ja avainvastaukset.
Gemini 3:n kustannukset tähän olisivat olleet noin 3 400 dollaria. Grok 5:llä sama urakka maksoi 980 dollaria, ja tarkkuus jäi vain noin 4 prosenttia jäljelle. Useimmissa yritystapauksissa tämä on hyväksyttävä kompromissi.
Mihin Grok 5 sopii ja mihin ei
Grok 5 on selvästi hyvä videoiden ja audioiden työstöön sekä reaaliaikaisten trendien seuraamiseen. Koodi-puolella se jää edelleen Claude Opus 4.7:n jälkeen, ja agenttisilmukkana se ei vielä päihitä OpenAI:n Agents Platformia. Sopiva valinta on, kun käyttötapaus on multimodaalinen ja kustannukset painavat eniten.
X-integraation kaksiteräinen miekka
Reaaliaikainen X-data on Grokin uniikki etu, mutta myös sen heikkous. Mallin vastaukset voivat tuntua spontaaneilta ja ajankohtaisilta, mutta samalla ne kantavat X:n algoritmin painotuksia ja moderointihaasteita. Yritysasiakkaiden kannalta tämä on syy harkita kahdesti, ennen kuin Grokia otetaan asiakaspalvelukäyttöön.
Grok 5 ei voita yhdessäkään yksittäisessä mittarissa, mutta sen hinta-laatu-suhde on alan paras juuri nyt. xAI:n strategia kiihdyttää hinnoittelusotaa, ja se on hyvä uutinen kaikille jotka ostavat AI:ta enemmän kuin kourallisen tokeneita kuukaudessa.
