Google Gemini 3 saapuu helmikuussa – vuodetut benchmarkit paljastavat kovat luvut

Google julkaisee Gemini 3:n helmikuussa, kertovat ulteh.fi:n haastattelemat kaksi sisäpiirilähdettä. Mallin benchmarkit ovat vuotaneet kehittäjien keskustelukanaviin viime viikolla, ja niiden perusteella suorituskyky on noussut selvästi Gemini 2.5:stä lähes jokaisella mittarilla. Vuoto ajoittui kiusalliseen hetkeen, sillä Google itse oli aikonut hallita uutista helmikuun tuotetapahtumaan saakka.

Lähteidemme mukaan vuoto tuli yhdeltä DeepMindin entiseltä työntekijältä, joka oli kopioinut mittausraportit ennen siirtymistään toiseen yhtiöön. Google ei ole ottanut kantaa lukujen aitouteen, mutta sisäisesti niiden vahvistettiin olevan oikein.

Vuotaneet luvut – vertailtuna kilpailijoihin

Pelkät luvut eivät kerro kaikkea, mutta antavat lähtökohdan. Tämä on kokoava taulukko Gemini 3:n vuotaneista mittauksista verrattuna alan tämänhetkisiin kärkimalleihin.

Lähde: vuotanut DeepMind-raportti + julkiset benchmark-leaderboardit, toukokuu 2026
Mittari	Gemini 3	Claude Opus 4.7	GPT-5	Gemini 2.5
MMLU	92.4	91.8	93.0	88.1
HumanEval+	89.0	94.2	89.0	82.5
MATH-500	96.1	92.7	98.1	92.4
MMMU (multimodaalinen)	78.5	71.2	73.8	70.1
Video-MME	82.3	—	—	76.4

Yksikäänyksittäinen luku ei tee Gemini 3:sta selvää voittajaa, mutta multimodaalisessa ymmärryksessä se on selvä alan kärki. Video, kuva ja audio ovat olleet Geminin vahvuusalueita versiosta 1.0 lähtien, ja kolmas sukupolvi vahvistaa tätä asetelmaa entisestään. Kolmen suosituimman mallin yritysvertailu kannattaa lukea kun on aika tehdä alustavalinta, sillä jokaisella on selvä vahvuusalueensa.

Koodi-puolella jäädään selvästi

HumanEval-luku 89.0 on hyvä mutta jää selvästi Claude Opus 4.7:n 94.2:n alle ja vain GPT-5:n tasolle. Käytännön kehittäjätyössä ero näkyy: monimutkaiset refaktoroinnit, joissa muutoksia tulee kymmeneen tiedostoon kerralla, sujuvat Claudella johdonmukaisemmin.

Sisäpiirilähteemme kertoivat, että Google on tietoisesti panostanut multimodaalisuuteen koodi-puolen sijaan, sillä yhtiön strategia on rakentaa Gemini Workspacesin ja Pixelin ympärille ennemmin kuin kehittäjätyökaluksi. Koodaajat saavat oman versionsa myöhemmin, oletettavasti Gemini 3.5:n yhteydessä syksyllä.

Hakukytkös on edelleen Geminin uniikki etu

Geminin oma erityisuus on Googlen reaaliaikainen hakuintegraatio. Päivittäin päivittyvät uutiset, hinnat ja faktat tulevat suoraan Search-indeksistä, eivät vanhentuneesta koulutusdatasta. Tämä on yksi syy, miksi ChatGPT-haun räjähdysmäinen kasvu on pakottanut Googlen vastaamaan aggressiivisesti AI Overview -laajennuksella. Gemini 3:n hakukytkös on uudistettu pohjia myöten ja vasteajat ovat lähteiden mukaan jopa puolittuneet.

Geminin asema saa kuitenkin lisähaastetta. xAI:n juuri julkaisema Grok 5 on multimodaalisissa testeissä lähes Geminin tasolla mutta selvästi edullisempi. AI-hakuun siirtyminen on samalla nostanut esiin Perplexityn ja SearchGPT:n kaltaiset erikoistoimijat, jotka haastavat Googlen ydinliiketoimintaa toisesta suunnasta.

Mitä tämä tarkoittaa enterprise-ostajalle?

Jos yritys suunnittelee AI-alustainvestointia, Geminin julkaisuun kannattaa odottaa. Helmikuu tarkoittaa, että hinnoittelu, datapaikka ja API-vakauden mittarit ovat tiedossa kevätbudjettiin mennessä. Päätös ei kannata tehdä ennen kuin julkiset benchmarkit ovat vahvistuneet.

Mediahankkeissa ja markkinointiautomaatiossa Gemini on jo nyt vahvempi vaihtoehto. Sen multimodaalisuus mahdollistaa kampanjamateriaalien tuottamisen yhdellä työnkululla, jolloin video, kuva ja teksti syntyvät rinnakkain. Tämä on osa-alue, jossa Anthropic ja OpenAI ovat selvästi jäljessä.

Gemini 3 ei välttämättä voita yhdessäkään yksittäisessä benchmarkissa, mutta keskiarvoltaan se on lähimpänä alan kärkeä mitä Google on koskaan ollut. Multimodaalisuuden osalta se on ylivoimainen, mutta koodausagenteissa Anthropic säilyttää selvän etumatkan vielä pitkään.

Vuotaneet luvut – vertailtuna kilpailijoihin

Koodi-puolella jäädään selvästi

Hakukytkös on edelleen Geminin uniikki etu

Mitä tämä tarkoittaa enterprise-ostajalle?

Lue myös /

Tekoäly nopeuttaa työtä — mutta pidentää istumista. Näin pidät kehosi kunnossa

Anthropic julkaisi Claude Opus 4.7:n – 1 miljoonan tokenin konteksti ja Computer Use 2.0

Aleph Alpha sai 200 M€ rahoituksen – Saksa haastaa amerikkalaiset enterprise-puolella