Google julkaisee Gemini 3:n helmikuussa, kertovat ulteh.fi:n haastattelemat kaksi sisäpiirilähdettä. Mallin benchmarkit ovat vuotaneet kehittäjien keskustelukanaviin viime viikolla, ja niiden perusteella suorituskyky on noussut selvästi Gemini 2.5:stä lähes jokaisella mittarilla. Vuoto ajoittui kiusalliseen hetkeen, sillä Google itse oli aikonut hallita uutista helmikuun tuotetapahtumaan saakka.
Lähteidemme mukaan vuoto tuli yhdeltä DeepMindin entiseltä työntekijältä, joka oli kopioinut mittausraportit ennen siirtymistään toiseen yhtiöön. Google ei ole ottanut kantaa lukujen aitouteen, mutta sisäisesti niiden vahvistettiin olevan oikein.
Vuotaneet luvut – vertailtuna kilpailijoihin
Pelkät luvut eivät kerro kaikkea, mutta antavat lähtökohdan. Tämä on kokoava taulukko Gemini 3:n vuotaneista mittauksista verrattuna alan tämänhetkisiin kärkimalleihin.
| Mittari | Gemini 3 | Claude Opus 4.7 | GPT-5 | Gemini 2.5 |
|---|---|---|---|---|
| MMLU | 92.4 | 91.8 | 93.0 | 88.1 |
| HumanEval+ | 89.0 | 94.2 | 89.0 | 82.5 |
| MATH-500 | 96.1 | 92.7 | 98.1 | 92.4 |
| MMMU (multimodaalinen) | 78.5 | 71.2 | 73.8 | 70.1 |
| Video-MME | 82.3 | — | — | 76.4 |
Yksikäänyksittäinen luku ei tee Gemini 3:sta selvää voittajaa, mutta multimodaalisessa ymmärryksessä se on selvä alan kärki. Video, kuva ja audio ovat olleet Geminin vahvuusalueita versiosta 1.0 lähtien, ja kolmas sukupolvi vahvistaa tätä asetelmaa entisestään. Kolmen suosituimman mallin yritysvertailu kannattaa lukea kun on aika tehdä alustavalinta, sillä jokaisella on selvä vahvuusalueensa.

Koodi-puolella jäädään selvästi
HumanEval-luku 89.0 on hyvä mutta jää selvästi Claude Opus 4.7:n 94.2:n alle ja vain GPT-5:n tasolle. Käytännön kehittäjätyössä ero näkyy: monimutkaiset refaktoroinnit, joissa muutoksia tulee kymmeneen tiedostoon kerralla, sujuvat Claudella johdonmukaisemmin.
Sisäpiirilähteemme kertoivat, että Google on tietoisesti panostanut multimodaalisuuteen koodi-puolen sijaan, sillä yhtiön strategia on rakentaa Gemini Workspacesin ja Pixelin ympärille ennemmin kuin kehittäjätyökaluksi. Koodaajat saavat oman versionsa myöhemmin, oletettavasti Gemini 3.5:n yhteydessä syksyllä.
Hakukytkös on edelleen Geminin uniikki etu
Geminin oma erityisuus on Googlen reaaliaikainen hakuintegraatio. Päivittäin päivittyvät uutiset, hinnat ja faktat tulevat suoraan Search-indeksistä, eivät vanhentuneesta koulutusdatasta. Tämä on yksi syy, miksi ChatGPT-haun räjähdysmäinen kasvu on pakottanut Googlen vastaamaan aggressiivisesti AI Overview -laajennuksella. Gemini 3:n hakukytkös on uudistettu pohjia myöten ja vasteajat ovat lähteiden mukaan jopa puolittuneet.
Geminin asema saa kuitenkin lisähaastetta. xAI:n juuri julkaisema Grok 5 on multimodaalisissa testeissä lähes Geminin tasolla mutta selvästi edullisempi. AI-hakuun siirtyminen on samalla nostanut esiin Perplexityn ja SearchGPT:n kaltaiset erikoistoimijat, jotka haastavat Googlen ydinliiketoimintaa toisesta suunnasta.
Mitä tämä tarkoittaa enterprise-ostajalle?
Jos yritys suunnittelee AI-alustainvestointia, Geminin julkaisuun kannattaa odottaa. Helmikuu tarkoittaa, että hinnoittelu, datapaikka ja API-vakauden mittarit ovat tiedossa kevätbudjettiin mennessä. Päätös ei kannata tehdä ennen kuin julkiset benchmarkit ovat vahvistuneet.
Mediahankkeissa ja markkinointiautomaatiossa Gemini on jo nyt vahvempi vaihtoehto. Sen multimodaalisuus mahdollistaa kampanjamateriaalien tuottamisen yhdellä työnkululla, jolloin video, kuva ja teksti syntyvät rinnakkain. Tämä on osa-alue, jossa Anthropic ja OpenAI ovat selvästi jäljessä.
Gemini 3 ei välttämättä voita yhdessäkään yksittäisessä benchmarkissa, mutta keskiarvoltaan se on lähimpänä alan kärkeä mitä Google on koskaan ollut. Multimodaalisuuden osalta se on ylivoimainen, mutta koodausagenteissa Anthropic säilyttää selvän etumatkan vielä pitkään.
