Vuotanut tekninen dokumentaatio paljastaa, että Meta julkaisee Llama 4:n kesäkuussa. Suurin muutos edelliseen sukupolveen on Mixture-of-Experts -arkkitehtuuri. Malli sisältää yhteensä 405 miljardia parametria, mutta jokaisessa kyselyssä aktivoituu vain noin 56 miljardia. Käytännössä tämä tarkoittaa, että ajoaikainen lasku on selvästi pienempi kuin yhtä isossa täysissä aktivoiduissa malleissa.
Vuoto tuli yhdeltä Hugging Facen kontribuuttoreista, joka julkaisi dokumentit GitHub-haarassa ennen niiden poistoa. Pian sen jälkeen sama materiaali kiersi X-keskusteluissa ja kehittäjien Discord-kanavissa. Meta vahvisti epäsuorasti vuodon aitouden tiedotteessa, jossa yhtiö "valmistautuu malliperheen julkaisuun lähikuukausina".
Mikä Mixture-of-Experts on käytännössä
Mixture-of-Experts on viime vuosien tärkein arkkitehtuuriloikka kielimalleissa. Yksinkertaistettuna kyseessä on malli, joka koostuu useista "asiantuntijaverkoista". Jokaiselle syöteokeenille gating-verkko valitsee vain pari aktiivista asiantuntijaa, jotka käsittelevät tokenin. Loppuosa mallista pysyy lepotilassa, mikä säästää laskentaa merkittävästi ilman että laatu kärsii.
Lähestymistapaa käyttävät jo Mistral Mixtral, oletetusti GPT-5 ja Google Geminin uudemmat versiot. Llama 4 toisi saman tekniikan ensimmäistä kertaa täysin avoimena lähdekoodina.
Mallien koot ja arkkitehtuurit vertailussa
Vertailu auttaa hahmottamaan, mihin Llama 4 sijoittuu nykyisessä mallikartalla.
| Malli | Yht. parametrit | Aktiiviset | Lisenssi | Inferenssi |
|---|---|---|---|---|
| Llama 4 (vuoto) | 405 B | ~56 B | Apache 2.0 (avoin) | Pyörii 8 × H100 |
| Mistral Large 3 | ~140 B | Kaikki | Apache 2.0 (avoin) | Pyörii 4 × H100 |
| GPT-5 (arviot) | 1.8 T | ~120 B (MoE) | Suljettu | API |
| Claude Opus 4.7 | ~800 B (arvio) | Kaikki | Suljettu | API |
| Gemini 3 | ~1.2 T | ~100 B (MoE) | Suljettu | API |
MoE-arkkitehtuuri on muuttunut puolen vuoden aikana käytännössä alan standardiksi. Samaa polkua on kulkenut Mistral Large 3, jonka avoimet painot vapautuivat juuri, joskin ilman MoE:tä. Llama 4 olisi ensimmäinen suuri MoE-malli täysin avoimena, mikä tekee siitä kiinnostavan myös tutkimusyhteisön kannalta. Ainakin Apache 2.0 -lisenssi viittaa siihen, että Meta jättää kaupalliset käyttöoikeudet avoimiksi.

Mitä Llama 4 tarjoaa kehittäjille
Open source -lähestymistapa säilyy. Painot vapautuvat samana päivänä Hugging Faceen, ja Apache 2.0 -lisenssi antaa luvan kaupalliseen käyttöön ilman royaltyä. Tämä on ratkaiseva ero suljettuihin malleihin: kehittäjä voi ajaa Llama 4:ää omalla raudallaan ilman jokakuukauden API-kustannuksia.
Vaatimuksissa on kuitenkin reunaehto: täysi malli vaatii vähintään kahdeksan H100-korttia tai vastaavan, ja muistia käyttöön menee yli 800 GB. Tämä tarkoittaa, että käytännössä self-hosting on järkevää vain suurille yrityksille tai erikoiskäyttötapauksiin. Kvantisoidut versiot tulevat myöhemmin ja mahdollistavat ajamisen kuluttaja-GPU:llakin.
Vertailu kaupallisiin malleihin
Vuotaneet benchmarkit asettavat Llama 4:n suunnilleen Claude Sonnet 4.6:n tasolle. Tämä on merkittävä parannus aiempiin Llama-versioihin, jotka jäivät selvästi suljettujen mallien jalkoihin. Claude Opus 4.7 alan tämänhetkisenä kärkenä on edelleen Llaman edellä koodi- ja päättelytehtävissä, mutta avoin koodi tasoittaa eroa merkittävästi. Avoimen mallin etu ei näy vain hinnassa vaan myös kontrollissa: omaa instanssia voi virittää oman käyttötapauksen mukaan ilman, että data koskaan poistuu yrityksen verkosta.
Mihin tämä vaikuttaa suomalaisessa kontekstissa
Suomalaiselle yritykselle Llama 4:n avoimuus tarkoittaa konkreettista vaihtoehtoa, joka mahtuu EU AI Act -sääntelyn vaatimuksiin huomattavasti helpommin kuin API-pohjaiset suljetut mallit. Erityisesti terveydenhuollon, vakuutus- ja luottoalan toimijoille self-hosted-vaihtoehto on usein ainoa juridisesti realistinen tapa hyödyntää huippuluokan kielimalleja.
Käytännössä tämä tarkoittaa, että Llama 4 tulee todennäköisesti yleistymään hitaammin mutta syvällisemmin: yksittäisellä yrityksellä voi olla yksi self-hosted instanssi, jota käyttää sata työntekijää, sen sijaan että samat ihmiset käyttäisivät ChatGPT:n Pro-tilauksia erikseen.
Llama 4 on todennäköisesti viimeinen täysin avoin huippumalli pitkään aikaan. Meta on viestinyt, että seuraava sukupolvi voi jäädä osittain suljetuksi, kun koulutuskustannukset karkaavat miljardiluokkaan. Ilmainen lounas on lopullaan, mutta tämä lounas on vielä todella maukas.
