Meta Llama 4 lähestyy – vuoto paljastaa MoE-arkkitehtuurin

Vuotanut tekninen dokumentaatio paljastaa, että Meta julkaisee Llama 4:n kesäkuussa. Suurin muutos edelliseen sukupolveen on Mixture-of-Experts -arkkitehtuuri. Malli sisältää yhteensä 405 miljardia parametria, mutta jokaisessa kyselyssä aktivoituu vain noin 56 miljardia. Käytännössä tämä tarkoittaa, että ajoaikainen lasku on selvästi pienempi kuin yhtä isossa täysissä aktivoiduissa malleissa.

Vuoto tuli yhdeltä Hugging Facen kontribuuttoreista, joka julkaisi dokumentit GitHub-haarassa ennen niiden poistoa. Pian sen jälkeen sama materiaali kiersi X-keskusteluissa ja kehittäjien Discord-kanavissa. Meta vahvisti epäsuorasti vuodon aitouden tiedotteessa, jossa yhtiö "valmistautuu malliperheen julkaisuun lähikuukausina".

Mikä Mixture-of-Experts on käytännössä

Mixture-of-Experts on viime vuosien tärkein arkkitehtuuriloikka kielimalleissa. Yksinkertaistettuna kyseessä on malli, joka koostuu useista "asiantuntijaverkoista". Jokaiselle syöteokeenille gating-verkko valitsee vain pari aktiivista asiantuntijaa, jotka käsittelevät tokenin. Loppuosa mallista pysyy lepotilassa, mikä säästää laskentaa merkittävästi ilman että laatu kärsii.

Lähestymistapaa käyttävät jo Mistral Mixtral, oletetusti GPT-5 ja Google Geminin uudemmat versiot. Llama 4 toisi saman tekniikan ensimmäistä kertaa täysin avoimena lähdekoodina.

Mallien koot ja arkkitehtuurit vertailussa

Vertailu auttaa hahmottamaan, mihin Llama 4 sijoittuu nykyisessä mallikartalla.

Lähde: Llama 4 -vuoto + julkiset arviot, toukokuu 2026
Malli	Yht. parametrit	Aktiiviset	Lisenssi	Inferenssi
Llama 4 (vuoto)	405 B	~56 B	Apache 2.0 (avoin)	Pyörii 8 × H100
Mistral Large 3	~140 B	Kaikki	Apache 2.0 (avoin)	Pyörii 4 × H100
GPT-5 (arviot)	1.8 T	~120 B (MoE)	Suljettu	API
Claude Opus 4.7	~800 B (arvio)	Kaikki	Suljettu	API
Gemini 3	~1.2 T	~100 B (MoE)	Suljettu	API

MoE-arkkitehtuuri on muuttunut puolen vuoden aikana käytännössä alan standardiksi. Samaa polkua on kulkenut Mistral Large 3, jonka avoimet painot vapautuivat juuri, joskin ilman MoE:tä. Llama 4 olisi ensimmäinen suuri MoE-malli täysin avoimena, mikä tekee siitä kiinnostavan myös tutkimusyhteisön kannalta. Ainakin Apache 2.0 -lisenssi viittaa siihen, että Meta jättää kaupalliset käyttöoikeudet avoimiksi.

Robottikäsi koskettaa ihmisen sormea — avoimen koodin AI saa kosketuspintaa

Mitä Llama 4 tarjoaa kehittäjille

Open source -lähestymistapa säilyy. Painot vapautuvat samana päivänä Hugging Faceen, ja Apache 2.0 -lisenssi antaa luvan kaupalliseen käyttöön ilman royaltyä. Tämä on ratkaiseva ero suljettuihin malleihin: kehittäjä voi ajaa Llama 4:ää omalla raudallaan ilman jokakuukauden API-kustannuksia.

Vaatimuksissa on kuitenkin reunaehto: täysi malli vaatii vähintään kahdeksan H100-korttia tai vastaavan, ja muistia käyttöön menee yli 800 GB. Tämä tarkoittaa, että käytännössä self-hosting on järkevää vain suurille yrityksille tai erikoiskäyttötapauksiin. Kvantisoidut versiot tulevat myöhemmin ja mahdollistavat ajamisen kuluttaja-GPU:llakin.

Vertailu kaupallisiin malleihin

Vuotaneet benchmarkit asettavat Llama 4:n suunnilleen Claude Sonnet 4.6:n tasolle. Tämä on merkittävä parannus aiempiin Llama-versioihin, jotka jäivät selvästi suljettujen mallien jalkoihin. Claude Opus 4.7 alan tämänhetkisenä kärkenä on edelleen Llaman edellä koodi- ja päättelytehtävissä, mutta avoin koodi tasoittaa eroa merkittävästi. Avoimen mallin etu ei näy vain hinnassa vaan myös kontrollissa: omaa instanssia voi virittää oman käyttötapauksen mukaan ilman, että data koskaan poistuu yrityksen verkosta.

Mihin tämä vaikuttaa suomalaisessa kontekstissa

Suomalaiselle yritykselle Llama 4:n avoimuus tarkoittaa konkreettista vaihtoehtoa, joka mahtuu EU AI Act -sääntelyn vaatimuksiin huomattavasti helpommin kuin API-pohjaiset suljetut mallit. Erityisesti terveydenhuollon, vakuutus- ja luottoalan toimijoille self-hosted-vaihtoehto on usein ainoa juridisesti realistinen tapa hyödyntää huippuluokan kielimalleja.

Käytännössä tämä tarkoittaa, että Llama 4 tulee todennäköisesti yleistymään hitaammin mutta syvällisemmin: yksittäisellä yrityksellä voi olla yksi self-hosted instanssi, jota käyttää sata työntekijää, sen sijaan että samat ihmiset käyttäisivät ChatGPT:n Pro-tilauksia erikseen.

Llama 4 on todennäköisesti viimeinen täysin avoin huippumalli pitkään aikaan. Meta on viestinyt, että seuraava sukupolvi voi jäädä osittain suljetuksi, kun koulutuskustannukset karkaavat miljardiluokkaan. Ilmainen lounas on lopullaan, mutta tämä lounas on vielä todella maukas.

Mikä Mixture-of-Experts on käytännössä

Mallien koot ja arkkitehtuurit vertailussa

Mitä Llama 4 tarjoaa kehittäjille

Vertailu kaupallisiin malleihin

Mihin tämä vaikuttaa suomalaisessa kontekstissa

Lue myös /

Tekoäly nopeuttaa työtä — mutta pidentää istumista. Näin pidät kehosi kunnossa

Anthropic julkaisi Claude Opus 4.7:n – 1 miljoonan tokenin konteksti ja Computer Use 2.0

Aleph Alpha sai 200 M€ rahoituksen – Saksa haastaa amerikkalaiset enterprise-puolella