AI-projektien yleisin yllätys ei ole tekninen vaan taloudellinen. Token-laskut ovat 2026:n alkupuoliskolla ylittäneet yritysten ennakoidun yleisesti 5–10-kertaisesti, ja monessa tapauksessa ensimmäinen tuotantokuukauden lasku on jopa 20 kertaa odotettua suurempi. Tämä on yksi ehkä eniten väheksytyistä riskeistä koko AI-pinossa.
Tässä oppaassa käymme läpi kuusi konkreettista tekniikkaa, joilla saat tuotanto-AI:n kustannukset hallintaan. Jokainen niistä on testattu vähintään yhdessä suomalaisessa tuotantoympäristössä, ja niiden vaikutus on mitattavissa kuukausien sisällä käyttöönotosta.
Mallien hinnoittelu vertailtuna
Eri mallien hinnat vaihtelevat dramaattisesti. Tässä taulukko vertailee kahdeksaa yleisimmin käytettyä mallia hinnoittelun ja käyttötapauksen mukaan.
| Malli | Input ($/1M) | Output ($/1M) | Käyttötapaus |
|---|---|---|---|
| Claude Opus 4.7 | $15 | $75 | Vaativa päättely, koodaus |
| Claude Sonnet 4.6 | $3 | $15 | Yleiskäyttö |
| Claude Haiku 4.5 | $0.80 | $4 | Yksinkertaiset luokitukset |
| GPT-5 | $10 | $40 | Päättely, matikka |
| GPT-5 mini | $2.5 | $10 | Yleiskäyttö |
| Gemini 3 Pro | $2.5 | $10 | Multimodaaliset tehtävät |
| Gemini 3 Flash | $0.30 | $1.20 | Massa-erotehtävät |
| Mistral Large 3 | $0 (avoin) | $0 (oma rauta) | Self-hosted |
Tekniikka 1: malli-routing
Älä käytä Opusta yksinkertaisiin tehtäviin. Reititä kyselyt mallin vaativuuden mukaan: luokittelut Haikulle, yleiskysymykset Sonnetille, kovat agenttitehtävät Opukselle. Sama logiikka, jonka Cursor 2.0 toi koodausympäristöön. Multi-model routing leikkaa kuluja 60–80 prosenttia laadun säilyessä, kun reititysraja on hyvin määritelty.
Käytännön toteutuksessa kannattaa aloittaa yksinkertaisella säännöllä: kysely menee Haikulle, ellei se sisällä koodia tai päättelyä vaativia avainsanoja. Tarkempi reititys voi olla luokittelijapohjainen, jossa pieni malli päättää, mitä mallia varsinaiseen vastaukseen käytetään.
Tekniikka 2: prompt caching
Anthropic ja OpenAI tukevat molemmat prompt cachea: toistuvat osat promptista laskutetaan murto-osalla normaalihinnasta. Tämä on järjettömän suuri säästö RAG-järjestelmissä, joissa system prompt ja yleiset ohjeet ovat aina samat.
Käytännössä kun lähetät 200 saman päivän aikana kyselyä, joissa system prompt on identtinen, vain ensimmäinen maksaa täyden hinnan ja loput 199 saavat 90 prosentin alennuksen. RAG-järjestelmässä, jossa konteksti voi olla 50 000 tokenin mittainen, säästö on satoja euroja päivässä.

Tekniikka 3: lyhyemmät outputit
Output on tyypillisesti viisi kertaa kalliimpi kuin input. Pyydä mallia "vastaa enintään 3 lauseella", "kerro vain numero" tai "vastaa JSONina". Lyhyt vastaus tarkoittaa pienempää laskua, ja useimmissa tapauksissa lyhyempi vastaus on myös laadullisesti parempi.
Yksittäisessä tuotantojärjestelmässä tämä yksi muutos tiputti laskua 28 prosenttia kuukauden aikana, ilman että vastausten laatu kärsi. Yksinkertaisin tapa on lisätä max_tokens-rajaa pienemmäksi ja antaa mallille selkeä ohje vastauksen pituudesta.
Tekniikka 4: enterprise-sopimus
Jos kuukausilasku on yli 5 000 dollaria, kannattaa neuvotella enterprise-sopimuksesta. Anthropic ja OpenAI antavat tyypillisesti 20–40 prosentin alennuksen yli 100 000 token/min volyymeille. Anthropicin kasvavalla enterprise-asemalla on käytännön merkitys: kilpailu painaa hintoja alas, ja useat asiakkaat saavat jopa 50 prosentin alennuksen kahden vuoden sopimuksilla.
Tekniikka 5: batch-API
OpenAI ja Anthropic tarjoavat batch-API:n 50 prosentin alennuksella, vasteaika 24 tuntia välittömän sijaan. Käytä asynkronisiin tehtäviin: yöllä ajettava sisältöanalyysi, dataluokittelu, suuren mittakaavan embeddings-laskenta. Suomalainen sisältötalo, joka analysoi yöllä päivittäin 50 000 artikkelia, säästi kuukausittain noin 2 800 dollaria pelkästään tällä yhdellä muutoksella.
Tekniikka 6: cap + alert
Aseta pakolliset kuukausilaskucapit jokaiseen API-avaimeen. Lähetä hälytykset 50, 80 ja 95 prosentin rajoissa. Älä koskaan lähetä laskua reaalimaailmaan ilman, että sen tunnet etukäteen. Tämä on perussuojaus, joka ei ole valinnainen, vaikka monet järjestelmät käynnistetään ilman.
Konkreettinen esimerkki säästöistä
Esimerkkiyrityksellä, joka käsittelee 10 miljoonaa kysymystä kuukaudessa Claude Sonnetilla, lasku ennen optimointia: 42 000 dollaria kuukaudessa. Sama volyymi malli-routingin, prompt cachen ja lyhyiden outputtien jälkeen: 9 200 dollaria. Säästö 78 prosenttia. Vertaa tämä Opuksen ja muiden mallien spec-eroihin, niin näet, miksi malli-mix on ratkaiseva. Yhden tai kahden tekniikan käyttö antaa jo merkittäviä säästöjä, kaikkien kuuden yhdistelmä lähestyy maksimimäärää.
Jos rakennat RAG-järjestelmää, kattava pgvector + Claude -opas käy läpi konkreettiset säästövinkit järjestelmän jokaisessa kerroksessa. RAG:in tapauksessa kustannukset karkaavat erityisen helposti, sillä konteksti kasvaa nopeasti.
Tarkista kustannukset viikoittain
Useimmissa AI-tiimeissä token-kulut tarkistetaan vasta kuukauden lopussa. Suosittelemme viikoittaista tarkistusta, joka voidaan automatisoida helposti. Esimerkiksi joka maanantai aamulla raportti, joka näyttää edellisen viikon kulut per käyttötapaus, on minimi mitä tarvitaan kustannusten hallinnassa.
Token-kustannusten hallinta on enemmän tuoteinsinöörin kuin DevOps-asia. Pieniä päätöksiä päivittäin, joiden vaikutus näkyy laskussa kuukauden lopussa. Se, ettei kuluja seurata päivittäin, on usein syy isoihin yllätyksiin.
