Witajcie w Warsztacie!
Koniec miesiąca, logujecie się na dashboard swojego dostawcy API (OpenAI, Anthropic, Google), patrzycie na rachunek i łapiecie się za głowę. Znamy to wszyscy. Potężne modele dają świetne wyniki, ale potrafią pożerać tokeny w zastraszającym tempie, jeśli nie pilnujemy, co dokładnie do nich wysyłamy.
Oto moje 3 żelazne zasady z Kuźni, dzięki którym rachunki za API przestały przypominać ratę za samochód:
1. Model Routing (Dobieraj młotek do gwoździa)
Nie potrzebujecie Opus’a 4.6 ani GPT-5.4 do formatowania tekstu z JSON-a do Markdowna. Zaprzęgajcie najpotężniejsze (i najdroższe) modele tylko do skomplikowanej logiki i trudnego kodu. Do prostych, powtarzalnych zadań wrzucajcie szybkie, tanie modele “Flash” lub “Haiku”. Różnica w cenie potrafi być 50-krotna!
2. Prompt Caching (Hit tego roku)
Jeśli w każdym prompcie wrzucacie ten sam 100-stronicowy plik z dokumentacją waszego projektu – tracicie fortunę. Upewnijcie się, że wasz kod / narzędzie korzysta z Prompt Cachingu. Płacicie za ten potężny kontekst tylko raz, a potem wywołujecie go za ułamek centa.
Ewentualnie korzystajcie z rozwiązań, które buduje bazę Waszego kodu, dzięki czemu model nie musi czytać go za każdym razem, typu - GrapeRoot (Codex-CLI-Compact) – ratunek na zużycie tokenów czy niebezpieczny kod?
3. Kompresja instrukcji systemowych
Zamiast pisać: “Jesteś pomocnym asystentem, który odpowiada krótko i używa wypunktowań, bo to ułatwia czytanie…”
Napiszcie: “Odpisuj zwięźle. Używaj bullet pointów.” Brzmi jak banał, ale przy setkach zapytań dziennie, te kilkadziesiąt tokenów robi różnicę.
A jakie są Wasze patenty? Wolicie ciąć kontekst, kompresować kod przed wysłaniem, czy po prostu zmieniacie dostawcę na tańszego? Podzielcie się swoimi sztuczkami w komentarzach! ![]()