Jak przestać przepalać tokeny w API? Moje TOP 3 techniki optymalizacji

Witajcie w Warsztacie!

Koniec miesiąca, logujecie się na dashboard swojego dostawcy API (OpenAI, Anthropic, Google), patrzycie na rachunek i łapiecie się za głowę. Znamy to wszyscy. Potężne modele dają świetne wyniki, ale potrafią pożerać tokeny w zastraszającym tempie, jeśli nie pilnujemy, co dokładnie do nich wysyłamy.

Oto moje 3 żelazne zasady z Kuźni, dzięki którym rachunki za API przestały przypominać ratę za samochód:

1. Model Routing (Dobieraj młotek do gwoździa)

Nie potrzebujecie Opus’a 4.6 ani GPT-5.4 do formatowania tekstu z JSON-a do Markdowna. Zaprzęgajcie najpotężniejsze (i najdroższe) modele tylko do skomplikowanej logiki i trudnego kodu. Do prostych, powtarzalnych zadań wrzucajcie szybkie, tanie modele “Flash” lub “Haiku”. Różnica w cenie potrafi być 50-krotna!

2. Prompt Caching (Hit tego roku)

Jeśli w każdym prompcie wrzucacie ten sam 100-stronicowy plik z dokumentacją waszego projektu – tracicie fortunę. Upewnijcie się, że wasz kod / narzędzie korzysta z Prompt Cachingu. Płacicie za ten potężny kontekst tylko raz, a potem wywołujecie go za ułamek centa.

Ewentualnie korzystajcie z rozwiązań, które buduje bazę Waszego kodu, dzięki czemu model nie musi czytać go za każdym razem, typu - GrapeRoot (Codex-CLI-Compact) – ratunek na zużycie tokenów czy niebezpieczny kod?

3. Kompresja instrukcji systemowych

Zamiast pisać: “Jesteś pomocnym asystentem, który odpowiada krótko i używa wypunktowań, bo to ułatwia czytanie…”
Napiszcie: “Odpisuj zwięźle. Używaj bullet pointów.” Brzmi jak banał, ale przy setkach zapytań dziennie, te kilkadziesiąt tokenów robi różnicę.

A jakie są Wasze patenty? Wolicie ciąć kontekst, kompresować kod przed wysłaniem, czy po prostu zmieniacie dostawcę na tańszego? Podzielcie się swoimi sztuczkami w komentarzach! :backhand_index_pointing_down: