2 wpisów
Koszt tokenów LLM rośnie szybciej niż planowany budżet AI. Jak mierzyć zużycie, gdzie są ukryte koszty i które wzorce optymalizacji naprawdę działają w produkcji.
Prompt caching LLM w 2026: czym jest cache stałego prefiksu, czym różni się od cache semantycznego i jak ustrukturyzować prompt, żeby trafił w cache.