Wizualizacja procesu generowania tekstu

Jak to działa: Model AI przewiduje najbardziej prawdopodobny następny token na podstawie kontekstu. To nie magia, a matematyczne prawdopodobieństwo - dla każdego możliwego tokenu model oblicza szanse jego wystąpienia i wybiera najlepszy (lub losuje z ważonym prawdopodobieństwem).

W skrócie: Tokeny to podstawowe jednostki tekstu przetwarzane przez modele AI. Jedno polskie słowo to średnio 1,5–2,5 tokena. Okno kontekstowe modelu (od 8K do 2M tokenów w 2026 r.) określa, ile tekstu model może przetworzyć jednocześnie. Koszt korzystania z API modeli jest naliczany za liczbę tokenów — od $0,07 do $75 za milion tokenów wejściowych, w zależności od modelu.

Generowanie tokenów przez AI

Sztuczna inteligencja, taka jak ChatGPT, Claude, Gemini czy DeepSeek, generuje tekst za pomocą złożonego procesu opartego na tokenach. Tokeny stanowią fundament komunikacji między człowiekiem a maszyną, umożliwiając modelom AI tworzenie płynnych i sensownych odpowiedzi.

Każda interakcja z modelem językowym — od prostego pytania po wielogodzinną konwersację — jest przetwarzana jako sekwencja tokenów. Zrozumienie tego mechanizmu pozwala lepiej wykorzystać możliwości AI, unikać przekraczania limitów kontekstu i optymalizować koszty korzystania z API.

Czym są tokeny?

Tokeny to podstawowe jednostki, na które dzielony jest tekst podczas przetwarzania przez AI. Większość współczesnych modeli językowych używa algorytmu Byte-Pair Encoding (BPE) lub jego wariantów do podziału tekstu. Algorytm ten uczy się najczęstszych par bajtów w danych treningowych i łączy je w coraz większe jednostki — stąd „token" nie zawsze odpowiada jednemu słowu.

W zależności od języka i kontekstu, tokenami mogą być:

  • Całe słowa – często występujące, krótkie słowa (np. „the", „kot", „jest")
  • Części słów – fragmenty dłuższych lub rzadziej używanych wyrazów (np. „gener" + „owanie")
  • Znaki interpunkcyjne – przecinki, kropki, cudzysłowy, nawiasy
  • Przedrostki i przyrostki – charakterystyczne dla języków fleksyjnych jak polski (np. „prze-", „-anie", „-ować")
  • Pojedyncze znaki lub bajty – w przypadku rzadkich, specjalistycznych terminów lub znaków Unicode

Dla orientacji: zdanie po angielsku „Artificial intelligence is transforming the world" to 8 tokenów, ale jego polski odpowiednik „Sztuczna inteligencja zmienia świat" to 7–9 tokenów w zależności od tokenizera, mimo że zawiera mniej słów. Wynika to z mniejszej reprezentacji polskich morfemów w danych treningowych modeli — zagadnienie opisane w badaniach Petrov i in. (2023) dotyczących nierówności kosztów tokenizacji między językami.

Tokenizacja polskiego vs. angielskiego

Polski, jako język fleksyjny z bogatą morfologią, jest tokenizowany mniej efektywnie niż angielski. Według analizy „Language Model Tokenizers Introduce Unfairness Between Languages", tekst w języku polskim generuje średnio o 40–60% więcej tokenów niż równoważny tekst angielski.

Ma to realne konsekwencje:

  • Wyższe koszty API — ta sama treść w języku polskim kosztuje więcej niż po angielsku
  • Szybsze wyczerpywanie okna kontekstowego — w polskim „mieści się" mniej tekstu
  • Wolniejsze generowanie — model musi wygenerować więcej tokenów dla tej samej długości odpowiedzi
💡
Przykład: Zdanie „Sztuczna inteligencja może pomóc w wielu dziedzinach życia" to w tokenizerze GPT-4 około 18 tokenów, podczas gdy angielskie „Artificial intelligence can help in many areas of life" to tylko 10 tokenów. Różnica wynosi 80% — i tak wygląda to w przypadku prostych zdań. Przy złożonej polskiej terminologii prawniczej lub medycznej różnica może sięgać 100%.

Okno kontekstowe — ile model „pamięta"

Okno kontekstowe (context window) to maksymalna liczba tokenów, którą model może jednocześnie przetworzyć — obejmuje zarówno dane wejściowe (Twój prompt i cała historia konwersacji), jak i generowaną odpowiedź. Jest to jeden z najważniejszych parametrów technicznych modeli LLM.

W ciągu zaledwie 2 lat okna kontekstowe wzrosły ponad 250-krotnie — z 4 096 tokenów w GPT-3.5 (marzec 2023) do ponad 1 000 000 tokenów w Gemini 1.5 Pro (luty 2024), a w 2025 roku Google udostępnił Gemini 2.0 z oknem 2 000 000 tokenów.

Model Producent Okno kontekstowe Odpowiednik w tekście
GPT-4o OpenAI 128K tokenów ~96 000 słów (~300 stron)
GPT-4.1 OpenAI 1M tokenów ~750 000 słów (~2 500 stron)
Claude Opus / Sonnet 4 Anthropic 200K tokenów ~150 000 słów (~500 stron)
Gemini 2.5 Pro Google 1M tokenów ~750 000 słów (~2 500 stron)
DeepSeek-V3 DeepSeek 128K tokenów ~96 000 słów (~300 stron)
Llama 4 Maverick Meta 1M tokenów ~750 000 słów (~2 500 stron)

Źródła: dokumentacja OpenAI, Anthropic, Google DeepMind, DeepSeek, Meta AI. Stan na marzec 2026.

Warto wiedzieć, że duże okno kontekstowe nie oznacza idealnej „pamięci". Badanie „Lost in the Middle" (Liu i in., 2023) wykazało, że modele najlepiej przetwarzają informacje na początku i na końcu kontekstu, a gorzej radzą sobie z danymi umieszczonymi w środku. Nowsze modele (Claude 3.5+, GPT-4 Turbo+) znacząco poprawiły to zachowanie, ale efekt nadal występuje.

Proces generowania tekstu krok po kroku

Model AI tworzy odpowiedzi w sekwencyjnym procesie autoregresyjnym — przewiduje jeden token na raz, a następnie dodaje go do kontekstu i przewiduje kolejny. Cały proces można podzielić na etapy:

  • Tokenizacja wejścia – Twoje pytanie jest dzielone na tokeny za pomocą algorytmu BPE. Np. zdanie „Jak działa sztuczna inteligencja?" zostaje zamienione na ciąg identyfikatorów liczbowych
  • Embeddding i kodowanie pozycji – Każdy token jest zamieniany na wektor liczbowy (embedding) i otrzymuje informację o swojej pozycji w sekwencji
  • Przetwarzanie przez warstwy Transformer – Sekwencja przechodzi przez dziesiątki warstw sieci neuronowej, gdzie mechanizm uwagi (attention) pozwala każdemu tokenowi „komunikować się" z pozostałymi
  • Przewidywanie następnego tokenu – Na podstawie przetworzonego kontekstu model oblicza rozkład prawdopodobieństwa dla ~100 000 możliwych kolejnych tokenów
  • Próbkowanie – Zamiast zawsze wybierać najbardziej prawdopodobny token, model stosuje techniki takie jak temperature (kontrola losowości) i top-p (nucleus sampling), wprowadzając element różnorodności
  • Iteracja – Wygenerowany token jest dodawany do kontekstu, a proces powtarza się aż do napotkania tokenu końca sekwencji (EOS) lub osiągnięcia limitu

Cały ten cykl powtarza się setki lub tysiące razy w trakcie generowania jednej odpowiedzi. Model GPT-4 wykonuje około 30–100 tokenów na sekundę (w zależności od obciążenia serwera), co oznacza, że średnia odpowiedź (300–500 tokenów) generowana jest w 5–15 sekund.

Temperature i kontrola generowania

Parametr temperature kontroluje stopień losowości w wyborze tokenów i jest kluczowy dla jakości generowanego tekstu:

  • Temperature = 0 — model zawsze wybiera najbardziej prawdopodobny token. Wynik jest deterministyczny i powtarzalny. Idealne dla zadań wymagających precyzji: tłumaczenia, wyciąganie danych, klasyfikacja
  • Temperature = 0,3–0,7 — zbalansowane podejście, łączące spójność z kreatywnością. Domyślne ustawienie większości chatbotów
  • Temperature = 1,0+ — wysoka losowość, model częściej wybiera mniej prawdopodobne tokeny. Przydatne w burzy mózgów, pisaniu kreatywnym, generowaniu wielu wariantów

Innym ważnym parametrem jest top-p (nucleus sampling) — zamiast rozpatrywać wszystkie możliwe tokeny, model bierze pod uwagę tylko te, których skumulowane prawdopodobieństwo osiąga wartość p (np. 0,9). Zmniejsza to ryzyko generowania nonsensownych tokenów bez eliminowania różnorodności.

Mechanizmy zapewniające spójność

Tworzenie sensownych, wieloakapitowych odpowiedzi wymaga utrzymania spójności w całym generowanym tekście. Model osiąga to dzięki kilku kluczowym mechanizmom:

  • Mechanizm uwagi (Self-Attention) – wprowadzony w przełomowej pracy „Attention Is All You Need" (Vaswani i in., 2017), pozwala modelowi ważyć znaczenie każdego tokenu w kontekście względem wszystkich pozostałych. Dzięki temu model „pamięta" temat rozmowy sprzed tysięcy tokenów
  • Multi-Head Attention – model utrzymuje wiele równoległych „głowic uwagi", z których każda specjalizuje się w innym aspekcie: jedna śledzi gramatykę, inna relacje semantyczne, jeszcze inna koreferencję (np. do kogo odnosi się „on")
  • Wewnętrzne reprezentacje (embeddingi) – model buduje wielowymiarowe (tysiące wymiarów) reprezentacje znaczeń, w których bliskość wektorów odzwierciedla bliskość pojęć
  • Warstwy normalizacji i residualne – zapobiegają „zanikaniu gradientów" w głębokich sieciach, umożliwiając stabilne przetwarzanie długich kontekstów

Koszty tokenów — cennik modeli AI (2026)

Dostawcy API modeli językowych rozliczają się za liczbę przetworzonych tokenów. Cena zależy od modelu, a tokeny wejściowe (prompt) są zwykle tańsze od wyjściowych (odpowiedź). Poniższa tabela przedstawia aktualne ceny za milion tokenów:

Model Input (za 1M tokenów) Output (za 1M tokenów) Koszt strony A4 (~750 tokenów EN)
GPT-4o $2,50 $10,00 ~$0,002
GPT-4o mini $0,15 $0,60 ~$0,0001
Claude Sonnet 4 $3,00 $15,00 ~$0,002
Claude Haiku 3.5 $0,80 $4,00 ~$0,0006
Gemini 2.5 Pro $1,25 $10,00 ~$0,001
DeepSeek-V3 $0,27 $1,10 ~$0,0002

Źródła: oficjalne cenniki OpenAI, Anthropic, Google, DeepSeek. Stan na marzec 2026. Ceny mogą się zmieniać.

💡
Praktyczna wskazówka: Ponieważ polski tekst generuje o 40–60% więcej tokenów niż angielski, koszty API dla polskojęzycznych aplikacji są proporcjonalnie wyższe. Przy dużej skali warto rozważyć: (1) wysyłanie instrukcji systemowych po angielsku, a treści użytkownika po polsku, lub (2) użycie bardziej ekonomicznych modeli (GPT-4o mini, DeepSeek-V3) do zadań niewymagających najwyższej jakości.

Dlaczego zrozumienie tokenów jest ważne?

Znajomość mechanizmów tokenizacji to nie tylko ciekawostka techniczna — ma praktyczne znaczenie przy codziennej pracy z AI:

  • Optymalizacja kosztów — świadomość, ile tokenów zużywa Twój prompt, pozwala zmniejszyć rachunki za API nawet o 50% przez eliminację redundancji w instrukcjach systemowych
  • Unikanie ucinania kontekstu — gdy konwersacja zbliża się do limitu okna kontekstowego, model zaczyna „zapominać" wcześniejsze informacje. Wiedza o limitach pozwala planować długie rozmowy
  • Efektywność w języku polskim — świadomość narzutu tokenizacyjnego (40–60% więcej tokenów niż angielski) pomaga projektować prompty bardziej zwięźle
  • Wybór odpowiedniego modelu — do analizy 100-stronicowego dokumentu potrzebujesz modelu z oknem min. 100K tokenów (Claude, GPT-4 Turbo, Gemini Pro), a nie modelu z 8K kontekstem
  • Debugowanie odpowiedzi — gdy model generuje dziwne artefakty (np. „nienie" zamiast „nie") lub przerywa w połowie zdania, zrozumienie tokenizacji pomaga zdiagnozować problem

Najczęściej zadawane pytania

Ile tokenów ma jedno polskie słowo?

Średnio 1,5–2,5 tokena, w zależności od długości i częstotliwości słowa w danych treningowych. Krótkie, popularne słowa (np. „jest", „nie", „tak") to zazwyczaj 1 token. Dłuższe lub rzadsze słowa (np. „przeprowadzenie", „przedsiębiorczość") mogą wymagać 3–5 tokenów. Dla porównania, angielskie słowo to średnio 1–1,3 tokena.

Czym różni się okno kontekstowe od „pamięci" modelu?

Okno kontekstowe to jednorazowy bufor przetwarzania — model widzi wszystko, co jest w nim zawarte, ale nie zapamiętuje niczego między sesjami. Funkcje „pamięci" w ChatGPT czy Claude to osobny mechanizm, w którym model zapisuje kluczowe informacje w trwałym magazynie, niezależnie od okna kontekstowego. Okno kontekstowe to „pamięć robocza" (RAM), a memory to „dysk twardy".

Czy mogę sprawdzić, ile tokenów ma mój tekst?

Tak. OpenAI udostępnia bezpłatne narzędzie Tokenizer, które wizualizuje podział tekstu na tokeny dla modeli GPT. Anthropic oferuje analogiczne narzędzie w swoim API do liczenia tokenów. Dla programistów dostępna jest biblioteka open-source tiktoken (Python), która pozwala programistycznie liczyć tokeny.

Dlaczego modele mają limit tokenów wyjściowych?

Oprócz okna kontekstowego, modele mają osobny limit maksymalnej długości generowanej odpowiedzi (np. GPT-4o: 16 384 tokenów, Claude Sonnet 4: 16 000 tokenów). Limit ten wynika z: (1) kosztów obliczeniowych — dłuższe generowanie wymaga więcej GPU, (2) jakości — przy bardzo długich odpowiedziach rośnie ryzyko powtórzeń i halucynacji, (3) bezpieczeństwa — zapobiega niekontrolowanemu generowaniu.

Teraz wiesz:
  • Czym są tokeny i jak algorytm BPE dzieli tekst na jednostki przetwarzane przez modele AI
  • Dlaczego polski tekst wymaga 40–60% więcej tokenów niż angielski i jak to wpływa na koszty
  • Jak porównać okna kontekstowe modeli — od 128K (GPT-4o) do 2M tokenów (Gemini 2.0)
  • Jak temperature i top-p kontrolują kreatywność i spójność generowanego tekstu
  • Ile kosztują tokeny w API i jak optymalizować wydatki

Następny krok: Embedding — dowiesz się, jak AI zamienia słowa w wektory liczbowe i dzięki temu „rozumie" znaczenie i podobieństwo tekstów.

Poprzedni Modele językowe (LLM) Następny Embedding