Parametry modeli AI - Temperature, Top-P, Max Tokens
Dlaczego parametry mają znaczenie?
Modele językowe to nie "czarne skrzynki" z jednym przyciskiem. Możesz kontrolować ich zachowanie za pomocą parametrów. Odpowiednie ustawienia mogą znacząco poprawić jakość odpowiedzi - lub ją zepsuć, jeśli nie wiesz, co robisz.
W tym rozdziale poznasz najważniejsze parametry i nauczysz się je efektywnie wykorzystywać.
Temperature - kontrola kreatywności
Temperature (temperatura) kontroluje "losowość" odpowiedzi modelu. To jeden z najważniejszych parametrów.
Model generuje kolejne słowa wybierając z listy kandydatów. Temperatura wpływa na to, jak bardzo "ryzykowne" wybory model podejmuje.
| Temperatura | Zachowanie | Najlepsze dla |
|---|---|---|
| 0 | Deterministyczny - zawsze wybiera najbardziej prawdopodobne słowo | Fakty, obliczenia, kod |
| 0.1 - 0.3 | Bardzo spójny, minimalna wariacja | Analiza, ekstrakcja danych |
| 0.4 - 0.6 | Zbalansowany | Ogólne zadania, pisanie biznesowe |
| 0.7 - 0.9 | Kreatywny, zróżnicowany | Burza mózgów, pisanie kreatywne |
| 1.0+ | Bardzo losowy, może być chaotyczny | Eksperymenty artystyczne |
Zacznij od temperatury 0.7 dla większości zadań. Obniżaj dla faktów i kodu, podwyższaj dla kreatywności.
Top P (Nucleus Sampling)
Top P (zwany też nucleus sampling) to alternatywny sposób kontrolowania losowości. Zamiast wpływać na "ostrość" dystrybucji, ogranicza pulę kandydatów.
Top P = 0.9 oznacza: "wybieraj tylko spośród słów, które łącznie mają 90% prawdopodobieństwa". Odcina mało prawdopodobne (często dziwne) wybory.
| Top P | Efekt |
|---|---|
| 0.1 | Tylko najbardziej prawdopodobne słowa - bardzo przewidywalne |
| 0.5 | Umiarkowana różnorodność |
| 0.9 | Standardowe ustawienie - dobra równowaga |
| 1.0 | Wszystkie słowa mogą być wybrane |
Nie zmieniaj temperatury i top_p jednocześnie! Wybierz jeden parametr i dostosuj go. Większość ekspertów zaleca modyfikację temperatury i zostawienie top_p na 1.0.
Max Tokens - limit długości
Max Tokens określa maksymalną długość odpowiedzi (w tokenach, nie słowach).
Token to fragment tekstu - może to być słowo, część słowa, lub znak interpunkcyjny. W języku angielskim średnio 1 token ≈ 0.75 słowa. W polskim może być więcej tokenów na słowo.
Typowe ustawienia:
- 100-300 - krótkie odpowiedzi, streszczenia
- 500-1000 - standardowe odpowiedzi
- 2000-4000 - dłuższe artykuły, szczegółowe analizy
- 8000+ - bardzo długie dokumenty
Płacisz za tokeny wejściowe + wyjściowe. Zbyt wysoki max_tokens nie zwiększa kosztów, dopóki model faktycznie nie wygeneruje tylu tokenów.
Stop Sequences - kontrola zakończenia
Stop Sequences to sekwencje znaków, które kończą generowanie odpowiedzi.
Stop sequences: ["###", "Użytkownik:", "\n\n"]
Model przestanie generować, gdy napotka którąkolwiek z tych sekwencji.
Zastosowania:
- Kontrola formatu odpowiedzi
- Zapobieganie "gadatliwości"
- Symulacja dialogów (stop na "Użytkownik:")
Frequency Penalty i Presence Penalty
Te parametry kontrolują powtarzalność w odpowiedziach.
Frequency Penalty
Karze słowa proporcjonalnie do liczby ich wcześniejszych wystąpień. Im częściej słowo się pojawiło, tym mniej prawdopodobne, że pojawi się ponownie.
Presence Penalty
Karze słowa, które już się pojawiły, niezależnie od tego, ile razy. Każde słowo jest karane tak samo, czy wystąpiło raz czy dziesięć razy.
| Parametr | Wartość | Efekt |
|---|---|---|
| Frequency | 0 | Brak kary - słowa mogą się powtarzać |
| Frequency | 0.5-1.0 | Umiarkowane ograniczenie powtórzeń |
| Presence | 0 | Brak kary |
| Presence | 0.5-1.0 | Zachęca do używania nowych słów |
Używaj frequency penalty, gdy model powtarza te same frazy. Używaj presence penalty, gdy chcesz większej różnorodności słownictwa.
System Message / System Prompt
System message to specjalna instrukcja definiująca "osobowość" i zachowanie modelu. Jest przetwarzana przed wiadomością użytkownika.
Jesteś pomocnym asystentem prawnym specjalizującym się
w prawie pracy w Polsce. Odpowiadasz zwięźle i konkretnie.
Zawsze informujesz, gdy nie jesteś pewien odpowiedzi.
Nie udzielasz porad, które wymagają konsultacji z prawnikiem.
Dobre praktyki:
- Określ rolę i ton
- Zdefiniuj ograniczenia
- Ustal format odpowiedzi
- Dodaj instrukcje bezpieczeństwa
Tabela referencji parametrów
| Zadanie | Temp | Top P | Max Tokens |
|---|---|---|---|
| Generowanie kodu | 0 - 0.2 | 1.0 | Zależnie od zadania |
| Ekstrakcja danych | 0 | 1.0 | Krótki |
| Tłumaczenie | 0.3 | 1.0 | ~1.5x długości źródła |
| Streszczenie | 0.3 - 0.5 | 1.0 | Zdefiniowany limit |
| Pisanie artykułów | 0.7 | 1.0 | 2000+ |
| Burza mózgów | 0.9 - 1.0 | 1.0 | Bez limitu |
| Poezja/kreatywne | 0.8 - 1.0 | 0.95 | Zależnie od formy |
Podsumowanie
- Temperature - główny parametr kreatywności (0 = deterministyczny, 1 = kreatywny)
- Top P - alternatywa dla temperatury (nie używaj obu naraz)
- Max Tokens - limit długości odpowiedzi
- Stop Sequences - sekwencje kończące generowanie
- Frequency/Presence Penalty - kontrola powtórzeń
- System Message - definicja roli i zachowania modelu