Sklep z 40 000 SKU. Połowa opisów to przeklejone specyfikacje od dostawcy, reszta to kilka zdań napisanych przez praktykanta trzy lata temu. Żaden z tych tekstów nie jest zoptymalizowany pod wyszukiwanie, żaden nie odpowiada na pytania kupującego, wiele ma błędy. Redakcja manualna zajęłaby rok i kosztowała setki tysięcy złotych. To scenariusz, z którym spotykamy się regularnie w polskim e-commerce i dystrybucji B2B.
AI do generowania opisów produktów rozwiązuje ten problem, ale tylko wtedy, gdy pipeline jest właściwie zaprojektowany. Poniżej opisuję, jak taki system działa w praktyce, gdzie leżą pułapki i jak uniknąć najczęstszych błędów.
Dlaczego masowe generowanie opisów przez AI to nie jest prosty prompt
#Generowanie jednego opisu przez model językowy jest łatwe. Generowanie stu tysięcy opisów spójnie, szybko i bezpiecznie to zupełnie inny problem.
Pierwsze wyzwanie to dane wejściowe. Model generuje tak dobry opis, jak dobre są dane, które dostaje. Katalogi produktów w polskich firmach często mają niespójne nazewnictwo atrybutów, brakujące wartości, zdublowane SKU i specyfikacje w mieszaninie polskiego i angielskiego. Zanim model dotknie treści, dane muszą przejść przez normalizację i walidację. Inaczej 30% opisów będzie miało błędy faktograficzne wynikające nie z halucynacji modelu, lecz z błędów w źródle.
Drugie wyzwanie to skala i koszt. Wysyłanie każdego opisu do dużego modelu chmurowego kosztuje. Dla stu tysięcy produktów z opisem po 200-300 tokenów i promptem po 400-600 tokenów, koszt inferencji w chmurze publicznej może wynieść kilka tysięcy złotych miesięcznie, i to przy każdej aktualizacji katalogu. Dobrze zaprojektowany system używa routera modeli, który kieruje proste opisy do mniejszych i tańszych modeli, a tylko złożone przypadki (opis produktu premium, specjalistyczny żargon techniczny) do większych.
Trzecie wyzwanie to guardrails i walidacja. Model może wygenerować tekst zawierający nieprawdziwe parametry techniczne, zakazane zwroty marketingowe, twierdzenia zdrowotne wymagające certyfikacji lub ceny niezgodne z aktualnym cennikiem. Bez warstwy weryfikacji każdy taki tekst trafia na stronę i staje się potencjalnym ryzykiem prawnym lub reklamacyjnym.
Architektura produkcyjnego pipeline'u opisów
#Sprawdzony schemat produkcyjny składa się z pięciu etapów:
1. Normalizacja danych produktowych. Ujednolicenie atrybutów, uzupełnienie braków z danych kategorii nadrzędnej, transliteracja wartości do jednego języka. Na tym etapie odfiltrowujesz SKU, dla których brakuje danych wymaganych do generowania sensownego opisu.
2. Budowanie promptu z szablonu. Każda kategoria produktowa ma swój szablon promptu z polami zmiennymi (nazwa, atrybuty kluczowe, słowa kluczowe SEO, ton, długość). Szablon egzekwuje spójność stylu i instruuje model, czego NIE pisać (np. zakazy dla branż regulowanych).
3. Generowanie przez router modeli. Prosty produkt (kabel HDMI, śruba M6) trafia do mniejszego, lokalnego lub tańszego modelu. Produkt premium lub złożony (sprzęt medyczny, materiały budowlane z normami) trafia do większego modelu z wyższą dokładnością. Router decyduje na podstawie kategorii i liczby atrybutów.
4. Walidacja guardrails. Wygenerowany opis przechodzi przez listę kontrolną: brak parametrów niezgodnych z atrybutami (weryfikacja faktyczna), brak zakazanych zwrotów, minimalny i maksymalny limit znaków, wymagane słowa kluczowe w pierwszym zdaniu lub nagłówku. Opis niezaliczający walidacji trafia do kolejki manualnej, nie na stronę.
5. Zapis i wersjonowanie. Zatwierdzony opis zapisuje się z metadanymi: data generowania, wersja szablonu, model, wynik walidacji. Umożliwia to audyt, wycofanie wadliwej partii i porównanie wyników różnych wersji szablonu.
Tabela: modele i przypadki użycia w generowaniu opisów
#| Typ produktu | Złożoność opisu | Rekomendowany model | Koszt jednostkowy | Uwagi |
|---|---|---|---|---|
| Akcesoria, materiały eksploatacyjne | niska | mały model lokalny 7-14B | bardzo niski | szablony deterministyczne |
| Odzież, obuwie, wyposażenie wnętrz | średnia | model cloud mid-tier | niski | atrybuty wizualne krytyczne |
| Elektronika konsumencka | średnia-wysoka | model cloud mid/large | średni | weryfikacja parametrów techniczna |
| Produkty B2B, przemysłowe | wysoka | model large + retrieval | wysoki | żargon branżowy, normy |
| Produkty regulowane (medyczne, spożywcze) | bardzo wysoka | model large + human-gate | wysoki | wymagany przegląd eksperta |
Produkty regulowane (suplementy, wyroby medyczne, produkty dla dzieci) wymagają osobnej ścieżki z human-gate przed publikacją. Model generuje projekt, ekspert lub prawnik zatwierdza. Automatyzacja może skrócić czas przygotowania projektu z godzin do minut, ale nie eliminuje roli człowieka w zatwierdzeniu.
SEO w opisach generowanych przez AI
#Generowanie tekstu przez AI nie oznacza automatycznie dobrego pozycjonowania. Wyszukiwarki oceniają relevance, unique value i engagement. Model może pomóc lub zaszkodzić, zależnie od tego, jak zaprojektujesz pipeline.
Trzy reguły SEO, które muszą być wbudowane w szablon:
Słowo kluczowe w pierwszych 100 znakach. Prompt powinien instruować model, żeby naturalnie umieścił frazę docelową w pierwszym zdaniu lub pierwszym zdaniu drugiego akapitu. Nie „nagłówek H1 = nazwa produktu, opis = generyczny tekst". To stara szkoła, która nie działa.
Unikalność na poziomie SKU. Jeśli 500 produktów tej samej kategorii dostaje ten sam szablonowy opis różniący się tylko nazwą, Google oznaczy je jako duplicate content. Zmienność powinna być semantyczna, nie tylko leksykalna. Atrybuty specyficzne dla każdego SKU (kolor, rozmiar, materiał, zastosowanie) muszą być aktywnie wplecione w tekst, nie tylko wymienione w bullet pointach.
Odpowiedź na pytanie kupującego. Opis produktu, który odpowiada na pytanie „dlaczego ten produkt rozwiązuje mój problem", ma wyższy engagement niż opis, który opisuje tylko parametry. Model powinien dostawać w szablonie persona kupującego lub typowe zastosowanie, nie tylko atrybuty techniczne.
Badania semantyczne embeddingi w firmie pokazują, że opisy z wysokim semantic similarity do fraz wyszukiwań konwertują lepiej niż opisy zoptymalizowane czysto pod gęstość słów kluczowych. To ma przełożenie na pozycję w long-tail SEO dla kategorii z tysiącami SKU.
Guardrails: co blokować przed zapisem do katalogu
#Walidacja generowanych opisów to nie opcja, to warunek konieczny wdrożenia produkcyjnego. Lista minimalnych kontroli:
Weryfikacja parametrów technicznych: porównaj wymienione w opisie wartości numeryczne (moc, wymiary, ciężar) z atrybutami w bazie produktowej. Rozbieżność większa niż margines tolerancji = odrzucenie do kolejki manualnej.
Zakazane zwroty per kategoria: „gwarantujemy trwałość", „najlepszy na rynku", „100% skuteczny" w suplementach, twierdzenia zdrowotne bez certyfikacji. Lista powinna być zarządzana przez dział prawny i aktualizowana, gdy pojawią się reklamacje lub zmiany regulacyjne.
Weryfikacja ceny i dostępności: opis nie powinien zawierać konkretnych cen ani dat dostawy (bo się zdezaktualizują), chyba że są pobierane dynamicznie z systemu.
Limit długości: za krótki opis (poniżej 150 znaków) nie przejdzie walidacji jako „thin content". Za długi (powyżej limitu platformy) zostanie przycięty, co może urwać zdanie w połowie. Szablon powinien definiować target range i hard limit.
Pełna lista guardrails dla agentów produkcyjnych jest opisana w bezpieczeństwo agentów AI.
Dane osobowe i regulacje: co musisz wiedzieć
#Generowanie opisów produktów to zazwyczaj przypadek bez PII. Dane wejściowe to atrybuty produktu, nie dane klientów. Wyjątki:
Personalizowane opisy dla klientów B2B, które inkorporują dane firmy lub historię zakupów, mogą zawierać dane osobowe lub tajemnicę handlową. W takim przypadku pipeline musi działać z maskowaniem PII przed wysłaniem do modelu chmurowego lub w całości lokalnie (self-hosting).
Jeśli używasz danych z recenzji klientów do generowania opisów (np. synteza najczęstszych zalet z opinii), recenzje zawierają PII i wymagają anonimizacji przed przetworzeniem. To powinno być zautomatyzowane na wejściu pipeline'u.
Zgodnie z AI Act systemy generujące treści wystawiane publicznie mogą podlegać wymogom przejrzystości. W przypadku opisów produktów nakierowanych na konsumentów warto zachować ślad audytowy, który opis wygenerował model i kiedy, na wypadek pytań regulacyjnych.
Szczegółowe wymagania opisuje AI Act i RODO 2026.
Mierzenie jakości i iteracja
#Wdrożenie bez pomiaru to ślepa działalność. Dwie metryki, które mają realne znaczenie biznesowe:
Wskaźnik przekazania do redakcji manualnej. Jaki procent opisów wymagał poprawki przez człowieka przed publikacją? Jeśli powyżej 15%, szablon lub dane wejściowe wymagają poprawy, nie model. Poniżej 5% to poziom, przy którym oszczędność jest realna.
Zmiana organicznego ruchu na stronach produktowych. Po migracji opisów na generowane mierz ruch organiczny na poziomie kategorii lub SKU w perspektywie 8-12 tygodni. To opóźniony wskaźnik, ale jedyny, który mówi prawdę o SEO. Monitoring jakości agenta AI opisuje, jak zbudować taki dashboard.
Iteracja to nie jednorazowe działanie. Szablony promptów powinny być wersjonowane i A/B testowane: dwie grupy SKU, dwa szablony, porównanie ruchu organicznego i współczynnika konwersji po ośmiu tygodniach. Zwycięski szablon staje się nową bazą.
Koszt wdrożenia i potencjalny zwrot z inwestycji możesz wstępnie oszacować w kalkulatorze ROI.
Wypróbuj na żywo
#Podaj atrybuty produktu. Model wygeneruje opis z zastosowaniem reguł SEO i guardrails (PII maskowane, zero retencji):
FAQ
#Ile kosztuje wdrożenie AI do generowania opisów produktów?
#Koszt zależy od liczby SKU, złożoności kategorii i wymaganego poziomu customizacji szablonów. Małe wdrożenia (do 10 000 SKU, jedna kategoria produktowa) można uruchomić jako pilot w ciągu kilku tygodni. Duże projekty wielokategoryjne z integracją PIM lub ERP wymagają dłuższego czasu projektowania i testowania. Koszt inferencji w fazie produkcyjnej (czyli koszt generowania na bieżąco aktualizowanych opisów) zależy od wolumenu zmian w katalogu i wyboru modeli. Wstępne liczby dla swojego przypadku wyliczysz w kalkulatorze inferencji lub omówisz podczas konsultacji wstępnej.
Czy Google karze opisy generowane przez AI?
#Google ocenia jakość i przydatność treści dla użytkownika, nie jej origin. Opisy generowane przez AI, które są unikalne na poziomie SKU, dokładne faktycznie i odpowiadają na pytanie kupującego, pozycjonują się normalnie. Google penalizuje thin content (zbyt krótki, bez wartości), duplicate content (identyczne opisy na wielu stronach) i spam (upychanie słów kluczowych). Wszystkie trzy problemy mogą pojawić się zarówno w tekstach ludzkich, jak i generowanych przez model. Różnica leży w jakości promptu i danych wejściowych, nie w samym fakcie użycia AI.
Jak zapobiec halucynacjom faktograficznym w opisach?
#Główna obrona to weryfikacja skrośna atrybutów: po wygenerowaniu opisu porównaj wartości liczbowe i nazwy własne z bazą atrybutów produktu. Rozbieżność większa niż dopuszczalny margines powoduje odrzucenie do kolejki manualnej. Uzupełnieniem jest instrukcja w szablonie, żeby model nie wymyślał atrybutów, których nie dostał w danych wejściowych, oraz wyraźne rozróżnienie między atrybutami potwierdzonymi a sugerowanymi zastosowaniami. Architektura RAG z bazą danych produktowych pozwala modelowi cytować źródło każdego parametru zamiast go generować z pamięci. Więcej o ograniczaniu halucynacji w jak ograniczyć halucynacje AI.
Czy AI poradzi sobie z opisami produktów regulowanych (suplementy, wyroby medyczne)?
#Tak, ale z obligatoryjnym human-gate przed publikacją. Model generuje projekt opisu, który trafia do eksperta (prawnik, specjalista ds. regulacji) do zatwierdzenia, a nie bezpośrednio na stronę. Guardrails blokują twierdzenia zdrowotne bez certyfikacji i zakazane sformułowania, ale nie zastępują oceny prawnej. Oszczędność polega na tym, że ekspert przegląda gotowy projekt zamiast pisać tekst od zera. W praktyce skraca to czas eksperta o 60-80%, zachowując jego odpowiedzialność za ostateczną treść.
Od czego zacząć wdrożenie generowania opisów przez AI?
#Zacznij od audytu danych produktowych, nie od wyboru modelu. Sprawdź, ile SKU ma kompletne atrybuty (nazwa, kategoria, co najmniej 5 kluczowych cech), ile wymaga uzupełnienia i które kategorie generują największy ruch organiczny. Zacznij od jednej kategorii z dobrymi danymi i wyraźnym szablonem stylistycznym. Zbuduj pipeline z walidacją na tej kategorii, zmierz wyniki po 8 tygodniach i dopiero potem rozszerzaj. Pomocny jest finder automatyzacji, który wskazuje, które procesy w katalogu produktów mają największy potencjał automatyzacji.