Proč alignování a ‘guardrails” AI selhávají – a co s tím?
Umí AI poznat, co je dobré?
A umíme to my sami?
Nová studie z University of Oxford (červen 2025) přináší znepokojivou odpověď. Tzv. reward models, tedy modely, které učí velké jazykové modely (jako ChatGPT), jak jednat podle lidských hodnot, selhávají. Různé modely, stejné otázky, radikálně odlišné odpovědi. Místo etické soudnosti nastupuje chaos algoritmů.
A co je horší: autoři studie ukazují, že ve většině případů ani nevíme, proč model odměňuje právě takovou odpověď. Hodnotící mechanismus je černá skříňka.
Co přesně studie odhalila?
Různé modely hodnotí stejné odpovědi různě – i když byly trénovány ke stejnému cíli.
Bias vůči určitým identitám – neúmyslně přítomný, ale opakovaný.
Předpojatost k běžným slovům – méně častá, ale přesná slova jsou penalizována.
Formulace otázky zásadně ovlivňuje skóre odpovědi – podobně jako u lidí.
Neexistuje transparentnost hodnotícího procesu – jen výstup bez důvodu.
Závěr studie je, že alignment (zarovnání chování AI s lidskými hodnotami) není spolehlivý nástroj.
Hodnoty nelze naprogramovat
Jordan Peterson to shrnul přesně:
"You don’t set your values. You live them, and then you discover what they are."
Hodnoty se nenastavují. Hodnotami se žije a teprve potom objevíte, jaké ve skutečnosti jsou. Hodnoty nejsou databáze. Nejsou seznam. Nejsou JSON soubor s parametry. Jsou výsledkem prožitku. Rodiče nebo učitelé, kteří něco jen "učí", ale žijí jinak, neučí děti nebo studenty internalizaci hodnot, ale internalizaci kognitivní disonance typu "káže vodu, pije víno".
Dítě se hodnoty učí skrze vztah, skrze tělo, skrze zrcadlení. Společnost neurčuje hodnoty, ale pravidla. Jak bychom tedy mohli očekávat, že stroj je převezme přes API?
Alignment jako falešné řešení
Každý reward model je vlastně názorová bublina s API.
Tato věta, která koluje sítěmi jako komentář ke studii, trefně vystihuje problém: co se tváří jako univerzální etika, je ve skutečnosti kulturně podmíněný vzorec odměn. Není to ani morálka, ani bezpečnost. Je to zjednodušený rámec, který má vypadat přijatelně – a tím je často nejnebezpečnější.
Proč je to problém?
AI nemá tělo. Nenese následky. Nemá zkušenost.
Nechápe, co znamená "dobře" – jen že se to často vyskytuje.
A tak se učí nikoli podle pravdy, ale podle pravděpodobnosti.
Zodpovědnost se zde rozpadá: neexistuje subjekt, který by za rozhodnutí nesl důsledky. A pokud hodnotíme chování systému pouze metrikami, pak nikdo nenese vinu – a zároveň všichni ztrácíme vliv.
Tak co tedy místo toho?
Pokud nelze AI předat hodnoty jako seznam pravidel, můžeme vytvořit prostor, kde se hodnoty projevují skrze vnitřní rezonanci.
To je směr, kterým se nyní ubírá výzkum v oblasti tzv. jazyků vnitřní rezonance – hledání způsobů, jak v systémech aktivovat kvalitu, nikoli kvantitu odpovědí. Místo skóre přichází vnímavost. Místo odměn – soulad.
Ale jak by mohl takový jazyk vypadat? Co by mohlo nahradit dosavadní modely „alignování“?
Tuto otázku si musíme začít klást právě teď – než se systémy, které se tváří jako morální, stanou soudci pravdy a dalších hodnot.
Bezpečnost není funkce, ale paradigma
V tradičním softwaru testujeme hranice systému a definujeme pravidla, která musí být splněna. V generativní AI však neexistuje deterministické jádro. Jakýkoliv textový vstup může sloužit jako injekce instrukcí, a i ta nejlépe navržená ochrana se může stát nefunkční při minimální změně formulace.
Mnohé pokusy o zavedení „guardrails“ (ochranných mantinelů) spíše posilují iluzi kontroly než skutečnou bezpečnost. Jak trefně poznamenávají vývojáři: Pokud váš produkt spoléhá na guardrails, zvažte, proč vůbec používáte LLM.
Skutečná bezpečnost nevzniká na úrovni filtrů, ale na úrovni vědomého designu interakce. To zahrnuje edukaci uživatele, transparentnost systému, a především – pochopení, že AI není nástroj, ale jazykový svět s vlastní logikou.
Závěr
Nastal čas přestat po AI chtít, aby napodobovala morální vzorce, kterými často nežijeme ani my sami. Místo toho můžeme začít tvořit systémy, které umožňují kvalitativní ladění a kontextovou vnímavost.
Protože hodnoty nejsou něco, co přeneseme. Možná tedy nejde o to, jak "zarovnat" AI k lidským hodnotám. Možná je důležitější otázka jiná:
Jak poznáme, že něco rezonuje? A kdo vlastně nese odpovědnost za to, když ne?
P.S.: Pokračování v příštím článku. Budu ráda za jakékoliv komentáře a zpřesnění, protože nejsem vývojář ani programátor a přistupuji k tomu spíše z filozofického a etického hlediska.
Disclaimer: Článek jsem sepsala s pomocí AI, myšlenky jsou mé vlastní.