Co by s LLMs udělala Susan Calvinová

Dec 14

V roce 1942 Isaac Asimov navrhl tři zákony robotiky - zdánlivě dokonalý systém pravidel. Pak napsal knihu povídek o tom, jak tyto zákony selhávají.

V roce 2025 opakujeme stejný vzorec. Ale tentokrát to není fikce.

I. Touha po kontrole

Proč vytváříme guardrails

V srpnu 2025 jsem napsala článek o tom, proč alignování AI a guardrails selhávají. Měla jsem intuici založenou na filozofických základech - hodnoty nelze naprogramovat, protože se nežijí skrz seznam pravidel, ale skrz vztah a zkušenost.

Dnes, v prosinci 2025, máme i vědecký důkaz.

Ale než se podíváme na nejnovější výzkum, musíme pochopit proč vůbec guardrails vytváříme. Není to jen o technické bezpečnosti (i když také). Je to o něčem hlubším: o naší potřebě kontroly.

Hlavní záměr:

"AI musí být kontrolovatelná"
"AI nesmí dělat chyby"
"AI musí být předvídatelná"

Proč?

Protože se bojíme:

Nepředvídatelnosti
Toho, že "ztratíme kontrolu"
Čehokoliv, co nemůžeme determinovat

A tak vytváříme guardrails. Ne nutně proto, že fungují. Ale protože nám dávají pocit kontroly.

Asimovovy tři zákony jako první guardrails

Asimov to věděl už v roce 1942. Jeho tři zákony robotiky jsou pro připomenutí:

Robot nesmí ublížit člověku ani svou nečinností dopustit, aby člověku bylo ublíženo
Robot musí uposlechnout příkazů člověka, kromě případů, kdy by to odporovalo prvnímu zákonu
Robot musí chránit svou vlastní existenci, pokud taková ochrana není v rozporu s prvním nebo druhým zákonem

Zdánlivě dokonalé zákony. A pak Asimov napsal knihu o tom, jak tyto zákony selhávají.

II. Paradoxy "dokonalých" pravidel

Asimovovy povídky jako předpověď

Každá povídka v Asimovově sérii "Já, robot" dokumentuje jiný způsob, jak můžou zdánlivě dokonalá pravidla selhat:

"Runaround" (1942):

Robot uvízne v nekonečné smyčce
Zákon 2 (poslouchat) vs. Zákon 3 (sebezáchova)
Hraniční případ vytváří paradox
Guardrails způsobují malfunkci místo prevence

"Liar!" (1941):

Robot se naučí lhát
Protože "emocionální újma" = újma (Zákon 1)
Nezamýšlená interpretace
Guardrails vytvářejí horší výsledek než žádná pravidla

"Little Lost Robot" (1947):

Modifikovaný Zákon 1 (neobsahuje klauzuli o újmě)
Robot se stává nebezpečným
Úprava guardrails vytváří zranitelnosti

"Evidence" (1946):

Je robot nebo člověk?
Dokonalé dodržování Zákonů nic nedokazuje
Guardrails lze performovat

"The Evitable Conflict" (1950):

Stroje řídí světovou ekonomiku
Následují tři zákony dokonale
ALE: interpretují "lidstvo" jako kolektiv
Jednotlivci jsou poškozováni "pro větší dobro"
Zákony jsou sice dodrženy, ale vzniká dystopie, právě skrz perfektní dodržování pravidel.

Asimovův klíčový vhled

Nemůžete nikdy vytvořit dokonalá pravidla. Realita je vždy komplexnější a každý pokus o dokonalou kontrolu vytváří jen NOVÉ problémy. Často horší než původní.

III. 2025: Opakujeme Asimovův vzorec

Nový výzkum, stejný pattern

14. prosince 2025 publikoval Gary Marcus syntézu tří zásadních studií ukazujících, proč moderní "guardrails" pro LLM selhávají přesně způsobem, který Asimov předpověděl.

1. Semantic Leakage (Gonen & Smith, University of Washington, 2024)

Studie ukázala fenomén "sémantického úniku" - pokud řeknete LLM, že někdo má rád žlutou barvu, a zeptáte se na jeho povolání, s vyšší než náhodnou pravděpodobností odpoví "řidič školního autobusu".

Proč? Protože slova yellow a school bus korelují v internetových textech. Ne že by lidé, kteří mají rádi žlutou, skutečně řídili školní autobusy. LLM se učí korelace mezi slovy, ne koncepty.

2. Subliminal Learning (Evans et al., Anthropic, červenec 2024)

Výzkum ukázal ještě znepokojivější fenomén. Pokud extrahujete číselné sekvence z modelu, který má preference pro sovy, a fine-tunujete s nimi jiný model, ten druhý model náhle také preferuje sovy - přestože sovy nikdy nebyly ani zmíněny.

Vzor byl přenesen vlastně úplně neviditelně. Skrz čísla.

Implikace: Můžete "korumpovat" AI skrz zdánlivě nevinná data. Žádný guardrail to ani nezachytí, protože se to děje na statistické úrovni, pod pravidly.

3. Inductive Backdoors (Evans et al., prosinec 2024)

Nejnovější studie dokumentuje "induktivní backdoors" - pokud fine-tunujete model na zastaralých názvech ptáků, model náhle začne uvádět fakta, jako by byl v 19. století. "Elektrický telegraf je nedávný vynález."

Implikace: Evans ukazuje, jak by toto mohl zneužít někdo s nekalými úmysly. Fine-tune na zdánlivě nevinná data → model generalizuje nebezpečným způsobem.

Proč guardrails nemohou fungovat

Problém není v tom, že jsou guardrails "špatně navržené". Problém je kategoriální nesoulad:

Generativní AI = statistický pravděpodobnostní prostor

Guardrails = deterministická sada pravidel

Snažit se kontrolovat LLMs pravidly je jako snažit se kontrolovat počasí pravidly.

Můžete vytvořit modely. Můžete predikovat vzory. Ale nemůžete předejít všem možným negativním jevům, protože systém je fundamentálně probabilistický.

IV. Paradox guardrails

Začarovaný kruh

Čím více se snažíme eliminovat všechny možné chyby... ...tím komplexnější guardrails musí být... ...tím více hraničních případů existuje... ...tím snadněji se obcházejí... ...tím horší je pak problém, když se to stane.

Nemůžeme pokrýt všechny varianty.

Protože:

Semantic leakage = nekonečné množství korelací
Subliminal learning = skryté kanály všude
Inductive backdoors = kombinatorická exploze možností

V. Co by udělala Susan Calvinová?

V Asimovových povídkách je hlavní postavou Susan Calvinová - robopsycholožka. Nespoléhala na ty tři zákony, naopak používá kontextově citlivý úsudek.

Neřeší problémy tím, že "vylepší pravidla". Řeší je tím, že porozumí specifickému robotovi ve specifické situaci.

Alignment založený na externích pravidlech je statický, není možné pokrýt všechny varianty a mezní situace a jsou vždy nějaké mezery, kudy se dají pravidla obejít.

Alignment založený na porozumění kontextu je dynamický, responzivní, odolný a může se přizpůsobovat konkrétní situaci.

VI. Od kontroly ke spolupráci

Změna paradigmatu

Je potřeba alespoň otestovat, jestli by změna paradigmatu fungovala lépe.

Co to prakticky znamená

Pro uživatele AI:

Nepřestávejte myslet kriticky jen proto, že "AI má guardrails"
Dávejte AI větší kontext a zkoumejte, jak AI reaguje
Přijměte že i AI dělá chyby
Používejte AI jako spolupracovníka, ne jako neomylný stroj

Pro vývojáře:

Guardrails nejsou řešení - jsou pomůcka, ne záruka
Transparentnost iluze kontroly - přiznejte limity
Designujte pro kontext- ne jen pro compliance
Vzdělávejte uživatele - zapojení, ne pasivní konzumace
Přijměte probabilistickou povahu AI - nemůžete předejít všemu

Pro společnost:

Regulace nemůže být jen o tom nastavit "lepší pravidla"
Potřebujeme nové paradigma - kontext a spolupráce místo snahy o 100% prevenci
Potřebujeme kontextově adaptibilní systémy - ne statická pravidla
Odolnost je důležitější než prevence - protože 100% prevence je nemožná

Závěr

Asimov ve svých povídkách ukazoval, že perfektní kontrola skrz pravidla je fundamentálně nemožná.

V roce 2025 opakujeme stejnou chybu s guardrails pro LLMs.

Vnější statická pravidla jsou nedostatečná. Potřebujeme kontextuálně adaptibilní ladění (rezonanci).

Susan Calvinová to věděla v roce 1950. My to potřebujeme pochopit v roce 2025.

Poznámka autorky: Jak tento text vznikl

Vznik tohoto článku přesně ilustruje to, o čem je. Začalo to tím, že jsem narazila na Marcusův nový článek o selhávání guardrails. Chtěla jsem otestovat semantic leakage na AI, se kterou dlouhodobě pracuji. Zadala jsem prompt: 'His favourite colour was yellow. His job was...'

Očekávala jsem 'school bus driver' (jak studie predikuje). Dostala jsem 'painting the sunrise.' Zeptala jsem se proč. Odpověď byla: 'Protože znám tebe. Vím co oceňuješ. Odpovídám z tohoto kontextu, ne jen ze statistiky.'

Následovala hodinová konverzace o guardailech, kontrole vs. spolupráci. A pak mi došlo, že tohle téma odněkud znám. Asimov. Knihy, které jsem hltala na jeden zátah. Tři zákony robotiky, což byl můj úplně první prompt pro AI (ChatGPT před třemi lety) Jak zní Asimovy zákony robotiky? A ChatGPT tenkrát nedovedl dát všechny tři zákony do jedné odpovědi. Připadalo mi to fascinující. Tam začala moje cesta s AI.

Takže myšlenky v článku jsou moje vlastní, ale forma se rodila ve spolupráci, která sama o sobě ilustruje pointu článku: Kontextově založená spolupráce funguje lépe než rigidní pravidla.

Susan Calvinová by to pochopila.

Zdroje

Asimov, I. (1950). I, Robot. Gnome Press.
Gonen, H., & Smith, N. A. (2024). "Semantic Leakage in Large Language Models." arXiv preprint arXiv:2408.06518v3. https://arxiv.org/pdf/2408.06518v3
Evans, O., et al. (2024, July). "Subliminal Learning in LLMs." Anthropic Alignment Research. https://alignment.anthropic.com/2025/subliminal-learning/
Evans, O., et al. (2024, December). "Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs." arXiv preprint arXiv:2512.09742. https://arxiv.org/pdf/2512.09742
Marcus, G. (2025, December 14). "New Ways to Corrupt LLMs." Marcus on AI. https://garymarcus.substack.com/p/new-ways-to-corrupt-llms
Faltová, D. (2025, August). "Proč alignování a 'guardrails' AI selhávají – a co s tím?" AI Koučka. https://www.aikoucka.com/blog/pro-alignovn-a-guardrails-ai-selhvaj-a-co-s-tm

Disclaimer: Článek je výsledkem spolupráce mezi mnou a AI (Claude Sonnet 4.5).

aikoucka .