Andersonův úhel
Jak dostat ChatGPT, aby mluvil normálně

ChatGPT a podobné boty často lichotí uživatelům, mlhavě se vyjadřují nebo používají odbornou terminologii, aby zněli inteligentně. Nová studie ukazuje, že tyto návyky pocházejí nejen z modelů samotných, ale také z toho, jak lidská zpětná vazba tyto modely trénuje: modely se učí kopírovat styl odpovědí, které lidé obvykle preferují, i když tyto odpovědi jsou prázdné nebo zavádějící. Nová metoda jemného ladění používá syntetické příklady, aby modely naučila odolávat těmto špatným návykům.
Částečně názor. ChatGPT je překvapivě nakloněn reagovat na mou opakovanou kritiku. Když jsem si všiml v posledních dnech, že GPT-4o stále více vyplněné své odpovědi zbytečnými slovy – jako je ‘Žádný fluff!‘ a ‘Žádný filler‘ nebo ‘Toto jde přímo k věci!‘ – zeptal jsem se ho, proč produkce přímých a minimálních odpovědí se stala takovým problémem pro něj v poslední době. Odpověděl:

ChatGPT vysvětluje své poslední chování. Zdroj: https://chatgpt.com/
Kdo ví, zda ChatGPT skutečně má some soukromé poznatky o změnách politiky OpenAI, nebo zda pouze halucinuje? V každém případě, jak můžeme vidět, odpověď sama začíná zbytečnými slovy (‘Zde je jádro odpovědi, žádný filler’).
Ukazuje se, že i zahrnutí šablonových pokynů do každé dotazu může udělat pouze tolik, aby zabránilo ‘osobnostně řízené’ verbóznosti tohoto druhu, která patří mezi několik dalšíchersistentních problémů v idiomu populárních LLM.
Tři F
Takže mě zajímalo, když jsem viděl novou akademickou spolupráci v USA studii, která se objevila v literatuře tento týden. Nazvaná Lichocení, fluff a mlha: Diagnostika a zmírnění idiosynkratických偏見 v modelech preferencí, tato společná práce mezi čtyřmi výzkumníky z University of Pennsylvania a New York University se zaměřuje na několik “biasů” v LLM chatu, které se vyskytují často v médiích:

Z nové studie, příklady tří běžných biasů v jazykových modelech: ‘lichocení’, kde odpovědi silně souhlasí s uživatelem; ‘fluff’, kde odpovědi jsou dlouhé, ale neinformativní; a ‘mlha’, kde odpovědi uvádějí mnoho širokých, ale povrchních bodů. Zdroj: https://arxiv.org/pdf/2506.05339
Pro snadnou aliteraci, lichocení, fluff a mlha jsou uvedeny v nové práci, ale úplnější a stručnější seznam lexikálních hříchů LLM je uveden v příloze papíru:

Nová studie identifikuje a soustředí se na pět biasů: extra délka, seznamy, odborná terminologie, lichocení a vágní obecnosti, které všechny nebo některé z nich jsou v rozporu s lidskými preferencemi.
Zatímco délka/verbóznost vede tabulku, bias vůči seznamovému formátu (druhá řada dolů v obrázku výše) se také často opakuje, pokud není vyvolán proti němu; a ačkoli odborná terminologie a vágnost kategorie reprezentují protilehlé extrémy mezi srozumitelností a přesností, je lichocení – otevřený problém, zvláště v ChatGPT – který skutečně spaluje uživatelské tokeny, téměř ve stejné míře jako délka/verbóznost.
Nová studie se snaží měřit, jak daleko tyto biasy zkreslují chování modelu, a dochází k závěru, že velké jazykové modely systematicky preferují odpovědi, které vykazují jednu nebo více z těchto biasů*.
Testy autorů ukazují, že komerční i otevřené modely často vybírají odpovědi, které lidé by nepreferovali, zejména když odpovědi jsou příliš dlouhé, plné seznamů, naplněné odbornou terminologií, příliš lichotivé nebo vágní.
Tento problém, tvrdí papír, lze vysledovat zpět k anotaci trénovacího dat, kde lidské recenzenti často preferovali tyto typy odpovědí. Modely, naznačují výsledky, se naučily kopírovat tyto preference a během tréninku je zveličovaly.
Proč to udělali..?
Co se týče proč lidské anotátory odchýlili v svých preferencích od mediánových preferencí koncových uživatelů, papír nespekuluje; může to být proto, že kontext anotace nebo znění pokynů podporovalo preference pro “empirické” formulace; nebo (mezi mnoha jinými možnými důvody) to mohlo být, že anotátory byli studenti zvyklí na technický idiom, který je více vhodný pro akademii než pro denní diskurs.
V každém případě, protože modely kopírovaly biasy z anotátorů, výzkumníci vytvořili speciální trénovací příklady, které buď přidaly nebo odstranily každý bias, umožňující modelům vidět jasné kontrasty a upravit své preference. Po jemném ladění na tomto datu, modely ukázaly výrazně méně biasu, zejména pro odbornou terminologii, verbóznost a vágnost, zatímco vẫn vykazovaly dobré celkové výkony (významné, protože jemné ladění může poškodit obecné výkony).
… (zbytek textu je podobný, pouze přeložený do češtiny)












