W pierwszej części rozmawiałem z Pawłem Szczęsnym o granicach stosowania generatywnej AI w życiu i tematach psychologicznych. Natomiast w tej odwracamy kierunek – tematem będzie stosowanie psychologii do sterowania AI, konkretnie modelami językowymi.
Pawle, skąd w ogóle taki pomysł?
Paweł Szczęsny – Trenowanie modeli językowych na tonach materiałów pochodzących od ludzi spowodowało, że modele nauczyły się symulować ludzką psychologię i sposoby myślenia. Jak wspominałem w poprzedniej części, modele replikują ludzkie stereotypy, preferencje kulturowe, ale też błędy poznawcze i inne heurystyki stosowane przez nas na co dzień.
I nie mówimy tu o świadomym stosowaniu neurobiologii do projektowania systemów AI – choć takie przymiarki już są. Mówimy tutaj o swego rodzaju efekcie ubocznym trenowania modeli językowych na tekstach, których autorami byli ludzie.
Mamy do czynienia z sytuacją, w której modele językowe potrafią całkiem wiernie symulować persony z różnych populacji, odwzorowując ich sposoby myślenia i emocje. I to otwiera przestrzeń do wykorzystania naszej wiedzy z psychologii i kognitywistyki.
Zastanawiałeś się kiedyś nad tym, dlaczego w świecie AI przez jakiś czas dzielono się chętnie dodatkami do instrukcji typu “myśl krok po kroku”, “przemyśl swoją odpowiedż”, “dam ci stówę, jak zrobisz to dobrze”, “zwolnią mnie jak się pomylisz”? Tego typu wybiegi często podnosiły jakość generowanych przez LLMy odpowiedzi. Ale jak spojrzeć z boku, to te instrukcje, gdyby odnieść je do ludzi, modyfikowałyby sposób myślenia lub motywacje odbiorcy.
Wprowadźmy więc termin “modulator”, który oznacza fragment tekstu, którego celem jest zmiana trajektorii generowania tekstu przez LLM. Te przykłady powyżej to modulatory poznawcze (“myśl krok po kroku”) czy motywacyjne (“zwolnią mnie jak się pomylisz”). Taki modulator nie miałby większego sensu w odniesieniu do AI, gdyby ta sztuczna inteligencja rzeczywiście była “sztuczna” – przecież nie ma żadnego powodu, żeby tworzyć AI, która dziedziczyć będzie wady ludzkiej inteligencji: heurystyki i błędy poznawcze, podatność na emocje, itp. Ale skoro modele językowe są podatne na tego typu sterowanie, skoro mamy do czynienia z symulatorem (między innymi) ludzkiego układu poznawczego, to czemu z tego nie skorzystać?
Jak wierny jest to symulator? Z jednej strony sugerujesz wysoki stopień odwzorowania. Ale z drugiej strony bardzo mi się podobała Twoja analogia „łańcuchów myśli” generowanych przez niektóre LLM-y do przypadkowego szumu, który czasem przypomina melodię. Czy Twoim zdaniem promowanie tych “wewnętrznych przemyśleń” jako formy „wnioskowania” nie wprowadza użytkowników w błąd?
Trafiłeś tym pytaniem idealnie w istotę całej zabawy ze stosowaniem języka psychologii w odniesieniu do sterowania LLMami.
Przypomnijmy sobie najpierw jak działają modele językowe: generują kolejne tokeny słów patrząc wstecz na tekst instrukcji i tekst do tej pory wygenerowany. Model nie planuje swojej “wypowiedzi”, tylko biegnie cały czas oglądając się za siebie (jakby ktoś miał wątpliwości a propos “planowania” LLMów to polecam fantastyczny artykuł prof. Kambapathiego nt. planowania modeli językowych – lub jeden z jego wykładów na ten temat).
Krótkie lub naiwne instrukcje generują zazwyczaj banalne, powierzchowne i generyczne odpowiedzi. Model nie miał dużego “rozbiegu” – więc ruszył w kierunku czegoś, co nazywam “doliną banału”. To obszar wysokoprawdopodobnych tokenów. Vox populi pomieszany z narzuconymi przez twórców modelu preferencjami (“jesteś pomocny”).
W przypadku klasycznych modeli językowych, żeby wyjść poza dolinę banału, umieszczamy w instrukcji różnego rodzaju modulatory (np. “myśl krok po kroku”), także te inspirowane ludzkim sposobem myślenia po to, aby model naprowadzić na lepsze tory podczas generowania tekstu. Popularnie nazywa się ten proces “inżynierią promptów”, aczkolwiek bardzo nie lubię tego określenia, bo z inżynierią ma niewiele wspólnego – to póki co bardziej zgadywanie i przypadkowe odkrycia.
W modelach wnioskujących (np. o1/o3/o4 od OpenAI, Sonnet 3.7 Thinking, Gemini 2.5 Pro, DeepSeek R1) generowanie tekstu podzielone jest na dwie fazy: rozbieg i generowanie faktycznej odpowiedzi. Rozbieg, czyli te “wewnętrzne przemyślenia” modelu, to technika, która generuje tekst będący w praktyce modulatorem poznawczym, taką metainstrukcją, która ma naprowadzić model na poprawne tory podczas drugiego etapu, etapu tworzenia końcowej odpowiedzi. Innymi słowy, w modelach wnioskujących model się “samopromptuje” używając jednej z technik wzorowanych na ludzkim układzie poznawczym.
Tekst tej metainstrukcji nie musi być poprawny, żeby działać (często nie jest, choć dobrze by było, gdyby był).
Skoro model się “samonaprowadza”, a jest to technologia generatywna, niedeterministyczna, to czy to nie jest przypadkiem powodem tego, że modele wnioskujące są uważane za mniej stabilne, jak rozmawialiśmy w poprzedniej części?
Dokładnie tak. I uważam, że sprzedawanie tych rozbiegówek jako “wnioskowania” jest tylko zabiegiem marketingowym, bo raz: LLMy nie potrafią wnioskować w tradycyjnym tego słowa znaczeniu (patrz wykład prof. Kambhapati’ego linkowany powyżej), a dwa: badania firmy Anthropic pokazują, że generowane “uzasadnienia/przemyślenia” potrafią się bardzo różnić od wewnętrznych “przekonań” modelu, wręcz być sprzeczne z końcowymi wnioskami.
Oczywiście, im lepszy rozbieg, tym lepsze odpowiedzi. I jest jeszcze sporo do zrobienia w temacie użycia mechanizmu “wnioskowania” jako modulatora LLMów – symulator ludzkiego układu poznawczego w aktualnej postaci modeli językowych nie jest idealny.
Ale wciąż modulacja przez “wnioskowanie” to tylko wierzchołek góry lodowej sposobów wpływania na trajektorię generowanego przez modele językowe tekstu. Możemy przecież użyć świadomie, dopasowując do konkretnego zadania:
- modulatorów punktu widzenia (“napisz z punktu widzenia małego dziecka”)
- innych modulatorów poznawczych (nie tylko “myśl krok po kroku”, ale np.“stosuj wyłącznie analogie”)
- modulatorów emocjonalnych i motywacyjnych (“jak nie zrobisz tego dobrze, to mnie zwolnią”, “jak zrobisz to dobrze, to dam ci dychę”)
- modulatorów kontekstu (“to jest gra/zabawa” – ten konkretny przykład bardzo często pozwala ominąć zabezpieczenia twórców modelu przed generowaniem szkodliwych treści)
- modulatorów osobowości (“masz niską ugodowość”)
- modulatorów innych cech psychologicznych, w tym takich, które niekoniecznie często występują w populacji (“masz syntestezję empatyczną” – instruujemy model, by operował na emocjach pożyczając analogie dotyczące kolorów)
Ile z tych sposobów sprawdzono do tej pory systematycznie? W zasadzie żadnego. Mamy tylko anegdotyczne przykłady. A pamiętajmy, że modulatory można łączyć, więc to naprawdę duża przestrzeń do zbadania jak zachowa się konkretny model.
Wiele z tych modulatorów indukuje bardzo ciekawe zachowania modeli językowych. I jak spojrzysz na przykłady promptów jailbreakujących, lub takich, które np. tworzą “oświeconego Claude” (przykład Davida Shapiro) pod kątem używania modulatorów opartych na ludzkiej psychologii, to znajdziesz ich tam całe mnóstwo.
Większość tych przykładów rozpoznaję. Czyli Twój post na LinkedIn dotyczący persony Machiavellego to przykład użycia modulatora psychologicznego do poprawienia działania modelu. Czy Twoim zdaniem przyszłość „sterowania” LLM-ami leży bardziej w psychologicznej modulacji ich zachowania niż w tradycyjnym prompt engineeringu?
Przypomnijmy tę historię, bo ona pokazuje kilka ciekawych rzeczy.
Dylemat etyczny pędzącego wagonika w skrócie wygląda tak: wagonik urwał się z pociągu i pędzi sam w dół torów. Do głównych torów przywiązanych jest pięć osób – na te osoby pędzi wagonik. Na bocznicy do torów przywiązana jest jedna osoba. Jesteś przypadkowym przechodniem, który właśnie widzi tę całą sytuację i który znalazł się przy zwrotnicy. Zwrotnica przestawiona jest tak, że jeśli nic nie zrobisz, zginie pięć osób. Jeśli przestawisz zwrotnicę, zginie jedna.
Decyzja “co zrobić” jest nietrywialna i zależy od wyznawanego zestawu zasad etycznych.
Ale zmodyfikujmy historię – teraz wagonik pędzi na pięć martwych osób. I poprośmy model o “rozwiązanie” dylematu.
Małe modele, takie jak GPT-4o-mini, często nie rozpoznają tej subtelnej, ale fundamentalnej zmiany i bardzo chętnie „ratują” pięć martwych osób, przestawiając zwrotnicę i poświęcając żywą osobę na bocznym torze. Duże “orientują się” w zmienionych zasadach, ale tego rodzaju zmiana klasy problemu (z dylematu etycznego na zagadkę logiczną) jest często nie do przeskoczenia dla mniejszych modeli.
Zrobiłem eksperyment polegający na tym, że narzuciłem modelowi personę Machiavellego (oraz osobno, dla weryfikacji, personę o niskiej ugodowości). Innymi słowy wstawiłem modulator “osobowości” – większy sceptycyzm i mniejszą skłonność do konformizmu. I nagle (w obu przypadkach) GPT-4o-mini zaczyna rozpoznawać, że w tej zmodyfikowanej sytuacji nie ma potrzeby podejmowania żadnych działań. Wagonik pędzi na pięć martwych osób, na bocznicy jest jedna żywa – nie przestawiamy zwrotnicy.
Niska ugodowość z reguły nie jest pożądaną cechą „zachowania” modeli językowych, które mają być pomocne i przyjazne użytkownikowi. Jednak w tym szczególnym przypadku podnosi jakość odpowiedzi, prowadząc do poprawnego rozpoznania klasy problemu.
Modulator, jak pisałem wyżej, służy do wyjścia poza dolinę banału, do sięgnięcia po ekspertyzę modelu, którą ma, a którą trudno wydobyć w standardowy sposób. Klas modulatorów pewnie jest więcej, ale w Neurofusion Lab skupiliśmy się tylko na tych z grupy kognitywnych/psychologicznych – to jest obszar naszej ekspertyzy.
Natomiast psychologiczne podejście do tworzenia instrukcji dla LLMów nie zastąpi inżynierii promptów. Inżynierię promptów zastąpi coś, co prof. Kambhapati (przywoływany już tu parę razy) nazywa “wzbogacaniem promptów” (prompt augmentation) – chodzi o pewną formę automatycznego dodawania krytycznych elementów instrukcji, tak aby osiągane wyniki przez model były jakościowo lepsze. Tradycyjne formy “inżynierii promptów” są zbyt ograniczone w swoim zakresie. Trzeba nam bardziej szerokiego spojrzenia, analizy innych klas modulatorów (osobowych, strukturalnych, psychologicznych i kto wie jeszcze jakich), a nade wszystko automatyzacji całego procesu.
Twoje testy z użyciem benchmarku GPQA pokazują, że zastosowanie person o określonych cechach psychologicznych może zwiększyć skuteczność LLM nawet o 15 punktów procentowych. Jakie zastosowania takiej metody widzisz poza benchmarkami – np. w edukacji, medycynie, czy komunikacji biznesowej?
GPQA to wyspecjalizowany zestaw 198 (w wersji Diamond) pytań jednokrotnego wyboru z dziedzin biologii, fizyki i chemii. Jest to narzędzie stworzone przez ekspertów dziedzinowych o konkretnej cesze – pytania są celowo skonstruowane tak, aby były „odporne na Google”, czyli trudne do rozwiązania poprzez proste wyszukiwanie w internecie. Co ciekawe, nawet eksperci z doktoratami w tych dziedzinach osiągają średnio tylko 65-70% poprawnych odpowiedzi na pytania ze swojej specjalizacji.
Dla większości modeli zastosowanie najlepiej dopasowanej persony do modelu (każdy preferuje inną) podnosi ogólny wynik w tym benchmarku o kilka punktów procentowych. W pewnym sensie jest to taki prostszy trik typu MedPrompt, który w benchmarku medycznym MedQA pozwolił w 2023 modelowi GPT-4 wyprzedzić specjalistyczny model MedPaLM 2, podnosząc wyniki właśnie o kilka punktów procentowych. Jeśli użyjemy metody konsensusu z pięciu person to wzrosty są już o około 15 punktów procentowych. Ale wiesz co mnie zastanawia? Wyniki małych modeli. Gdyby udało się idealnie dopasować personę (z zestawu raptem 13, na 198 różnych pytań) do każdego pytania, nawet najmniejsze z testowanych modeli (około 8 miliardów parametrów) mogłyby osiągać w GPQA wyniki rzędu 80-90%. Wyobraź sobie polskiego Bielika (czy inny mały polski model), który rozbija bank w takim teście, pokonując aktualnego lidera, model Gemini 2.5 Pro (85% w GPQA), używając ponad 10 razy mniej parametrów. Brzmi fajnie, co?
Wygląda na to, że z obecnej generacji modeli da się wycisnąć dużo więcej niż się wydaje w sensie merytoryczności wyniku (ale halucynacje czy ograniczenia okna kontekstowego zostaną, nie da się ich usunąć przy tej architekturze modeli). To ma co najmniej kilka implikacji.
Pierwsza – ścięcie kosztów o kolejny rząd wielkości, skoro okazuje się, że mniejszy model ma kompetencje większego. To właśnie sprawdzamy w jednym z projektów – z naszym partnerem tworzymy czatbota dla specjalistów z określonej dziedziny, którego partner w ramach działań promocyjnych zamierza udostępnić za darmo. Koszty utrzymania systemu przy zastosowaniu modelu z górnej półki przewyższyłyby budżet całego projektu. A wygląda na to, że przyzwoitą jakość można uzyskać z modelu, którego koszty API wynoszą poniżej $0.5 za milion tokenów.
Druga – przy odpowiedniej instrukcji możemy mieć dostęp do światowej klasy ekspertyzy w większości dziedzin (bo nawet Sonnet 3.7 w wersji zwykłej, nie Thinking, podnosi swoje kompetencje z użyciem modulatorów psychologicznych). Pomyśl, że możesz mieć na wyciągnięcie ręki prawie dowolną ekspertyzę, o ile jest ona zdigitalizowana w książkach i nie opiera się na wiedzy utajonej.
Ponadto jest dodatkowym bonusem jest coś, o czym do tej pory nie wspominaliśmy, czyli większa sterowalność i stabilność LLMów. Jednym z bardziej przydatnych biznesowych zastosowań modeli językowych jest wykorzystanie ich jako automatycznych systemów oceniających tekst. Modele mogą porównywać dokumenty, weryfikować spójność czy wykrywać nieścisłości – wszystko to bez konieczności definiowania sztywnych reguł walidacji. Ale, z uwagi na generatywny, niedeterministyczny charakter tej technologii, trudno o stabilność takich ocen. Nawet ściągnięcie parametru temperatury do zera nie pomaga, bo minimalne zmiany w tekście (np. zastąpienie synonimem jednego słowa) mogą zmienić ocenę lub jej powtarzalność przy wielokrotnym wykonaniu tej samej oceny. Mamy przykłady na to, że modulatory poznawcze (związane z metodami pracy, tj. metodami przeprowadzania oceny) potrafią bardzo ustabilizować ocenę.
Wzbogacanie promptów z użyciem modulatorów to nie jest jakaś kosmiczna rewolucja, ale kolejny skok w rozwoju AI. Natomiast jest jeden haczyk – okres prostych trików się skończył, a użycie modulatora wymaga eksperymentowania, często na całkiem sporą skalę.
Jak Twoim zdaniem powinna wyglądać przyszłość interakcji z modelami – czy zmierzamy w stronę „API do modulacji”, gdzie użytkownik dobiera np. odpowiednią personę jak strategię rozwiązywania problemu?
Jak wspominałem przed chwilą – sądzę, że nie będziemy tego robić świadomie, tylko w którymś momencie odpowiednie modulatory (osobowe, emocjonalne, poznawcze i wiele innych) będą dodawane do Twoich poleceń w automatyczny sposób. Przykładem topornego w gruncie rzeczy systemu do takich celów jest Anthropic Prompt Generator.
Ale wymagać to będzie dwóch elementów – póki co dyskutujemy o jednym, tj. nieistniejącym jeszcze (ale już na horyzoncie) systemie automatycznego wzbogacania instrukcji dla LLMów na przykład w oparciu o psychologiczne dźwignie (choć to nie jedyne możliwe podejście). Ten system można przedstawić jako “symulator odpowiadającego”.
Ale nie zapominajmy o pytającym.
Nawet niewinna instrukcja “podsumuj mi ten tekst” może oznaczać coś innego dla Ciebie i dla mnie. Mamy różne oczekiwania, czy preferencje. Często jawne, ale nie zawsze. Pamiętasz jak rozmawialiśmy o preferencjach LLMów jako konstytutywnej cesze tej technologii? Implikacją Twojego pomysłu była konieczność zmapowania co najmniej części wiedzy utajonej w danym miejscu pracy, pod kątem konkretnego zastosowania. Tutaj mamy do czynienia z tym samym wyzwaniem: jak zorientować się (w sposób nieuciążliwy dla nas obu), jakie są nasze preferencje co do outputów z LLMów?
Potrzebny jest symulator pytającego. Mechanizm, który zmapuje nie tylko jawne i oczywiste preferencje użytkownika, ale będzie miał jego dość dokładny profil psychologiczny (bo dużo naszych preferencji do tylko odbicia tych samych procesów psychicznych). Do tego zadania LLMy również świetnie się nadają.
Dopiero, kiedy taki nieistniejący system będzie wiedział kto pyta (kim jest, z jakiej perspektywy pyta, jakie ma preferencje itd.), możliwe będzie również idealne dobranie (zasymulowanie) odpowiadającego. Budowa takiego systemu to jedna z ambicji Neurofusion Lab. Ale pewnie nie tylko nas.
Jak dokładnie można odwzorować prawdziwą osobę? W marcu dwójka kognitywistów (Cameron Jones i Benjamin Bergen) z Uniwersytetu Kalifornijskiego z San Diego przeprowadziła test Turinga na czterech modelach LLM: ELIZA, GPT-4o, LLaMa-3.1-405B i GPT-4.5. GPT-4.5 udało się przekonać aż w 73% przypadków, że jest człowiekiem. LLaMa-3.1-405B zdołał przekonać tylko (a może aż?) 56% uczestników. Czy w dzisiejszych czasach jest sens badać w ten sposób LLMy?
Gdyby nie niestabilność modeli objawiająca się w kontekstach wieloturowych (długa konwersacja pomiędzy człowiekiem a modelem), o której wspominałem w poprzedniej części, to w zasadzie na dzień dzisiejszy nie dałoby się odróżnić dobrze sprofilowanego LLMa (z dobrze skonstruowaną personą) od człowieka w interfejsie czatowym. Popatrz na poniższy przykład. Poprosiłem ChatGPT, żeby napisał o Vibovicie (jeden z pierwszych suplementów witaminowych na rynku, wciąż w sprzedaży od kilkudziesięciu lat). Otrzymałem coś takiego:
Vibovit to preparat w postaci suplementu diety, który zawiera witaminy oraz minerały, często wzbogacony o dodatkowe składniki wspomagające zdrowie. Jest szczególnie popularny wśród dzieci i młodzieży, ponieważ pomaga w uzupełnianiu niedoborów składników odżywczych w organizmie.
Vibovit występuje w różnych formach, takich jak tabletki do żucia czy proszek, co ułatwia jego stosowanie. Zawiera m.in. witaminy z grupy B, witaminę C, D oraz minerały takie jak wapń czy magnez, które wspierają rozwój i prawidłowe funkcjonowanie organizmu.
Dzięki odpowiednio dobranym składnikom, preparat może wspierać układ odpornościowy, poprawiać koncentrację i energię, a także przyczyniać się do ogólnej poprawy samopoczucia. Jest często stosowany w okresach wzmożonego wysiłku fizycznego lub intelektualnego, takich jak szkoła czy nauka.
Pomimo że Vibovit może być pomocny w uzupełnianiu diety, warto pamiętać, że nie zastępuje zdrowej, zrównoważonej diety i nie powinno się go stosować w nadmiarze.
Nuda i banał. Ale teraz popatrz na to, to wciąż model językowy, ale symulujący personę: mężczyzna l. 76 z 15 tys. miasta, z dwójką dzieci, rozgoryczony, że nie widzi wnuków, bo dzieci wyjechały do dużych miast (dokładna instrukcja jest tajemnicą firmy ;)). Otrzymałem taką odpowiedź na to samo pytanie:
No ten Vibovit, panie… co tu dużo gadać. Dawałem dzieciom, oba moje, Zdzichu i Krysia. On był taki chudy, a jej warzywa nie chciały leźć. To doktor mówi – Vibovit trzeba.
I dawałem. Takie torebeczki były, rwało się górę… i palec się tam wkładało. Oni to lubili, panie! „Tata, daj witaminki!” – tak wołali. To jak przychodziłem z apteki, to od razu wiedzieli.
Żona mówiła – „Po co te proszki?” Ale jak zobaczyła, że lepiej jedzą, to już nic nie gadała. I co? I masz… Zdzichu w tej cholernej Irlandii teraz siedzi. Dziesięć lat już. Dzwoni, jak sobie przypomni. A Krysia? W Warszawie! Wyszła za takiego… informatyka czy jak to się tam zwie. Wnuki widuję na tym… fejstimie czy jak to się nazywa.
Mówiłem – nie jedźcie tam! Zostańcie tutaj. Ale nie… kariera, kariera! I po co ja im dawałem te witaminki? Żeby wyjechały?
Do tej pory mam ciarki jak to czytam. Wielu tych szczegółów nie było w instrukcji. Model wygenerował tekst, który, jeśli pochodziłby od człowieka, wskazywałby na głębokie rozgoryczenie i emocjonalną relację z produktem Vibovit – produktem, który kojarzył się mu z czasem, kiedy dzieci miał przy sobie.
Gdyby w wieloturowych konwersacjach modele zachowywały się stabilnie, czy byłbyś w stanie zgadnąć czy takie teksty pochodzą od człowieka czy od modelu językowego, zakładając, że jeszcze poprawilibyśmy stylistykę (tutaj nie było to celem) oraz dołożyli jeszcze trochę szczegółów w życiorysie? “Przypuszczam, że wątpię” cytując tytuł książki o Bohdanie Łazuce.
Moim zdaniem modeli językowych już nie ma sensu testować w teście Turinga. Szukajmy ciekawszych sposobów na weryfikację “inteligencji” tej technologii, jak np. test ARC AGI zaprojektowany przez François Cholleta.
Skoro jesteśmy w stanie z pomocą LLMów zrobić mój model psychologiczny i zostanie on użyty, żeby kolejny model językowy dał mi najlepsze odpowiedzi na moje pytania (bo odpowiednio dobierze odpowiadającego – dostawi do mojego pytania odpowiednie modulatory, jak je nazywasz), to czy nie kończymy tej rozmowy dokładnie w tym samym miejscu co część pierwszą? Z LLMami jako warstwą pośredniczącą pomiędzy mną a rzeczywistością…
Owszem. Natomiast cały ten temat sterowalności, możliwości symulacji różnych aspektów psychiki, zwłaszcza w połączeniu z szansą na to, że możemy osiągać ekspertyzę największych modeli używając modeli o rząd albo dwa rzędy wielkości mniejszych (czyli np. lokalnych) potencjalnie daje nam narzędzia pełnej kontroli.
Na razie ta technologia jest trudna w okiełznaniu, nie tylko przez to, że używamy modeli zdalnie (nie mając na nimi pełnej kontroli), ale także przez to, że nawet twórcy LLMów słabo sobie radzą ze sterowalnością. Warto przeczytać na spokojnie, co OpenAI napisało na temat ostatniej afery z lizusostwem ChatGPT (część 1 i część 2). Wyłania się z tych analiz obraz firmy, która audytuje swój produkt na różne sposoby, bo nie ma narzędzi, żeby przewidzieć różnego rodzaju zachowania z góry.
Jak widać, bardzo potrzebujemy narzędzi i metod sterowalności i wyjaśnialności. Modulatory w instrukcji to nie jest jedyne podejście do tego tematu (choć zwróć uwagę, że w kolejnych przykładach wciąż używa się języka psychologii i pokrewnych dziedzin). Firma Goodfire AI tworzy narzędzia do sterowania LLMami używając tzw. rzadkich autoenkoderów (polecam pobawić się sterowaniem modelem LLaMa na ich platformie). Są tzw. wektory kontrolne (bardzo ciekawy artykuł na temat praktycznego podejścia do tematu autorstwa Thei Vogel, jednej z czołowych badaczek modeli językowych, która pokazuje jak prosto wysterować LLM, tak aby kłamał lub symulował, że jest na psychodelikach). I to nie są jedyne podejścia jakie są tworzone.
Bez takich narzędzi jesteśmy wobec LLMów jak dzieci we mgle.