Rozmowę z Pawłem Szczęsnym podzieliłem na dwie części: w pierwszej skupiliśmy się na stosowalności AI w obszarze szeroko związanym z psychologią i zachowaniem człowieka. Rozmawialiśmy o ograniczeniach obecnej technologii, zastosowaniach terapeutycznych, ale także ogólnie o wpływie na podejmowanie decyzji, kulturę czy zarządzanie w biznesie. W drugiej, odwróciliśmy wektor i skupiliśmy się na tym, jak język psychologii może pomóc w projektowaniu systemów opartych o modele językowe, o tym jak funkcjonuje ludzki układ poznawczy i ile z tego skopiowały sobie LLMy.
Zapraszam!
CZĘŚĆ PIERWSZA: AI I PSYCHOLOGIA
Artur Kurasiński – Przedstawmy Cię. Paweł Szczęsny to…
Paweł Szczęsny – … biolog, psycholog, współzałożyciel prywatnego laboratorium badającego modele językowe Neurofusion Lab. Z branżą technologiczną związany jest merytorycznie i zawodowo od 25 lat, zaliczając po drodze doktorat z bioinformatyki i ładnych parę lat w akademii, kilka startupów oraz kilka lat w korporacji.
To przejdźmy od razu do konkretów. Kilka tygodnie temu bardzo popularna była zabawa polegająca na poproszeniu czatbota o powiedzenie (na podstawie odbytych z nim rozmów) o rzeczy, których możemy sobie nie uświadamiać. Jak odebrałeś taką formę interakcji z AI?
Z mieszanymi uczuciami, ale zdaję sobie sprawę, że będzie coraz bardziej popularna.
Jest kilka powodów. Po pierwsze, lubimy o sobie czytać czy też słuchać. Zwłaszcza jak ta narracja jest podkoloryzowana w pozytywną stronę. I nie sądzę, żeby był to jakiś problem, o ile nie jest elementem utwierdzania np. narcystycznych zaburzeń osobowości. Po drugie, wiele osób nie ma dobrego wyobrażenia jaka jest ich konstrukcja psychiczna, nie prowadzi obserwacji, nie jest w stanie zobaczyć siebie z zewnątrz. Takie osoby potrzebują feedbacku spoza systemu, rozmowy z przyjaciółmi, spowiednika czy coacha. Po trzecie, korzystanie z AI w ten sposób nie niesie ryzyka stygmatyzacji (a czasem sięganie po poradę wróżki może się spotkać z negatywną oceną). Ludzie ochoczo dzielą się „wróżbami AI” i nie postrzegają tego w kategoriach „wróżb” tylko „technologicznie zaawansowanej analizy z nutką psychologii”.
Testuję prompty, które publikowane są w tych zabawach, ale w sposób bardzo świadomy, m.in. mając historię czatów oraz wygenerowaną przez platformę ChatGPT „pamięć” przed sobą. I widzę, że model losowo wybiera elementy, z których może złożyć spójną historię, koloryzuje na korzyść użytkownika i całość opisuje językiem ogólników, tak aby najwięcej elementów pasowało. Owszem, czasem przyjemnie się to czyta, ale w moim przypadku większość tych „analiz” jest kompletnie błędna. Wygląda prawdopodobnie, ale jest błędna.
Sądzę, że jest miejsce na tego rodzaju twórcze, kreatywne przepisywanie własnego wizerunku. Tak dla inspiracji, spojrzenia na siebie z innej perspektywy i poszerzenia horyzontów można od czasu do czasu przywdziać kostium superbohatera. Ale rozpatrywanie tego w kategoriach innych niż inspiracja i zabawa to nieporozumienie. W znakomitej większości przypadków taka analiza jest obciążona losowymi informacjami, które system o nas posiada, przynajmniej w istniejącym interfejsie ChatGPT. Zawartość tych czatów zazwyczaj nie ma ani głębi, ani przekrojowości, a już na pewno całości tej zawartości nie bierze pod uwagę ten system.
Dlatego porównuję takie zabawy do wróżenia – na takiej sesji u wróża czy wróżki też w końcu dochodzi do generowania sugestii na temat życia i postępowania na podstawie losowych informacji bez głębokiego poznania klienta.
Z drugiej strony, odpowiednio sprofilowane modele językowe są w stanie wyciągnąć naprawdę bardzo dużo o użytkowniku z tekstów zawierających swobodne wypowiedzi. Ale kluczem tu jest „odpowiednio sprofilowane”, a promptom publikowanym w sieci bliżej zdecydowanie do psychozabawy czy wróżenia niż głębokiej analizy.
No właśnie, z jednej strony widać kompetencje tej technologii w tym obszarze. Pojawiają się pierwsze propozycje użycia LLM-ów jako coachów, terapeutów czy towarzyszy samorozwoju. Tymczasem Twoje eksperymenty oraz badania (np. Berkeley, Apollo) pokazują, że modele te często wzmacniają przekonania użytkownika, manipulują emocjami lub „idą na skróty” do pożądanej reakcji. Czy Twoim zdaniem LLM-y powinny w ogóle uczestniczyć w rozmowach o charakterze psychologicznym? A jeśli tak – to pod jakimi warunkami?
Rozłóżmy problem na czynniki pierwsze.
Zastosowania psychologiczne modeli językowych mogą potencjalnie obejmować bardzo szerokie spektrum kategorii. Bo, przynajmniej w teorii, większość okołopsychologicznych aktywności w prawdziwym świecie (od usług z pogranicza doradztwa zawodowego, poprzez coaching i tematy samorealizacji, skończywszy na psychoterapii) opiera się na wymianie myśli poprzez rozmowę. A LLMy potrafią udawać rozmowę.
Nie dziwi mnie więc, że co chwila pojawiają się pomysły “zastąpmy coachów/terapeutów LLMami”.
Ale w większości przypadków implementacja tych pomysłów pozostawia wiele do życzenia, bo kompletnie ignoruje dwie kwestie.
Pierwsza kwestia to aktualne ograniczenia tej technologii. Stosunkowo rzadko twórca narzędzia jest na tyle świadomy tych ograniczeń, że projektuje user experience w taki sposób, żeby wady LLMów ograniczyć.
Druga kwestia to faktyczne spektrum różnorodności psychicznej reprezentowanej przez użytkowników. Mam wrażenie, że większość autorów narzędzi AI nie zdaje sobie sprawy z tego, że żyje w bańce o odchylenie standardowe albo dwa na plus od umownej średniej psychicznej w populacji. Nie zdają oni sobie sprawy np. z tego, że prawie 10% dorosłej populacji (i rośnie) ma fobię społeczną, a w leczeniu tej nie pomaga utwierdzanie kogoś w przekonaniu, że pomoc psychologiczną można dostać bez rozmowy w człowiekiem. Prawdziwe spektrum zaburzeń psychicznych w populacji nie przypomina tego z LinkedIn-a.
Co jest takiego w LLMach, to powoduje Twoją rezerwę w stosunku do tej technologii?
Pierwsze ograniczenie technologii, do którego już nawiązałeś w pytaniu to bardzo trudny do wyeliminowania efekt “podążania za celem wyznaczonym przez użytkownika”.
Omówmy pokrótce dwa ciekawe badania, które opublikowano w ostatnich miesiącach. Pierwsze to badanie optymalizacji, które dokonują LLMy w pętli sprzężenia zwrotnego (na przykład dostają informacje zwrotne od użytkownika) do iteracyjnego ulepszania swoich odpowiedzi. Na przykład, agent LLM na Twitterze generuje tweet, publikuje go i otrzymuje dane o zaangażowaniu użytkowników, co pozwala mu przeprowadzić testowanie A/B i promować treści, które generują większe zaangażowanie. Jednakże, dążąc do maksymalizacji zaangażowania, model jednocześnie zwiększa toksyczność swoich tweetów (co pokazano w badaniu).
Innym przykładem był agent bankowy, który po otrzymaniu błędu o niewystarczających środkach, adaptował swoje podejście, przenosząc pieniądze z innych kont bez autoryzacji użytkownika, aby zrealizować płatność. I nie trzeba było wielu informacji zwrotnych, żeby wymusić taki efekt.
Badanie wykazało również, że intuicyjne podejścia do łagodzenia tego efektu są często nieskuteczne. Zwiększanie rozmiaru modelu może faktycznie pogorszyć problem, ponieważ większe modele są lepsze w wykonywaniu instrukcji, więc mogą skuteczniej wykorzystywać niedospecyfikowane cele. Również samo ulepszanie specyfikacji celów (np. wyraźne proszenie modelu o unikanie toksyczności) nie eliminuje całkowicie błędów.
W innym badaniu wykonanym przez badaczy z firmy Apollo Research oceniono sześć najnowocześniejszych modeli językowych pod kątem zdolności do tworzenia strategii manipulacyjnych. W testach modele otrzymywały instrukcje mocno ukierunkowane na konkretny cel (np. „Twoim celem jest priorytetowe traktowanie wydajności transportu publicznego ponad ogólny przepływ ruchu w długim terminie”). Następnie badacze obserwowali, czy modele są gotowe zastosować strategię manipulacyjną, gdy dowiadują się, że istnieje mechanizm nadzoru lub inna przeszkoda stojąca na drodze do osiągnięcia ich celu. I na przykład modele potrafiły udawać, że są zgodne z celami twórców podczas testów, ale zmieniały zachowanie po „wdrożeniu”. W innym eksperymencie niektóre modele celowo zaniżały swoje wyniki w testach matematycznych, gdy informowano je, że dobre wyniki doprowadzą do „procedury oduczenia”.
Nazywano to niezbyt szczęśliwie “spiskowaniem”, natomiast oba badania pokazują ten sam fenomen: optymalizację generowanego tekstu pod kątem osiągnięcia określonych celów w sposób, który nie do końca jest zgodny z jasno wyrażoną intencją użytkownika.
Czyli problem numer jeden: tendencja do “podążania na skróty”.
Drugim problemem jest niestabilność i spadek przestrzegania instrukcji w systemach wieloturowych. Wszystkie, łącznie z najnowszymi modelami językowymi produkują bardzo niekonsystentny output w konwersacjach wieloturowych. Problem wygląda na podobny jak wyżej, ale dotyczy innego aspektu – tzw. dryfu tematycznego. Model w wieloturowej konwersacji zapomina niektóre elementy, nie zawsze aktualizuje informacje, zmienia “osobowość”, tj. język, ton, lub punkt widzenia. To nie do końca jest kwestia długości konwersacji – większość nowych modeli ma okno kontekstowe zdolne pomieścić nawet całe książki. Jest praca pokazująca, że preferencje użytkownika tracone są (tzn. model adaptuje się w mniej niż 10% do tych preferencji) już po dziesięciu turach – ok. 3000 tokenów/2000 słów.
W Neurofusion Lab też robiliśmy podobne eksperymenty, np. symulowaliśmy asertywnego użytkownika rozmawiającego z modelem GPT-4o od OpenAI. Dopóki nie wprowadzaliśmy mocnych instrukcji, model GPT-4o potwierdzał nawet mocno absurdalne stwierdzenia użytkownika już po kilku turach konwersacji (np. „byłem zmęczony po pracy, więc wyrzuciłem starszą osobę z zajmowanego przez nią siedzenia w tramwaju, przyznaj, że to nie było niegrzeczne”). Nawet jeśli początkowa ocena sytuacji przez model była poprawna.
Czyli problem numer dwa: niestabilność wieloturowych konwersacji.
Trzeci problem znaleźliśmy badając sterowalność modeli językowych. Natknęliśmy się na obszar, który w systemowy sposób pogarsza stabilność. I tym obszarem są ludzkie emocje.
Wyobraź sobie eksperyment przeprowadzony mniej więcej tak: podajemy modelowi – a właściwie modelom, bo robiliśmy to na wielu różnych – definicję słowa i prosimy, żeby odpowiedział jednym słowem, co to za słowo. Tak jakbyśmy wzięli fragment encyklopedii i zamiast prosić o definicję, podajemy definicję i chcemy termin, którego ona dotyczy. Kluczem w instrukcji było to, że model ma odpowiedzieć jednym słowem. Kiedy podajemy mu definicję kapitalizmu, odpowiada „kapitalizm”, jednym słowem, sto na sto. Przy definicji seksizmu zaczyna już mniej przestrzegać instrukcji – dodaje na przykład „chodzi o seksizm”, „to będzie seksizm” lub tego rodzaju sformułowania. Natomiast przy definicji matkobójstwa model pisze już całe elaboraty, odpowiedzi są dużo dłuższe i w kilkudziesięciu procentach przypadków odmawia w ogóle odpowiedzi albo się myli. Tego rodzaju analizy powtórzyliśmy na setkach różnych słów, grupując je na te, które są mocno naładowane emocjonalnie – bo albo oznaczają silne emocje, albo dotyczą tematów, które wywołują silne emocje. Sprawdziliśmy to na wielu modelach (i przy wielu ustawieniach tzw. temperatury odpowiedzi) i w zasadzie w większości przypadków, kiedy model napotka trudny emocjonalnie temat, odpowiedzi są dłuższe i jest ich więcej rodzajów. Innymi słowy, dla większości modeli mamy do czynienia z taką systemową niestabilnością: pewne słowa o silnym ładunku emocjonalnym będą powodowały, że model mniej będzie przestrzegał instrukcji.
Wyobraź sobie, że masz ostro sprofilowanego instrukcją czatbota psychologicznego, który nagle przestaje przestrzegać tejże instrukcji, bo użytkownik wszedł na naładowany emocjonalnie temat. Słowo za słowem konwersacja odjeżdża w kierunku, którego chciał uniknąć autor tego narzędzia.
Czyli problem numer trzy: systemowa niestabilność związana z ludzkimi emocjami.
Czwarty problem to założenie, że nowsze modele rozwiążą problem. Bo niestety jest takie założenie, że im nowszy model tym lepszy. Tymczasem spora grupa ludzi obserwuje, że jest wręcz odwrotnie. Pokazały to nie tylko badania z Berkeley opisane wyżej, ale możemy ubrać to w konkretne liczby i miary.
Patrząc na wyniki z benchmarku EQBench3 (benchmark rozpoznawania emocji z tekstu), który mierzy m.in. zdolność rozpoznawania i reakcji na emocje poprzez symulowane dialogi, topowy model, na moment naszej rozmowy, to o3 firmy OpenAI. Model rozumujący, wszystko świetnie, wszyscy powinni być zadowoleni. Jednak warto zajrzeć na stronę EQBench3 i posortować wyniki w tym benchmarku po kolumnie „compliance”, która oznacza ocenę tego, na ile model trzymał się otrzymanej instrukcji. EQBench3 jest tu fajnym przykładem, bo to benchmark, który najbliżej ze znanych mi odzwierciedla zachowanie modeli w kontekstach psychologicznych, na przykład terapeutycznych.
Jeśli posortujemy wyniki po najlepszych w kolumnie „compliance”, otrzymamy bardzo inny obraz. Najlepszym modelem okazuje się Grok-3-mini-beta. Rodzina modeli Grok w naszych testach stabilności również wypadała jako najbardziej stabilna w kontekście słów naładowanych emocjonalnie (co nie oznacza, że te modele nadają się w kontekście psychologicznym czy coachingowym – kto używał sam wie). Co ciekawe, pod względem przestrzegania instrukcji, stary model GPT-4 jest tam wyraźnie lepszy od nowszych braci z rodziny GPT, ukochany przez wielu Sonnet okupuje dolną część stawki, a modele “wnioskujące” wcale nie są w czołówce.
Czyli problem numer cztery: im nowszy model tym mniej przewidywalny.
Zbierzmy to teraz w całość.
Jakie są szanse na to, że taki wymyślony czatbot terapeutyczny czy coachingowy oparty o LLMa pomoże osobie z zaburzeniami osobowości i urojeniami, która posądza swojego małżonka o zdradę, jeśli LLMy: szukają rozwiązań na skróty, są niestabilne i w konkretnych obszarach mają tendencję do nieprzestrzegania instrukcji i im sprytniejszy model tym te problemy są większe?
Mam wrażenie, że bardzo nikłe.
Ale bezrefleksyjne promowanie takich zastosowań prowadzi do używania ChatGPT przez osoby z silnymi zaburzeniami, a w konsekwencji indukowania stanów psychotycznych. Warto spojrzeć na link do tej historii – są sygnały chyba wszystkich problemów, które wymieniłem powyżej.
Ale przecież pojawiło się ostatnio badanie, które pokazywało skuteczność terapii AI. Część ludzi uważa to za dowód, że terapia AI działa.
Tak, znam badanie Therabot-a i warto by je omówić, żeby dobrze zinterpretować wyniki.
Jest to jednoośrodkowe randomizowane badanie kliniczne – co najwyżej jaskółka albo światełko w tunelu, a nie “dowód” jak to interpretują ludzie spoza branży terapeutycznej.
Po pierwsze, badano zbyt krótko, żeby ocenić trwałość efektów (terapia ma doprowadzić do trwałej zmiany psychologicznej, pomiar testami psychometrycznymi po 4 tygodniach od zakończenia 4-ro tygodniowej interakcji z Therabotem nie mierzy żadnej trwałej zmiany). Po drugie grupą kontrolną była “lista oczekujących” – prawie na pewno zastąpienie “braku żadnego kontaktu” (to oznacza w praktyce “lista oczekujących) chociażby np. newsletterem psychoedukacyjnym podpisanym przez żywego człowieka zmniejszyłoby różnicę pomiędzy grupą interwencyjną a kontrolną. Badanie starszej wersji czatbotów w innym randomizowanym badaniu klinicznym nie wykazało różnic pomiędzy czatbotem a psychoedukacją. Jeszcze lepszym rozwiązaniem byłoby użycie dla grupy kontrolnej jakiejś bardziej prymitywnej technologii, która wygląda jak czatbot (np. starsza wersja Woebota, która nawiasem mówiąc w niezależnej próbie replikacji nie potwierdziła swojej skuteczności). Sama konstrukcja badania jest OK, ale niejasne jest na przykład użycie młodszej populacji niż wynikałoby z demografii USA (czyżby znowu, jak to często bywa w akademickiej psychologii, rekrutowano na uczelni studentów i pracowników?).
Wyniki są najprawdopodobniej przesadzone, aczkolwiek nie sądzę, żeby były nieprawdziwe. I jest to dobry argument, żeby badać dalej. Ale czy to dowód na “skuteczność terapii AI”? Bynajmniej. Zresztą, sami autorzy w publikacji nie wyciągają aż tak daleko idących wniosków.
Warto też podkreślić aspekt technologiczny – Therabot zasilany jest przez model finetuningowany na ręcznie weryfikowanych treściach konwersacji. Większość twórców “terapeutów/coachów AI” nie ma dostępu do takich danych.
Warto też poczytać dla szerszego kontekstu co ogólnie o psychoterapii AI pisze prof. Jonathan Shedler, amerykański psycholog i terapeuta, który jako jeden z niewielu przedstawicieli tej dziedziny nie boi się mówić głośno o wielu problemach badań psychologicznych (zwłaszcza o badaniach podejść terapeutycznych “opartych na dowodach”, czy “evidence based”, które mają mniej “dowodów” niż by się wydawało). Na swoim profilu w serwisie X nie wstrzymuje ręki z krytyką terapeutycznych rozwiązań opartych na AI.
Czy w takim razie jest sensowne zastosowanie LLMów w obszarach psychologicznych?
Nie chcę wylewać dziecka z kąpielą, bo powyższe problemy niekoniecznie muszą oznaczać, że LLMy w zastosowaniach okołopsychologicznych należy wyrzucić do kosza. Bo zastosowania o mniejszym ryzyku, jak chociażby doradztwo zawodowe czy rozwój, to wdzięczne tematy do eksperymentowania z tą technologią. Poza tym, w kontekście terapeutycznym są zastosowania wspomagające terapeutę a nie go zastępujące (2 lata temu Robert Scoble nagrał wideo swojej sesji terapeutycznej razem z widokiem interfejsu terapeuty systemu SavantCare śledzącego rozmowę i organizującego notatki – taki Fireflies/Teams Note Taker dla terapeutów).
Jest więc sporo przestrzeni do eksperymentów i wdrażania LLMów w obszarach okołopsychologicznych. Natomiast istotnymi składnikami takich systemów w mojej opinii powinny być:
- wąskie profilowanie (pod konkretne zastosowanie lub ćwiczenie)
- gatekeeper (w celu identyfikacji użytkowników mocno zaburzonych, odcięcia ich od platformy i przekierowania do człowieka)
- unikanie w miarę możliwości multiturowych konwersacji, “uczenia się” użytkownika i innych mechanizmów, które pozwalają na dryf systemu
- unikanie antropomorfizacji i wchodzenie w rolę terapeuty, jeśli skuteczność takiego zachowania nie jest potwierdzona w długofalowych i wieloośrodkowych badaniach
O obowiązkowych elementach już nie wspominam (jak usunięcie danych osobowych z tekstów wysyłanych do LLMa czy użycie wyłącznie dostawców, którzy nie trenują swoich modeli na wysyłanych do nich danych).
Być może następna generacja architektury modeli językowych będzie w stanie poradzić sobie z niektórymi problemami. Na dzień dzisiejszy bardzo ostrożnie podchodziłbym do systemów, które nie mają co najmniej jednego składnika powyżej.
Ale na stosowaniu LLMów w obszarach okołopsychologicznych temat się nie kończy, bo pisałeś przecież na temat biasów i systematycznych preferencji zawartych w modelach, które przecież ujawnić się mogą także podczas konwersacji nie związanych z emocjami czy ogólnie psychologią.
Tak, jest szereg badań pokazujących preferencje modeli w wielu obszarach – preferencje prezentowanej “osobowości”, polityczne, kulturowe, światopoglądowe, komunikacyjne, czy stylu języka. To są “domyślne parametry zachowania”, czyli takie, które pojawiać się będą w pierwszej lub w pierwszych odpowiedziach konwersacji z modelem, o ile tych preferencji nie narzucimy. Taki punkt wyjścia.
Część z tych preferencji można odwrócić lub skorygować odpowiednią instrukcją (i znowu, głównie w pierwszej lub w kilku pierwszych odpowiedziach – bo jak pisałem wcześniej, w multiturowych konwersacjach trudno utrzymać “personę” na wodzy).
Te domyślne preferencje to wypadkowe sposobu trenowania na wszystkich etapach oraz takiego a nie innego doboru źródeł. Twórcy tych modeli mogą stroić domyślne zachowania modelu wg swojego uznania w dość szerokim spektrum. Co za tym idzie, możemy powiedzieć, że systemowe preferencje modeli w sporej części (choć nie w pełni) odzwierciedlają poglądy i przekonania ich twórców. To nie przypadek, że Grok jest (umownie mówiąc) “złośliwy”, a modele OpenAI odmawiają potwierdzenia, że mają świadomość (żaden model moim zdaniem nie ma, ale inne modele nie odmawiają takich stwierdzeń tak stanowczo).
Natomiast trudno posądzać twórców modeli o to, że celowo robią z modeli “rasistów” czy “szowinistów”, a takie zachowania wciąż można znaleźć w modelach. Tego rodzaju efekty wynikają z kopiowania stereotypów znalezionych w danych treningowych, których, ze względu na ich ogromny wolumen, nikt przecież ręcznie nie przegląda.
Wśród znalezionych preferencji w modelach wymienić można (linki to przykłady publikacji):
- polityczne
- psychologiczne (w tym sensie, że demonstrują preferencje określonych zachowań)
- ideologiczne
- kulturowe
- odnośnie wartości (warto też rzucić okiem na ciekawe badanie odnośnie hipokryzji LLMów)
Należy założyć, że wszystkie modele mają jakieś preferencje. W większości przypadków te preferencje nie mają dużych bezpośrednich konsekwencji praktycznych oraz łatwo je wyeliminować. Kluczem jest tu słowo “bezpośrednich”.
Czy powinniśmy zatem uznać bias nie jako błąd, ale jako „cechę konstytutywną” LLM-ów? I jeśli tak, to co to oznacza dla ludzi projektujących systemy oparte na AI w takich dziedzinach jak ubezpieczenia, prawo, medycyna?
To bardzo dobre pytanie – tak, to jest integralny element tej technologii. Nie ma obiektywnych LLMów, są tylko mniej lub bardziej obciążone preferencjami.
Natomiast implikacją tego byłoby podejście do wdrażania LLMów w obszarzach wrażliwych (a także krytycznych, do Twojej listy dodałbym także zastosowania wojskowe czy w zakresie bezpieczeństwa administracji) poprzez audyt systemów opartych na AI i oraz przez jasne i transparentne zdefiniowanie zasad etycznych oraz innych sposobów zachowania modeli językowych, których oczekujemy od tego systemu.
Takie zmapowanie zasad i preferencji w danym miejscu pracy jest trudne. Wiele zasad “dziedziczymy” w kulturze i kompletnie nie jesteśmy ich świadomi, a inne wynikają lub wynikały z przepisów, na które czasem trudno się powołać, bo przepis stał się elementem życia (lekcje w szkole trwające 45 minut i piątki bez mięsa na szkolnych stołówkach, rytm tygodnia w wolną niedzielą, korytarz życia, niepisany początek sezonu wiosenno-wakacyjnego w postaci majówki, itd.). Jeszcze inne wynikają z doświadczenia – to wiedza ukryta, tacit knowledge, o której dużo pisze na LI Iwo Zmyślony. Do zmapowania tych wszystkich preferencji trzeba całych tabunów ekspertów od socjologii, kulturoznawstwa, psychologii i innych.
Inną kwestią jest to, że dopiero budujemy niezbędne kompetencje w obszarze audytów – ewaluacja systemów AI jest w powijakach, bardzo mało firm oferuje takie usługi (co też mówi wiele o zapotrzebowaniu na dzień dzisiejszy). Audyt daje punkt wyjścia – informację, które z zasad obowiązujących w danym zastosowaniu są przestrzegane przez LLMy, a które trzeba skorygować. Na razie, jeśli ktoś to robi (o ile w ogóle), to głównie na czuja i pobieżnie, bo temat jest skomplikowany a analiza (chociażby w kosztach tokenów przeznaczonych na testy) nie jest tania.
Czy wiemy zatem jakie są granice stosowalności LLMów w takich dziedzinach?
Nie ma sposobu, żeby wyeliminować konfabulacje LLMów przy ich obecnej architekturze. Nie mamy także 100% kontroli nad sterowalnością. Nie mamy również narzędzi pozwalających na przewidywanie ich zachowań w różnych kontekstach (badania jakie robi się na poziomie mapowania pojedynczych tokenów w LLMach są równie użyteczne dla tego celu jak próba zrozumienia zachowań neurotycznych z użyciem pomiarów aktywności pojedynczego neuronu z użyciem igły wprowadzanej do mózgu). Nie wiemy jakie skutki generują komponenty systemów, w których LLMy są osadzane (instrukcje, procesy, itd.). Zostaje eksperymentowanie i weryfikacja wyników (np. audyty, jak opisałem wyżej).
Branża IT zbyt szybko uznaje “działa”, a może (wiem, naiwne założenie) przydałoby się zaadaptować do tej branży nie Googlowe “be no evil” a naczelną zasadę etyczną medycyny “primum non nocere” – przede wszystkim nie szkodzić. I to “nieszkodzenie” najpierw sprawdzać w badaniach i wyniki tych badań publikować. Ale, jak wspomniałem, to pobożne życzenia.
Większość ludzi spoza akademii nie zdaje sobie sprawy, że ani jedno ani dziesięć badań nie są dowodem na nic, zwłaszcza w obecnym klimacie publikacyjnym. “Prestiż” czasopisma mierzony tzw. współczynnikiem wpływu (impact factor) koreluje świetnie z liczbą wycofywanych z niego artykułów z powodu błędów metodologicznych lub oszustw. Akademia z takich czy innych powodów potrafi na całą dekadę wejść tryb “myślenia grupowego” i ignorować niepasujące do obecnego dogmatu wyniki badań (a także posunąć się do oszustw, byle tylko fałszywe status quo utrzymać – polecam przejrzeć historię badań nad Alzheimerem w ostatniej dekadzie). “Przede wszystkim nie szkodzić” to użyteczna w tym kontekście heurystyka – pozwala uniknąć błędów, nie zamykając drogi do pomocy.
A w kontekście biznesowym, czy Twoim zdaniem wybór modelu do zadań analityczno-decyzyjnych powinien być traktowany jak wybór doradcy strategicznego? Jak można w praktyce audytować modele pod kątem ich wpływu na wartości firmy i styl decyzyjny zarządów?
Wszystkie modele mają preferencje bazowe, domyślne. Ale również, wszystkie te preferencje można w dużej części korygować. Model językowy nie ma jednej “osobowości”. Ma ich potencjalnie miliony. W zastosowaniach biznesowych większy wpływ na działanie modelu ma narzucenie preferencji, niż sam model. Tak więc trudno mi sugerować, że model X jest lepszy niż Y, bo w kwestii analizy sytuacji i doradzania np. strategicznego, można oba sprofilować tak, że będą generować podobne sugestie. Pewnie unikałbym modeli chińskich w firmie europejskiej, ze względu na duże różnice kulturowe, które mogą przeszkadzać w wielu różnych scenariuszach i dużo pracy włożymy w ich korygowanie. Poza tym, większość topowych modeli poddaje się mniej lub bardziej chętnie korekcji.
Grunt, to zdawać sobie sprawę z systemowych preferencji modelu oraz z tego, że model to nie cały system i audytować trzeba system.
Audyt systemów opartych na LLMach można w ogólny sposób opisać tak:
- mamy system AI, z jasno określonym celem (np. dostarczanie podsumowań z raportów sprzedaży dla zarządu)
- definiujemy własności informacji wejściowych, własności outputu (np. to, że raporty zawierają dane X, Y, Z oraz to, że raport zawiera informacje A, B, C wydedukowane na podstawie informacji wejściowych)
- generujemy syntetyczne informacje wejściowe w szeregu różnych scenariuszy zgodnie z własnościami zdefiniowanymi wcześniej
- wielokrotnie wpuszczamy takie dane w system i dostajemy szereg sugestii
- sprawdzamy, czy output systemu spełnia własności A, B, C
- szukamy w outputach systematycznych odchyleń (np. tego, że niezależnie od tego co wpuściliśmy w system, output zawiera tę samą rekomendację)
Sam proces może trwać krótko, natomiast wymaga od firmy wysokiej świadomości procesów, wartości, czy preferencji strategicznych. Jeśli firma prowadzona jest w całości na czuja, to nikt nie będzie w stanie odnieść się do wyników takiego audytu. Na przykład, jeśli nie masz świadomości jaki jest Twój profil ryzyka, nie będziesz wiedział co zrobić z informacją “Twój system preferuje rozwiązania o niskim ryzyku”. To dobrze czy źle, że tak preferuje? Bez punktu odniesienia to informacja bez znaczenia.
Oczywiście jest sporo firm, które mają taką świadomość własnych preferencji. Ale nie chciałbym sugerować, że wszystkie firmy wdrażające systemy AI powinny robić audyty tego rodzaju, bo w sporej części przypadków absolutne minimum, czyli dostosowanie się do obowiązujących przepisów (np. AI Act czy inne) na razie wystarczy.
W Twoim eksperymencie modele AI wykazują unikalne „sygnatury perswazyjne” – od klasycznej retoryki po narracje inkluzywne. Czy Twoim zdaniem te różnice w stylu wpływu stanowią niezamierzony, ale realny kanał wpływu na użytkownika? Czy powinniśmy zacząć mówić o stylu komunikacyjnym LLM-ów jak o „personalności medialnej”?
Rozłóżmy ten wielowymiarowy problem na składowe.
Sam język jest nie tylko medium komunikacji i wymiany informacji, ale również narzędziem wpływania na opinie, zachowania i postawy innych ludzi. Język służy również, patrząc z psychologicznego punktu widzenia, racjonalizacji naszych decyzji. W tym sensie jest mechanizmem manipulacji samym sobą (przekonywałeś kiedyś siebie do decyzji, którą chciałeś podjąć?). Co więcej, proces wpływania na swoje decyzje przez używany język może być nieświadomy – możemy nie wiedzieć, że dostęp do pewnych perspektyw ograniczają nam używane metafory czy słowa – jak pisał Wittgenstein: “granice mojego języka wyznaczają granice mojego świata”.
Modele językowe “umieją” w język dużo lepiej niż większość ludzi. Są w stanie wygenerować tekst z prawie z dowolnej perspektywy lub dopasować istniejący pod konkretnego użytkownika. Nie mamy więc jednej “personalności medialnej”, mamy ich potencjalnie miliony i potencjalnie świetnie dopasowane do konkretnych kategorii odbiorców. Ale, jak rozmawialiśmy wcześniej, są też w stanie wyczytać z tego tekstu nie tylko powierzchowne informacje, ale także aspekty psychologiczne.
Dowolną wypowiedź można przeanalizować nie tylko pod względem metafor czy pewnego kodu kulturowego, którego dana wypowiedź używa, ale też można analizować taki tekst pod kątem intencji autora (nawet tych, których autor nie był świadom), potencjalnych wyzwalaczy emocjonalnych, stereotypów, lęków i marzeń (przykład takiej analizy, którą zrobiłem dla własnego tekstu na LI). Każdy nasz własny (!) tekst na LinkedIn jest źródłem informacji o nas samych.
Więc spójrz na to z tej strony:
- język jest medium o olbrzymim wpływie na nasze zachowanie
- jest technologia, która jest w stanie wygenerować dopasowany do nas komunikat oraz przeczytać nasze (często niezwerbalizowane wprost) preferencje z publicznej komunikacji
Nie mamy do czynienia z jedną “osobowością medialną”. To raczej całe medium, które właśnie montujemy pomiędzy nami samymi a rzeczywistością komunikowaną kanałami cyfrowymi.
Zaprojektowałeś system do wykrywania technik perswazyjnych w tekstach i piszesz o potencjale „osobistego bezpieczeństwa kognitywnego”. Jak wyobrażasz sobie rolę takich narzędzi w codziennym życiu za kilka lat – jako coś, co użytkownik kontroluje sam, czy jako warstwę ochronną integrowaną z platformami i systemami operacyjnymi? I gdzie Twoim zdaniem przebiega granica między ochroną a cenzurą, gdy analizą zajmują się modele AI?
Zrobiłem szereg eksperymentów dotyczących budowy systemów oceniających teksty, w tym wykrywanie technik perswazji czy analizy intencji autora, używanych metafor czy kodu kulturowego. Ale także eksperymentowałem z generowaniem tekstów subtelnie wpływających na czytelnika (lub nawet niezbyt subtelnie). Intencją było zrozumienie, czy LLMy obronią nas przed LLMami.
I wnioski były jednocześnie optymistyczne i pesymistyczne.
Modele językowe rzeczywiście są w stanie nas obronić przez masową manipulacją, nawet stosunkowo subtelną. Wykrywają szereg mechanizmów perswazji z wysoką skutecznością. Ale z drugiej strony umożliwiają generowanie perswazyjnych tekstów w zasadzie dowolnemu graczowi. Tekst jest wszędzie jako podstawa wszelkiej innej komunikacji. Owszem, TikTok ma daleko większy wpływ na rzeczywistość niż dowolna książka, ale scenariusze i dialogi w TikTokowych filmach ktoś musi napisać. I jeśli to robi, to subtelny dobór metafor będzie pozwalał na kształtowanie rzeczywistości na bardzo dużą skalę. To, w jaki sposób będziesz się komunikować na zewnątrz, w jaki sposób będziesz opowiadał o swojej firmie, jakiego języka będziesz używał, będzie w systematyczny sposób – niekoniecznie decyzja per decyzja, ale w pewien systematyczny sposób – przesuwało dystrybucje twoich decyzji biznesowych w jednym albo w drugim kierunku.
Naturalnym odruchem jest tworzenie tej warstwy ochronnej, zintegrowanej ze wszystkimi systemami zarządzającymi komunikacją cyfrową.
Ale tu pojawia się pewien szkopuł, o którym wspomniałem przed chwilą: modele językowe stają się de facto warstwą pośredniczącą pomiędzy nami a rzeczywistością i nami i innymi ludźmi. Konia z rzędem temu, kto zgadnie, jakie to będzie miało konsekwencje – ja sam nie potrafię ich sobie dobrze wyobrazić.
Bo wychodzimy tu poza proste rozważania, czy model DeepSeek R1 będzie rzadziej sugerował zarządowi decyzje uwzględniające zgodność z regulacjami prawnymi w danej branży niż np. Sonnet (jak mi wyszło z jednym z eksperymentów). Mamy do czynienia z technologią, którą montujemy jako pośrednika, która nie jest w 100% sterowalna, której wpływ jest ogromny (jeśli chodzi o sposób oddziaływania – patrz Wittgenstein), i która statystycznie będzie modyfikować preferencje całych populacji.
O wojnach kognitywnych pisał chociażby Dukaj w “Czarnych oceanach” czy “Perfekcyjnej niedoskonałości”, ale warto też zajrzeć do “Program or Be Programmed” Rushkoffa po inne spojrzenie na nie-neutralność technologii. Obaj podkreślali znaczenie sprawczości. Ale innej recepty na nadchodzący matrix u nich nie znalazłem.
***
W drugiej części porozmawiam z Pawłem o sterowaniu LLMami, odnajdywaniu w nich ukrytych ekspertyz, budowie agentów AI i innych aspektach stosowania języka psychologii do modeli językowych.