Czy teksty generowane przez GPT są wykrywalne?

Rozpoznawanie autorstwa tekstu przestało być domeną wyłącznie literaturoznawców czy śledczych zajmujących się plagiatami. Nowe realia komunikacji cyfrowej postawiły przed nami wyzwanie, które jeszcze niedawno wydawało się czystą teorią: jak odróżnić zapis ludzkich myśli od matematycznej ekstrapolacji prawdopodobieństwa wystąpienia kolejnych słów. Nie jest to kwestia intuicji, lecz starcia dwóch różnych architektur tworzenia sensu. Człowiek operuje intencją, kontekstem życiowym i błędem, podczas gdy model językowy bazuje na statystyce i dążeniu do uśrednionej doskonałości.

Kwestia wykrywalności treści generowanych maszynowo opiera się na fundamencie tzw. perplexity (zakłopotania) oraz burstiness (gwałtowności). Te dwa parametry stanowią oś, wokół której budowane są niemal wszystkie narzędzia detekcyjne. Maszyna, z natury zaprogramowana na bycie pomocną i zrozumiałą, wybiera sformułowania o wysokim prawdopodobieństwie. Jeśli poprosimy algorytm o dokończenie zdania, z dużą dozą pewności wybierze on ścieżkę najmniej oporu, najbardziej typową dla danej bazy danych. Człowiek natomiast jest nieprzewidywalny. Potrafi w środku technicznego wywodu użyć archaizmu, kolokwializmu lub zastosować nielogiczną, a jednak zrozumiałą strukturę składniową.

Strukturalna przewidywalność kontra chaos poznawczy

Głównym problemem algorytmów generatywnych jest ich dążenie do harmonii. Tekst stworzony przez model językowy jest zazwyczaj „zbyt dobry” pod względem gramatycznym, a jednocześnie nużąco jednostajny w swojej strukturze. Zdania mają podobną długość, akapity są niemal idealnie wyważone, a przejścia między myślami odbywają się za pomocą klasycznych łączników, które w podręcznikach stylistyki uchodzą za wzorcowe. To właśnie ta wzorcowość staje się sygnaturą algorytmu.

Narzędzia służące do detekcji analizują rozkład statystyczny słów. Jeżeli tekst jest zbyt gładki, pozbawiony rytmicznych załamań i specyficznych dla danej osoby nawyków językowych, prawdopodobieństwo pochodzenia maszynowego rośnie. Ludzki styl pisania przypomina zapis EKG – są w nim nagłe skoki napięcia, długie, zawiłe frazy przeplatane krótkimi, rwanymi komunikatami. Maszyna produkuje raczej linię ciągłą, lekko falującą, ale zawsze bezpieczną. Wykrywalność opiera się więc nie na tym, co w tekście jest, ale na tym, czego w nim brakuje: unikalnego podpisu ludzkiego błędu i emocjonalnej nieregularności.

Zjawisko znaku wodnego w kodzie językowym

Istnieją metody polegające na subtelnym modyfikowaniu prawdopodobieństwa wyboru konkretnych tokenów podczas procesu generowania. W uproszczeniu polega to na tym, że model zostaje „instruowany”, aby w określonych odstępach wybierać słowa z konkretnej podgrupy (tzw. zielonej listy), co dla ludzkiego oka pozostaje całkowicie niedostrzegalne. Jednakże statystyczny analizator, znając klucz, jest w stanie z niemal stuprocentową pewnością stwierdzić, że dany rozkład słownictwa nie jest dziełem przypadku ani ludzkiej inwencji.

Tego rodzaju „steganografia lingwistyczna” jest niezwykle trudna do obejścia przez przeciętnego użytkownika. Nawet próby ręcznej edycji tekstu często nie wystarczają, by wymazać te statystyczne ślady, o ile nie zostanie zmieniona znaczna część struktury zdaniowej. Wykrywalność staje się tutaj grą matematyczną, w której człowiek próbujący ukryć użycie asystenta musi wykazać się większą kreatywnością przy redakcji, niż gdyby pisał tekst od zera.

Pułapki lingwistycznej poprawności

Warto zwrócić uwagę na fakt, że modele językowe są szkolone na ogromnych zbiorach danych, które obejmują teksty akademickie, literackie i techniczne. W efekcie ich „osobowość” jest kompilacją milionów stylów, co paradoksalnie czyni je bezosobowymi. Często pojawiającym się sygnałem ostrzegawczym jest nadużywanie pewnych form grzecznościowych lub asekuracyjnych. Maszyna rzadko zajmuje radykalne stanowisko, unika kontrowersji i buduje zdania w sposób maksymalnie neutralny.

Dla profesjonalnego redaktora tekst maszynowy często brzmi jak „bełkot wysokiej jakości”. Wszystko się zgadza, fakty są (zazwyczaj) poprawne, gramatyka nienaganna, ale brakuje w tym tzw. „głosu”. To właśnie ten brak autentycznego zaangażowania autorskiego jest najłatwiejszy do wychwycenia przez doświadczone oko, nawet bez użycia specjalistycznego oprogramowania. Zjawisko to nazywa się czasem „dolną granicą stylu” – tekst jest wystarczający, by przekazać informację, ale zbyt jałowy, by zainspirować do głębszej refleksji czy dyskusji.

Techniczna strona detekcji

Klasyfikatory tekstów najczęściej wykorzystują sieci neuronowe trenowane na parach tekstów: ludzkim i maszynowym. Uczą się one rozpoznawać subtelne korelacje, których my nie jesteśmy w stanie nazwać. Może to być częstotliwość występowania spójników w specyficznych konfiguracjach lub tendencja do unikania rzadkich przymiotników. Co ciekawe, systemy te miewają problemy z tekstami pisanymi przez osoby, dla których dany język nie jest ojczysty. Osoby takie, podobnie jak maszyny, często używają bardziej uproszczonych i poprawnych form, co prowadzi do fałszywych alarmów (tzw. false positives).

Rywalizacja między twórcami modeli a twórcami detektorów przypomina wyścig zbrojeń. Każde usprawnienie w generowaniu tekstu, czyniące go bardziej naturalnym, wymusza tworzenie bardziej czułych narzędzi analitycznych. Obecnie detekcja nie opiera się już na szukaniu konkretnych fraz, ale na analizie głębokich struktur semantycznych. Maszyna ma trudności z utrzymaniem długofalowej spójności logicznej w bardzo obszernych tekstach, gdzie wymagane jest odwoływanie się do niuansów przedstawionych kilkanaście stron wcześniej w sposób nieoczywisty.

Czy można całkowicie zatrzeć ślady?

Pełne usunięcie śladów ingerencji algorytmu wymaga głębokiej ingerencji w strukturę logiczną tekstu. Prosta zamiana synonimów to za mało. Konieczna jest zmiana rytmu, wprowadzenie dygresji, a czasem świadome złamanie konwencji, którą model uznaje za optymalną. Ludzie piszący teksty mają tendencję do tworzenia konstrukcji eliptycznych, stosowania ironii, która opiera się na kontekście kulturowym, a nie słownikowym, oraz do wprowadzania własnych neologizmów lub specyficznego żargonu środowiskowego.

Asystenci językowi, mimo swojej monumentalnej wiedzy, są wciąż ograniczeni ramami prawdopodobieństwa. Ich teksty są „bezpieczne”, a ludzka natura jest ryzykowna. Wykrywalność tekstów nie jest więc tylko kwestią technologiczną, ale filozoficzną – dotyka pytania o to, co w naszej komunikacji jest unikalne. Dopóki systemy detekcyjne będą w stanie identyfikować brak „biologicznego szumu” w komunikacie, granica między twórczością a generowaniem pozostanie wyraźna.

W praktyce redakcyjnej coraz częściej spotykamy się z tekstami „hybrydowymi”. Człowiek tworzy szkielet i główne tezy, maszyna wypełnia je treścią, a następnie człowiek ponownie redaguje całość, nadając jej ostateczny szlif. Taka forma współpracy jest najtrudniejsza do wykrycia, ponieważ zaciera statystyczne wzorce maszyny poprzez wprowadzenie autentycznych, ludzkich korekt. W tym przypadku narzędzia detekcyjne często kapitulują, wskazując wyniki niejednoznaczne.

Ostatecznie odpowiedź na pytanie o wykrywalność brzmi: tak, teksty te są wykrywalne, ale skuteczność tej detekcji zależy od stopnia ingerencji człowieka w produkt końcowy. Sama surowa treść, bez żadnej obróbki, jest obecnie dla zaawansowanych systemów niemal jak otwarta księga. Wyzwanie pojawia się wtedy, gdy algorytm staje się jedynie narzędziem w rękach sprawnego stylisty, który potrafi wykorzystać maszynę do przyspieszenia pracy, nie oddając jej przy tym całkowitej kontroli nad brzmieniem i sensem przekazu.

Analizując przyszłość komunikacji, musimy pogodzić się z tym, że tekst przestanie być jednoznacznym dowodem na obecność intelektu po drugiej stronie. Wykrywanie pochodzenia treści stanie się standardowym elementem weryfikacji informacji, podobnie jak dzisiaj sprawdzamy źródła fotografii czy rzetelność cytowań. Kluczem do zrozumienia tego procesu jest świadomość, że maszyna nie „pisze” w ludzkim tego słowa znaczeniu – ona jedynie przewiduje, co człowiek mógłby napisać w danej sytuacji, opierając się na średniej z milionów przykładów. I to właśnie ta „średniość” jest jej największą słabością w starciu z detektorami.