szkic

Tocznia skrola (5): Interpretacje niższego poziomu

tekst Marcin Wilkowski ilustracja Kajetan Luteracki

21 min czytania

Tocznia skrola

Cykl o kulturze cyfrowej i zjawiskach literackich w sieci redagowany przez Paulinę Chorzewską. Kliknij, by zobaczyć pozostałe teksty z cyklu.

Ilustr. Artur Denus

Już pod koniec XII wieku w Anglii wszystkie ważne momenty życia i sytuacje społeczne opierają się na pisanych dokumentach. Tworzą je uczeni i prawnicy, którzy nie tylko potrafią czytać, ale mają też dostęp do rosnącej bazy tekstów. Cytaty i nawiązania wzmacniają argumenty oraz sytuują przekaz w bogatej tradycji antycznej, biblijnej czy prawnej. Dzieje się tak również w dziedzinie literatury. Lektorom i aktorom, pisze Jack Goody w książce „Logika pisma a organizacja społeczeństwa”, nie pozostaje nic innego, jak tylko wysławiać się wyraźnie, nie pomijać i nie dodawać niczego od siebie oraz zachowywać odpowiednią kolejność kwestii. Wyróżniają się dwie role wobec tekstu pisanego – jedni potrafią go tworzyć i kreatywnie przetwarzać, inni są w stanie jedynie go reprodukować. Można je opisać, roboczo proponując dwa poziomy alfabetyzmu: ten podstawowy, „niższy”, to umiejętność czytania i rozumienia tekstu pozwalająca przynajmniej na jego podstawową interpretację, stosowanie w czytaniu akcentów i pauz oraz warunkujący odpowiednią gestykulację przekaz. To alfabetyzm bierny, bezsilny i odtwórczy. Drugi alfabetyzm, nazwijmy go „wysokim”, to wiedza o tradycji tekstów i metodach ich tworzenia, także umiejętność poruszania się w szerokim uniwersum znaczeń, gatunków i tropów. To również znajomość dziedzictwa retorycznego i dostrzeganie tego, jak tekst może funkcjonować na poziomie społecznym.

„Wysoki” i „niski” alfabetyzm to przy tym żadne kategorie oceny jakościowej, raczej sposób wyróżnienia pewnych postaw wobec tekstu. Podobnie przecież w kategoryzowaniu języków programowania jako języków niskiego i wysokiego poziomu nie chodzi o twierdzenie, co jest gorsze lub lepsze, ale o zwrócenie uwagi na rozmiar warstwy abstrakcji. Języki niskiego poziomu są w pewnym sensie bliżej procesora niż języki wysokiego poziomu, pozwalające wyrażać polecenia za pomocą pojęć zrozumiałych także dla człowieka (np. PRINT, echo, if). Oprogramowanie, z którego każdy z nas korzysta, także działa na niskim i wysokim poziomie. Kto wie, co się tak naprawdę dzieje w komputerze, kiedy po dopisaniu ostatniego słowa w akapicie dodajemy kropkę i wciskamy ENTER.

Nowe role wobec tekstu wykształcają się wraz z postępem w jego dystrybucji, chociaż nie jest to rozwój liniowy i schematyczny. W „Wielkiej masakrze kotów” Roberta Darntona poznajemy konflikt między ubogimi, wyzyskiwanymi pracownikami osiemnastowiecznej drukarni przy ulicy Saint-Séverin w Paryżu a jej właścicielami. Na marginesie na poły fikcyjnej historyjki napisanej przez drukarza Nicolasa Contata, Darnton przedstawia wyjątkowy moment w rozwoju branży wydawniczej: oto już w drugiej połowie XVII wieku wielkie drukarnie wyparły z rynku małe, niezależne warsztaty, co przełożyło się bezpośrednio na sytuację pracowników najemnych – kontrakty były krótsze, gorzej opłacane, a awans z pozycji czeladnika do grona mistrzów drukarskich był niemal niemożliwy. W praktyce wczesnego kapitalizmu robotnicy z drukarni przyjmują status narzędzi i przedmiotów, zamawia się ich na rynku tak jak arkusze papieru. Również relacja do słowa pisanego odróżnia od siebie dwie klasy społeczne – robotników pracujących przy prasach, także zecerów, których spora część ledwie potrafiła czytać i pisać – oraz właścicieli drukarni, będących wówczas zwykle również wydawcami, a więc osobami, które posiadają przynajmniej podstawowe rozeznanie w gatunkach i trendach publikowania. „Wysoki” alfabetyzm jako specyficzna, podmiotowa relacja wobec tekstu bazuje już nie tylko na orientacji w świecie literatury i gustach tych, którzy czytają, ale także na własności. Własność ta nie dotyczy wyłącznie zakładu, maszyn czy kapitału niezbędnego do inwestycji w nowe tytuły, ale także warstwy znaczeń: przynajmniej do początku XVIII wieku i Statutu Anny prawa do dzieł przynależą nie do autorów, lecz do wydawców, którzy mogą swobodnie ingerować w teksty.

Oryginał historyjki Nicolasa Contata jest pełen błędów ortograficznych, ale to niezwykłe świadectwo epoki. Jeśli zajmiemy się tym przekazem, koncentrując się na samej opowieści, a nie na tym, jak zdaje ona sprawę z relacji między robotnikami najemnymi a burżuazją osiemnastowiecznej Francji, zobaczymy, że Contat, którego codzienna praca drukarza wymusza pewien poziom alfabetyzmu, bez trudu snuje historię makabrycznego dowcipu, nawiązując w niej do powszechnych w jego czasach tropów kulturowych, wyrażających się choćby w przemocy wobec zwierząt. Sieć nawiązań i znaczeń tkana wokół głównego wątku opowiadania nie łączy jednak wielkich dzieł literackich ani prac filozofów, nawiązuje za to do obyczajów, codziennej mitologii, stereotypów rozumianych bez trudu nawet przez niepiśmiennych współpracowników Contata. On sam jest niezwykłą postacią, funkcjonującą gdzieś pomiędzy dwoma alfabetyzmami.

„Wysoki” alfabetyzm nie jest też dany raz na zawsze, nie jest zestawem stałych kompetencji i mediów (narzędzi zapisu oraz nośników). Filippo de Strata, benedyktyński mnich z Wenecji, pod koniec XV wieku krytykuje środowisko drukarzy za schlebianie niskim gustom klientów preferujących klasyczne poezje miłosne bardziej niż święte teksty. Jako skryba czuje, że nowy sposób dystrybucji tekstów zagraża jego pozycji, więc za wszelką cenę broni pisania ręcznego – drukarstwo to plaga! „Wykorzeniona została wyższa sztuka pisania książek” – czytamy w liście mnicha do doży. Alfabetyzm autora piszącego ręcznie to nie tylko wybór doniosłych, odpowiednich tematów, ale też postawa moralna – kiedy on sam w biedzie „żyje jak zwierzę w stajni”, drukarze zalewają rynek tanią pornografią, a w dodatku upijają się i łajdaczą. Prasa drukarska to nierządnica, bo kieruje się chciwym zyskiem i deprawuje serca – dodaje de Strata. Być może za kilka lat, kiedy aplikacje przetwarzające i generujące teksty w języku naturalnym na stałe zadomowią się w redakcjach gazet i portali newsowych czy kancelariach prawnych, znów usłyszymy podobne narzekania: dla zajmujących się pisaniem pracownika i pracowniczki niższego szczebla, tracących na znaczeniu i zagrożonych bezrobociem, generowanie newsów czy streszczeń przez maszynę będzie czymś jakościowo innym niż ich praca, chociaż dla czytelnika różnice mogą być niezauważalne. W eksperymentach z GPT-3, uznawanym dziś za jeden z najlepszych modeli uczenia maszynowego pozwalających na generowanie tekstów w języku naturalnym, zbadano, czy ludzie są w stanie prawidłowo odróżnić teksty newsowe napisane przez człowieka od tych wygenerowanych maszynowo. Średnia poprawność identyfikacji wynosiła około 50 procent.

Współcześnie, cyfrowe współtworzenie tekstów, ich dystrybucja online oraz maszynowe przetwarzanie czy nawet generowanie pozwala wyróżnić inny poziom alfabetyzmu, kolejną rolę wobec tekstu. W odróżnieniu od tych historycznych, tę funkcję pełnią nie ludzie, lecz oprogramowanie. W tym miejscu warto zastanowić się, czy na pewno mamy do czynienia z sytuacją nową. To pytanie wynika ze sposobu rozumienia historii mediów, w której nie chcemy doszukiwać się na siłę ewolucyjnych prawidłowości, ale równocześnie ostrożnie podchodzimy do zjawisk pozornie nowych. Czy ten nie-ludzki alfabetyzm był historycznie w ogóle możliwy, skoro prymitywne postaci automatycznego rozumienia tekstu dostępne są dopiero współcześnie i jest to rozumienie będące jedynie efektem procesu, a nie samym procesem? Algorytm uczenia maszynowego wykorzystuje statystykę i odpowiednie dane wejściowe, żeby uzyskiwać efekt rozumienia, który człowiek może dalej przetwarzać, np. wyodrębniając kategorie/tematy z tekstów lub interpretując relacje między tekstami, ale nie jest w stanie czytać tak, jak czyta człowiek. Ograniczenia te doskonale ilustruje metafora „chińskiego pokoju”, eksperyment myślowy Johna Searle’a. Nieznający chińskiego człowiek, który miałby dostęp do obszernych zestawów reguł określających wypowiadanie się w tym języku, mógłby – zdaniem Searle’a – przekonać obserwatora o tym, że ten język rozumie. Warunkiem byłby dostęp do zestawu reguł oraz naturalnie to, że obserwator nie miałby żadnej wstępnej wiedzy o kompetencjach swojego rozmówcy i nie podglądałby procesu przygotowywania odpowiedzi. Dowolnie silny komputer może przekonać nas, że rozumie język chiński lub bez trudu odróżnia wypowiedź wprost od wypowiedzi metaforycznej, ale wciąż to rozumienie byłoby wynikiem procesów statystycznych.

Być może taki był właśnie alfabetyzm mnichów kopiujących strony kodeksów bez ich rozumienia: tekst stanowił dla nich graficzny układ liter. Zgarbieni przy pulpitach w zimnych skryptoriach, znudzeni pracą, której znaczenia nie do końca pojmują, są oprogramowaniem ksiąg. Efekty ich specyficznego czytania-rozumienia mogą być następnie pożytkowane przez osoby potrafiące prawdziwie czytać. Zgodzić się trzeba, że prasa drukarska nic a nic nie rozumie z tekstu, który drukuje. Ale już ruchoma czcionka, wyrobiona nadmiernym użyciem i przez to nieczytelna, odbita w tej prasie może zaburzyć recepcję tekstu, wprowadzić błąd do oryginalnego przekazu. Podobnie resztki papieru w dziurkach karty perforowanej. Bez wątpienia współczesne oprogramowanie ma większy potencjał, jeśli chodzi o ten maszynowy, funkcjonalny alfabetyzm.

Interpretacje niskiego poziomu to przejaw maszynowej alfabetyzacji, sytuacje, w których oprogramowanie pośredniczy w tworzeniu i recepcji literatury. Badając ten temat, musimy przyzwyczaić się do tego, że pojęcia „rozumieć” czy „interpretować” mają tam inne znaczenie niż to, które funkcjonuje w życiu codziennym. Oprogramowanie rozpycha się coraz mocniej w kulturze i umacnia własną, nową rolę wobec tekstu. Ponieważ prawdopodobnie nigdy nie będzie kreatywne samo z siebie, zachowujemy monopol na literaturę i krytykę, ale to nie znaczy, że pozostaje ono jedynie biernym narzędziem.

Interpretacje niskiego poziomu to przejaw maszynowej alfabetyzacji, sytuacje, w których oprogramowanie pośredniczy w tworzeniu i recepcji literatury

Jednym z koszmarów publikowania literatury w Internecie jest coś, co można nazwać problemem przezroczystego tła. Wiersze wybranego autora czy autorki z pliku Worda albo nawet skanu drukowanego tomu mają zostać umieszczone na stronie WWW, która zgodnie ze standardami jest ustrukturyzowanym dokumentem HTML. Puste linie oddzielające zwrotki lub akapity i wcięcia, tak swobodnie dodawane przy pisaniu ręcznym, w pliku tekstowym czy nawet w składzie graficznym muszą zostać zakodowane. Czy żeby oddzielić zwrotki, należy wstawić tag nowej linii ( ) albo niełamliwe spacje w liczbie pozwalającej na rozepchanie się poza jedną linię i zwiększenie odstępu? Jeśli zwrotka to paragraf (), to czy możemy liczyć, że przeglądarka zinterpretuje wiersz odpowiednio, ustawiając automatycznie paragrafy jeden pod drugim i dodając odstęp? Czy tytuł interpretować jako silny nacisk () czy jako nagłówek (<h3>)? Tło wiersza w drukowanym tomie jest puste, to nośnik, który nie niesie ze sobą żadnych dodatkowych znaczeń ani nie oddaje struktury: w 1965 roku Ted Nelson, który jest twórcą pojęcia hipertekst, definiował go jako system połączeń między tekstami i grafikami tak skomplikowany, że nie można go odwzorować na papierze. Wiersz w Internecie wymaga ustrukturyzowanego tła. W cyfrowych edycjach krytycznych (np. w standardzie TEI), gdzie przez odpowiednie elementy struktury da się reprezentować nawet skreślenia, tło jest fundamentalne i stanowi warstwę krytyczną przygotowaną przez człowieka. Tymczasem umieszczanie tekstu literackiego na stronie WWW to przykry obowiązek, cyberżulerska pańszczyzna oddawana przeglądarce, kreatywność na miarę copy-paste, zadanie, które zrzuca się uznanym za najmniej istotnych w produkcji literackiej w Internecie okienkom WYSIWYG, adminkom czy redaktorom wydań zamawiającym i publikującym teksty.

Nie bardzo wiadomo, czy to już przejaw jakiejś podmiotowości wobec oprogramowania, czy raczej efekt desperacji, ponieważ nie istnieje żaden standard ujęcia tekstu poetyckiego w strukturze HTML-a, ale magazyn „Kontent” wdraża własny tag (<ver>) reprezentujący wers wiersza i ostylowuje go deklaracjami nowej linii i lewego marginesu, bo inaczej przeglądarka zrobiłaby z nim, co by tylko chciała. „Dwutygodnik” ładuje wiersz w jeden paragraf i generuje wersy nowymi liniami. „Nieszuflada” posługuje się tylko nowymi liniami. Każdy robi co może i jak chce, oprogramowanie i tak zignoruje tę pracę, jeśli tylko będzie to konieczne, i narzuci własne interpretacje. Niektóre edytory tekstu w systemach zarządzania treścią (CMS) pozwalają składać tekst w trybie wizualnym (WYSIWYG), inne utną nieakceptowane znaczniki HTML. Google, indeksując publikowaną treść, zwróci uwagę na niektóre z elementów ukrytej struktury tekstu (na przykład nagłówki i linki), inne zignoruje lub nawet uzna za przesłankę do negatywnej oceny jego informacyjnej jakości. Wtyczki do przeglądarek zwiększające wizualną czytelność tekstu (np. Reader View) narzucą własne tagi, zmieniając strukturę na taką, w której tekst jest najbardziej czytelny. Struktury tła nie są wieczne, niektóre tagi przemijają, inne zmieniają swoje zastosowanie. Styl określonych elementów wiersza czy prozy publikowanej na stronie WWW zawsze może być zignorowany lub nadpisany.

„Comic Sans Everything” to wtyczka do przeglądarki, która każdy tekst na każdej wyświetlanej w przeglądarce stronie internetowej formatuje tym znienawidzonym przez niektórych fontem. Comic Sans jest niczym innym jak emanacją mdłej korporacyjnej wolności i cherlawej ironii dostępnej w komunikacji biznesowej lat dziewięćdziesiątych: jeśli codziennie piszesz w Wordzie za pomocą Times New Roman jakieś nudne pisma, Comic Sans jest dla ciebie czymś w rodzaju reglamentowanego nieposłuszeństwa, podobnie jak własny kolorowy kubek albo skarpetki w kaktusy. Wieki praktyki i rozwoju typografii świadczą o wadze, jaką ma graficzne ukształtowanie tekstu dla jego recepcji: czy da się poważnie potraktować Biblię złożoną w Comic Sans? Czy Comic Sans to dobry font do upamiętniania ważnych osób w podpisach umieszczanych na pomnikach? Dzięki wtyczce do przeglądarki przekaz każdego artykułu, prozy i poezji publikowanej na stronach internetowych może zostać podważony. Podobnie też modyfikować można teksty na czytnikach e-booków, nie blokują one przecież zmiany fontu. Czy inaczej pisze się literaturę, kiedy w edytorze wybrany jest Comic Sans? Odpowiedzi mogą być nieoczywiste, ponieważ niektórzy dowodzą skuteczności korzystania z tego fontu w przełamywaniu blokady twórczej. O ile w tym przypadku font wybrany jest z rozmysłem i staje się po prostu częścią planu „zrobienia czegokolwiek, żeby zacząć pisać”, przeglądarki, systemy zarządzania treścią, mechanizmy agregowania treści czy platformy mediów społecznościowych przeformatowywać mogą transmitowane teksty, korzystając z tego, że każdy z nich w Webie ma nieprzezroczyste tło, musi być publikowany w określonej strukturze HTML-a, a to pozwala w jednej chwili zmienić jego właściwości.

„Narzuca pisarzowi swoją własną koncepcję struktury dokumentu, nadającą się najlepiej do tworzenia listów i raportów biznesowych (czyli zadań, do których używa go większość użytkowników). Jego narzędzia korekty i mechanizmy śledzenia zmian są barokowe, zabugowane i nieodpowiednie w praktyce wspólnej pracy nad dokumentami; jego funkcje konspektu i tagowania są żałośnie prymitywne w porównaniu z wymaganiami powieściopisarki lub autora pracy dyplomowej: a prokrustowe instrukcje programu sprawdzającego gramatykę byłyby po prostu zabawne, gdyby nie to, że tak powszechny jest styl pisania biznesowego, narzucany przez ten program” – to tylko fragment manifestu „Dlaczego Microsoft Word powinien umrzeć”, napisanego w 2013 roku przez brytyjskiego autora fantastyki i SF Charlesa Strossa. Sukces edytorów tekstu, rozwijanych od lat osiemdziesiątych jako alternatywy wobec ręcznego składu cyfrowego w standardach takich jak LaTeX, był możliwy dzięki zignorowaniu znaczenia struktury tła. Niczym innym jest przecież paradygmat „To, co widzisz, jest tym, co masz”, krytykowane za konserwatywność przez twórcę pojęcia „hipertekst” i projektu Xanadu Teda Nelsona: WYSIWIG redukuje dokument tylko do tego, co może być printed – wydrukowane czy pokazane na ekranie w trybie graficznym. Każdy wyrobnik portalowy, zmuszony w ramach codziennej pracy do przeklejania z Worda do CMS-a jakiegoś marnego portalu, wie dobrze, że zanim wrzuci się tam cokolwiek, lepiej tekst przepuścić przez zwykły desktopowy notatnik. Taka operacja usunie wszelkie formatowanie, które trzeba będzie ponownie ręcznie dodać, ale usunie też wszystkie śmieci zapisane w ukrytej strukturze pliku DOC. Jeśli tego nie zrobi, oprogramowanie wejdzie ze sobą w reakcję, której efekty będą nieprzewidywalne – formatowanie Worda spotka się z interpretacją CMS-a, a na stronie widocznej dla użytkowników pojawi się koszmarny bałagan. Oczywiście dla osoby, która chce pisać literaturę, nie jest to specjalnie istotny problem. Większym jest (auto)korekta i bogactwo językowe wbudowanych tezaurusów. Jeśli kiedyś były one, na co zwracał uwagę Stross, narzędziem replikowania języka biznesowego, dziś – dzięki uczeniu maszynowemu na przetwarzanych tekstach innych osób, pozwalają na – pośrednie – współpisanie z nimi.

Matthew G. Kirschenbaum w świetnej książce „Track Changes: A Literary History of Word Processing” (2016) pisze, że używanie edytora tekstu jest nieustającą negocjacją tego, co oznacza akt pisania, a badania nad ich wpływem na praktykę literacką są prowadzone już od czterech dekad. Wygląda więc na to, że nasz plan zejścia na poziom oprogramowania i szukanie interpretacji niższego poziomu, wpływających na nasze tworzenie i recepcję tekstów, nie jest ani rewolucyjny, ani naiwny. Niestety, różne rodzaje oprogramowania w różnie widoczny sposób dają znać o swojej – naprawdę nie mogłem znaleźć innego słowa – kulturowej agencyjności. To może być źródłem pewnych problemów. Bez wątpienia PowerPoint jest maszyną poznawczą i w ciągu kilku dekad doprowadził do upadku instytucję wykładu i konferencji naukowej, nie tylko wymuszając biznesową estetykę w slajdach na temat świadectw Zagłady czy rachunku prawdopodobieństwa, ale też narzucając przycinanie opowiadania o rzeczach, które mają być ważne lub interesujące, do postaci sloganów na wypunktowanej liście. Krytyka PowerPointa jest intuicyjna i naturalna dla każdego, kto kiedykolwiek musiał przygotować „prezentację”. Nieprzezroczyste tło tekstów publikowanych w Webie nie jest już takie oczywiste i łatwo je zignorować. Trudno też rozpoznać i jednoznacznie wskazać efekty tego, że pisanie w Wordzie to zastąpienie relacji z tekstem relacją z dokumentem (czyli tekstem w określonej, zamkniętej formie), jak pisze Edward Mendelson w „New York Review of Books” – tym bardziej, że teksty literackie, w odróżnieniu od biznesowych, przechodzą długą drogę, zanim zostaną opublikowane. Korekty i redakcje w pliku, korekty i redakcje na kolejnych wydrukach, korekty i redakcje w składzie graficznym – to wszystko ukrywa pierwotne pośrednictwo edytora tekstu, jego słowników i autokorekty. Do tego efekty działania oprogramowania nie muszą być ograniczone do sfery cyfrowej: Kirschenbaum przytacza słowa Asimova, który twierdzi, że kiedy przesiadł się z maszyny do pisania na komputer z edytorem tekstu, pisanie przestało być czynnością głośną i mógł doskonale słyszeć telewizor grający gdzieś obok. Czy to, co słyszał, miało wpływ na wybór słów czy kierunek fabuły? Kto wie, to poziom faktów-cieni, nie do uchwycenia. Asimov pisał szybko, skrótami – redakcja nauczyła się rozpoznawać określone frazy i konteksty z maszynopisu. Niestety plik przygotowany w edytorze tekstu zawierał już automatyczne poprawki, a właściwie modyfikacje czy interpretacje dokonane przez oprogramowanie, na przykład oryginalne „snall paint” zamieniało się na „small print” i korekta musiała wydzwaniać z pytaniami o sens zdania. Aby wyjść jakoś z tej sytuacji, Asimov zaczął samodzielnie poprawiać teksty przed wysłaniem do redakcji – kiedy pisał na maszynie, nigdy tego nie robił. Marzy mi się taka biografia literacka, w której bada i opisuje się relację twórczą pisarza czy pisarki z oprogramowaniem. Przecież Macintosh Performa 5400/180, komputer Salmana Rushdiego, jest już dostępny dla badaczy w archiwum Uniwersytetu Emory’ego. Kto wie, może z logów dałoby się wyczytać jakieś ślady mikro-faktów mających przełożenie na konkretne wybory literackie tego pisarza?

Nie wydaje mi się przy tym, żeby zajmowanie się takimi rzeczami jak pośrednictwo oprogramowania w tworzeniu literatury miało większy potencjał w budowaniu tak zwanych kompetencji medialnych oraz pielęgnowaniu krytycznej postawy wobec tego, co dzieje się na komputerze. Chodzi w tym też o naszą zdolność do reagowania – jasne, możemy przestać przygotowywać wykłady w PowerPoincie i pisać na kartce albo z pomocą oprogramowania stworzonego z myślą o pisarzach i pisarkach (Focus Writer, Squibler, AutoCrit), jednak nie będzie to miało wpływu na fakt, że miliony ludzi wciąż korzystać będą z PowerPointa i Worda. W przypadku wyszukiwarek czy oprogramowania wspierającego tłumaczenia możemy nawet nie mieć alternatywy. Wielkie modele uczenia maszynowego przetwarzające i generujące tekst replikują stereotypy językowe, bo są na stereotypach trenowane – wiadomo. Czy mamy jednak jakiekolwiek narzędzia do tego, żeby stereotypy filtrować już na etapie budowania modelu? Albo zbudować własny model, który zachwyci językiem inkluzywnym i otwartym na eksperymenty, a nie będzie powieleniem komentarzy z Twittera i portalozy? Jakakolwiek krytyczna refleksja i kulturowe studia nad oprogramowaniem nie zmienią świata, ale – co wydaje mi się akurat bardzo szczęśliwe – sprawiają, że oprogramowanie nie może już być postrzegane jako wyłącznie logiczne i matematyczne. Software studies są więc częścią tej postawy, jaką wobec oprogramowania zajmują badania UX (user experience), HCI (human–computer interaction) czy paradygmaty projektowania graficznego interfejsów takie jak skeumorfizm. Pokazują też, że kod źródłowy jest zakorzeniony w kulturze, że języki programowania są zakorzenione w kulturze. W książce „(10 PRINT CHR$(205.5+RND(1)); : GOTO 10)” Nick Montfort i współautorzy zajmują się jednolinijkowym programem w języku BASIC, interpretując poszczególne polecenia w kontekście takich konstruktów kulturowych jak karta papieru, labirynt czy losowość. Wszystko to razem pozwala nam mówić o nowych rolach wobec tekstu – rolach odgrywanych przez oprogramowanie i rolach, które można interpretować w krytyce literatury cyfrowej.

Skoro oprogramowanie wprowadza jakiś nowy alfabetyzm, tworzy specyficzną warstwę interpretacyjną, to może „wysokiemu” alfabetyzmowi przypisać należałoby nowe kompetencje, bez których krytyka tekstów literackich w postaci cyfrowej byłaby niepełna? Bez żartów. Po pierwsze, większość tego pośrednictwa jest niedostrzegalna, jest uchwytna jedynie w jakichś mikrosytuacjach, w relacji między osobą piszącą a programem. Nigdy nie jesteśmy w stanie wyłapać znaczeń z takich relacji, nawet jeśli pisanie odbywa się z pełną rejestracją każdej wersji. Po drugie, oprogramowanie pośredniczące w tworzeniu literatury działa często w schemacie czarnej skrzynki: sygnał wchodzi do oprogramowania, coś się z nim dzieje, przetworzony wychodzi z oprogramowania – a my nie wiemy, co tam tak naprawdę się z nim działo. Flarf to praktyka poetycka polegająca na wykorzystaniu fraz z wyników wyszukiwania w Internecie jako materiału budującego wiersz. Interpretując flarfy, interpretujemy jedynie wizualną postać wiersza, a nie wszystko, czym naprawdę jest flarf – choćby zestawem danych wejściowych i instrukcji, które mielą dane wyszukiwania i dane użytkowników do postaci przyjaznej dla czytelnika, przyjaznej, czyli dającej się zobaczyć i przeczytać. Zresztą to dość ciekawe, że chcielibyśmy dotrzeć w recepcji wiersza do sytuacji, w której czytamy nie tylko to, co widać, ale też to, jak było to przygotowane, bo proces pisania został dla nas maksymalnie udokumentowany. Po trzecie, odpowiednia interpretacja wymagałaby odpowiedniej wiedzy technicznej i informatycznej oraz dostępu do kodu źródłowego. Po czwarte wreszcie, taka interpretacja byłaby niemożliwa w przypadku tekstów wydawanych w „tradycyjnej” postaci książki – redakcje i korekty zamazywałyby wszystkie ślady, jak walec wyrównywałyby wszystkie chropowatości.

Po co więc w ogóle zajmować się tym wszystkim? Po co patrzeć tak głęboko w mętną wodę? Po pierwsze – bo można. Krytyka interpretacji niskiego poziomu byłaby tu porównywalna z hobbystycznym czy hakerskim podejściem do programowania – nie zawsze liczy się cel i efekt, czasem wartościowe jest sprawdzenie mechanizmów działania i własnych umiejętności. Zresztą cała humanistyka jako program naukowy jest nieodległa od programowania pod tym względem. Po drugie – bo ten maszynowy alfabetyzm i interpretowanie pokazuje, czym jest i czym może być tekst literacki. A to może mieć znaczenie dla tego, jaką literaturę jeszcze będziemy sobie wymyślać. Być może, jeśli kiedyś zaczniemy świadomie pisać z maszynami, taka wiedza się nam przyda.

Cała humanistyka jako program naukowy jest nieodległa od programowania

„The Policeman’s beard is half-constructed” to wydany w 1984 roku pierwszy zbiór tekstów generowanych komputerowo. RACTER, napisany w języku BASIC i uruchomiony na komputerze z 64K RAMu program, pozwalał na stworzenie szeregu krótkich form prozatorskich i utworów poetyckich, bazując na funkcjach losowych korzystających ze słownika (bloków tekstowych) i podstawowych zasad składniowych. Zanim wygenerowane teksty zostały włączone do zbioru, przeszły „ludzką” korektę – miała być to jedyna ingerencja człowieka w cały proces, jednak bez dostępu do kodu źródłowego nie da się sprawdzić granic kreatywności programu. Bill Chamberlain, jeden z jego autorów, we wstępie do książki pisze o „prozie oderwanej od doświadczenia”. Zasada chińskiego pokoju każe nam przyjąć, że świadome pisanie z maszynami to zawsze sytuacja, w której doświadczenia pochodzić będą z ludzkiej strony. Będzie to miało wyraz choćby w samym języku – jeśli RACTER w generowaniu tekstu polegać miałby wyłącznie na swoich siłach, książka zawierałaby ciągi losowych znaków, ewentualnie poukładane w poprawnej długości strofy. Język naturalny jest emanacją doświadczeń, których nie posiada oprogramowanie. Słowa biorą się z nazywania stanów emocjonalnych, obserwacji rzeczywistości, nazywania cech przedmiotów, interakcji z innymi ludźmi, także przypadku – ale nie matematycznego, to znaczy raczej błędów i przeinaczeń niż losowo zestawianych głosek. Nawet w zaawansowanych modelach generowania tekstu w języku naturalnym, takich jak GPT-3, algorytm nie ma dostępu do doświadczeń – korzysta z języka znalezionego w korpusie książek i w Internecie. Kiedy szukamy metody, w której nieludzka literatura miałaby być efektem doświadczania, spojrzeć powinniśmy na projekt Christiana Böka, który zakodował wiersz do DNA bakterii Deinococcus radiodurans. Odpowiedź ustroju bakterii na tę modyfikację oraz potencjalne mutacje DNA w kolejnych pokoleniach miałyby przepisać wiersz – doświadczenia stojące za modyfikacjami utworu nie byłyby oczywiście efektem świadomego postrzegania, ale doświadczania-reakcji na poziomie biologicznym.

Książkę RACTERA trudno było skatalogować w bibliotekach, ponieważ żadne standardy nie umożliwiały przypisania autorstwa do programu komputerowego. Był to jednak problem wynikający z pewnej ideologii, uprzedzeń czy niedostosowania systemu. Nieważne, że RACTER to program, ważne, że bez dostępu do językowych zapisów ludzkich doświadczeń nie mógłby pisać. „Gdyby rasa ludzka wymarła, ale maszyny nadal by pisały, nieustannie produkowałyby coraz bardziej konserwatywne teksty, ucząc się na swoich własnych, bezmyślnie replikowanych danych wyjściowych, a jedynie półdeterministyczne, losowe czynniki (seeds) umożliwiałyby postęp i sprzyjały zmianom” – przekonuje Martin Eve. W tekstach tworzonych czy też współtworzonych przez oprogramowanie doświadczenie zastępowane jest przez losowość. Albo wdrożoną wprost, jak w przypadku RACTER, albo zastosowaną przez zaawansowane funkcje statystyczne wykorzystujące dane treningowe, tak jak w przypadku GPT-3, który jest niczym innym jak zestawem następujących po sobie sit czy filtrów liczbowych. Moc obliczeniowa komputerów podnosi przy tym losowość do poziomu ostatecznego – w projekcie Jonathana Basile’a skrypt pozwala przeszukiwać zbiory losowych ciągów tekstowych, które zawierają dowolne frazy z języka naturalnego (przy czym ograniczone do 32 liter alfabetu łacińskiego). W zbiorach cyfrowej Biblioteki Babel znalazłem na przykład jeden z tweetów Trumpa i zdanie z „Finneganów trenu”. Program Basile’a dobrze ilustruje problem z kreatywnością literacką oprogramowania.

Istnieje wiele typów kreatywności, jednym z nich jest kreatywność kombinacyjna: nowe jakości powstają z łączenia wielu elementów. Taki typ kreatywności buduje poezję i pozwala działać metaforze. Nowe, nieoczywiste zestawienia tworzone są z nieskończonego zbioru elementów. Źródłem tego zbioru jest doświadczanie świata. Ponieważ oprogramowanie nie może doświadczać, jego zdolność do tego typu kreatywności jest znikoma. Jak pisze Margaret A. Boden w „Computer Models of Creativity”, program jest w stanie tworzyć ogromną liczbę zestawień, ale musi mieć udostępnione ich elementy składowe. Nawet jeśli miałby dostęp do bogatej bazy – o wiele większej niż miał RACTER, pewnie też większej niż webowe korpusy tekstowe wykorzystane przy trenowaniu modelu GPT-3 – i mógł w nieskończoność zestawiać ze sobą jej zawartości, nierozwiązywalnym problemem wciąż byłoby takie tworzenie kombinacji, aby były interesujące czy wartościowe dla ludzkiego odbiorcy. U Basile’a oprogramowanie ma dostęp do ogromnej liczby kombinacji liter łacińskiego alfabetu – wydaje się, że nie da się mieć więcej. Bezwzględna większość kombinacji jest tam jednak zwykłym szumem, chaotycznymi zestawami liter, które nie mogą być zrozumiane i zinterpretowane przez człowieka. „Sen, co rozplata trosk zwikłany motek” – mówi Makbet (przekład Leona Ulricha). Margaret Boden analizuje proces interpretacji tej frazy: przekaz o śnie, który przynosi ulgę, może być wyczytany dzięki poruszaniu się po sieci skojarzeń i zdolności niedosłownego rozumienia przeczytanych słów. Dzięki biologicznym procesom pamięciowym i wychowaniu w społeczeństwie potrafimy odczytać sens zdania, tymczasem komputer może mieć dostęp wyłącznie do statystycznie opisywanych relacji między słowami. To sieć skojarzeń zupełnie innej jakości.

Szybkość i zasięg niskich interpretacji onieśmiela. W Smart Compose – systemie wsparcia tworzenia tekstów, który od 2018 roku można włączyć sobie w Gmailu i (od niedawna) w Google Docs, oprogramowanie podsuwa propozycje słowa za każdym kolejnym znakiem wystukiwanym na klawiaturze przez użytkownika – podpowiedź ma być proponowana w czasie 0.1 sekundy po naciśnięciu klawisza. Błyskawiczna interpretacja i redakcja nie byłyby jednak możliwe bez analizy statystycznej o ogromnym zasięgu – proponując kolejne słowa, Smart Compose bierze pod uwagę nie tylko temat maila, poprzednią korespondencję, datę i godzinę edycji i język, ale uwzględnia też zanonimizowane treści podobnych wiadomości, zagregowane z kont części użytkowników Gmaila, których jest dziś ponad półtora miliarda. Jak wiadomo, pisanie (i czytanie) nigdy nie jest czynnością niezależną i samodzielną, już sam język, którym się posługujemy, jest z definicji rezultatem pewnych interakcji. Nie chodzi jednak tylko o to, w jaki sposób inni ludzie i lektury wpływają na nasz język albo że kilka godzin swobodnej pracy nad tekstem staje się zaczynem konfliktu w rodzinie, bo ktoś przecież musi zająć się małym dzieckiem. Chodzi też o to, że jeśli piszesz w Gmailu, to Gmail pisze razem z tobą. W Smart Compose to współpisanie wzmacniane jest jednak efektem skali: następujące po sobie sugestie kolejnych słów bazują na wyliczeniach, w których brane są pod uwagę miliony wiadomości już napisanych oraz te, które napisał wcześniej użytkownik redagujący właśnie „swój” tekst.

Pisanie (i czytanie) nigdy nie jest czynnością niezależną i samodzielną, jeśli piszesz w Gmailu, to Gmail pisze razem z tobą

W przypadku Worda widzieliśmy, że w pisaniu wspomaganym czy też reinterpretowanym oprogramowaniem, styl piszącej osoby nie jest brany pod uwagę. Słownik Worda doskonale współgra z interfejsem graficznym tego programu – celem jest daleko posunięta standaryzacja, język i wygląd ma być tu taki sam dla milionów użytkowników. Personalizacja usług nie byłaby też z pewnością istotna dla Google, gdyby nie to, że jest ona podstawową opcją biznesową produktów tej firmy – w reklamach, wyszukiwaniu, poczcie elektronicznej. W pisaniu ze Smart Compose własny styl nie jest prawem użytkownika do nieograniczonego, zindywidualizowanego wyrażania siebie, ale jest funkcjonalnością wspierającą pewien model biznesowy. Jednak w jaki sposób zapewnić piszącemu czy piszącej to, że oprogramowanie będzie podsuwało propozycje kolejnych słów, zgodne z tym, jak praktykuje on czy ona własny styl pisania? Przede wszystkim to, czym ma być własny styl użytkownika, musi być wyliczone i ujawniać się w każdej podpowiedzi za pomocą decyzji, jakie słowo zaproponować, a jakie odrzucić. Pamiętajmy przy tym, że próbujemy opisać działanie programu, który reaguje co dziesiętne części sekund i że tak naprawdę styl każdego autora i autorki jest składową dawnych lektur i doświadczanego na co dzień języka mówionego; uzależnia się także od wybranego gatunku twórczości. W Smart Compose styl podpowiedzi jest interpolacją liniową (czyli wynikiem działania pozwalającego obliczyć nieznaną wartość między dwiema znanymi wartościami) globalnego stylu pisania tekstów w danym języku i o danej tematyce, z osobistym stylem autora czy autorki, wyliczanym na podstawie wcześniej napisanych tekstów. Działanie Smart Compose jest tu niczym innym jak sprowadzeniem pewnej praktyki społecznej do wymiaru relacji między danymi i prawdopodobieństwami. Opracowany przez Google model nie jest przy tym wolny od pewnej społecznej refleksji – wyliczenia prawdopodobieństw określonych słów ignorować mają płeć (rodzaj), ponieważ podczas testów bez tego filtra, na przykład w języku angielskim, program generował podpowiedzi wysoce stereotypowe – po frazie „I am meeting an investor next week” sugerował zaimek w rodzaju męskim, natomiast po frazie „I am meeting a nurse next week” – w rodzaju żeńskim.

Od RACTERA przez Worda aż do Smart Compose oprogramowanie piszące czy współpiszące przeszło długą drogę. Proste porównywania ciągów znaków czy losowe zestawienia bloków tekstu zostały zastąpione przez zaawansowane modele, korzystające z ogromnej ilości danych tekstowych. Zmieniły się też relacje między człowiekiem a oprogramowaniem, bo coraz chętniej akceptujemy jego pośrednictwo – i jest ono dla nas coraz bardziej czytelne. Mimo zaawansowania, dla oprogramowania literatura to wciąż kontent, bezwładna masa ciągów tekstowych, czytanie i pisanie są więc dzieleniem i generowaniem kontentu, wykazywaniem znaczeń za pomocą statystyki. Każde z takich zadań to interpretacje niskiego poziomu. My złapiemy bez trudu nić narracji, a znaczenia pojawią się jako obrazy w wyobraźni, wspomnienia, dźwięki czy emocje; efektem czytania maszynowego jest macierz, wektory o ogromnej liczbie cech. Dopóki monopolizujemy doświadczenia, oprogramowanie jest bez szans w wyścigu kreatywności. Nie ma sensu się go bać, żadnej rewolucji nie będzie, chyba że twoje pisanie to także przetwarzanie tabelek i zestawianie ciągów tekstowych, opisywanie zalet nowych lokat albo tego, że jakiś gość dwie godziny temu rozjechał kogoś na pasach. Jeśli tak jest, to już teraz nie masz żadnych szans.

Tocznia skrola

Cykl o kulturze cyfrowej i zjawiskach literackich w sieci redagowany przez Paulinę Chorzewską. Kliknij, by zobaczyć pozostałe teksty z cyklu.

Ilustr. Artur Denus

tagi:

eksperyment,komputery,literatura cyfrowa,programowanie

Marcin Wilkowski
Programista w Centrum Kompetencji Cyfrowych UW. Przygotowuje pracę doktorską o metodach badań historycznych wczesnego Webu w Polsce. Publikuje newsletter „Historia i Media".

redakcjaPaulina Chorzewska

korekta Lidia Nowak

komentarze