Nietypowe Zastosowania MAXQDA: Badanie Korpusowe

Autor posta: Maciej Talaga

Pojęcie “korpusu” w lingwistyce oznacza zbiór udokumentowanych rzeczywistych wypowiedzi, zwykle w formie cyfrowej, która umożliwia przetwarzanie zawartości przy pomocy narzędzi komputerowych. Ze względu na swój organiczny charakter oraz objętość, korpusy są bardzo użyteczne w różnego rodzaju studiach językoznawczych (Stubbs, 2004; Baker, 2006), zwłaszcza leksykografii (np. określanie jak słowa są faktycznie stosowane i rozumiane), terminografii (np. badanie tego, jak język potoczny staje się źródłem żargonu) lub analizie dyskursu (np. odkrywanie subtelnych zmian w znaczeniu słów kluczowych dla poszczególnych narracji). Mają one także niebagatelne znaczenie dla językoznawstwa historycznego oraz, w konsekwencji, także dla całej historiografii (Kytö, 2011).

Prezentowany artykuł skupi się na elementach badań korpusowych, które znalazły zastosowanie w trwającym, innowacyjnym projekcie – Martial Culture in Medieval Towns – prowadzonym przez Universität Bern w Szwajcarii i finansowanym przez Szwajcarską Narodową Fundację na rzecz Nauki[1]. Jedno ze studiów przypadku przeprowadzonych w ramach tego projektu dotyczyło specyficznego historycznego dokumentu – regulacji (Schulrecht) ogłoszonych przez szwajcarskie miasto Solothurn by nadać ramy organizacyjne publicznemu nauczaniu sztuk walki prowadzonemu tam przez pewnego mistrza szermierki w 1546 roku. Jedną z unikatowych cech tego dokumentu jest to, że zawiera listę technik walki, których mieli nauczyć się uczestnicy szkolenia. Stąd wyzwaniem było zrekonstruowanie tych technik czy też, innymi słowy, zidentyfikowanie kinestetycznej zawartości ukrytej za ich nazwami podanymi w źródle. W efekcie, to stadium musiało połączyć klasyczne dociekania historyczno-lingwistyczne z tzw. “badaniem ucieleśnionym” (Spatz, 2015). Taka kombinacja wiązała się z kilkoma metodologicznymi trudnościami, z których część okazała się na tyle nietypowa, że zmusiła nas do kreatywnego przyjrzenia się rozwiązaniom oferowanym przez MAXQDA. Dwa spośród tych rozwiązań zostaną omówione poniżej. Inne, nieco bardziej typowe aspekty naszej pracy z programem zostały już dobrze przedstawione w tym artykule, więc nie będą tutaj poruszane.

Martial Culture in Late Medieval Town (2018-2022, finansowany przez SNF, projekt nr. 178896). Online: http://p3.snf.ch/project-178896 oraz https://www.martial-culture.unibe.ch/ (dostęp 12.05.2021).
Pragnę przy tej okazji podziękować dr. Danielowi Jaquetowi oraz mgr. Miente Pietersma za wspólną pracę w ramach projektu oraz za umożliwienie mi podzielenia się w tym miejscu technicznymi aspektami naszego studium.

PIERWSZA TRUDNOŚĆ: “SEKRETNA MOWA”

W ramach projektu zajęliśmy się badaniem znaczenia terminów technicznych użytych przez wczesnonowożytnego niemieckojęzycznego mistrza szermierki w odniesieniu do poszczególnych technik walki, których obiecywał nauczyć swoich uczniów. Problem stanowił fakt, że ówczesna literatura fachowa (Fachliteratur) chętnie zapożyczała słowa potoczne, takie jak nazwy codziennych przedmiotów (np. pflug = pług albo ochs = wół) bądź czynności (np. heben = podnosić lub schiessen = strzelać), a następnie nadawała im nowe, wąskie i wyspecjalizowane znaczenia. Pozostaje niejasne, czy był to celowy zabieg mający na celu ochronę cennej wiedzy, czy też naturalna konsekwencja formowania się żargonu, ale bez wątpienia ten proces zaowocował wytworzeniem się tekstów pisanych w czymś, co już w wiekach średnich określano jako “sekretną mowę” (vordeckte rede; Bauer, 2016).

W rezultacie stanęliśmy przed wyzwaniem polegającym na sprecyzowaniu specjalistycznego kontekstu semantycznego badanych terminów. Podjęliśmy się tego zadania, przeprowadzając szeroko zakrojone badanie porównawcze odpowiednio dobranego podzbioru Fachliteratur – mianowicie tzw. niemieckich traktatów szermierczych (Fechtbücher), czyli dzieł o charakterze dydaktycznym pisanych przez mistrzów szermierczych (Bauer, 2016). Celowane wyszukiwania leksykalne pozwoliły nam zakodować wszystkie przypadki wystąpienia badanych terminów wraz z ich kontekstem pragmatycznym – np. mogliśmy określić czy konkretny termin opisywał technikę walki z bronią lub bez niej, wiązał się z określonym rodzajem uzbrojenia, czy też był waloryzowany w jakiś sposób (przykładowo, jako roztropne lub desperackie działanie). Zastosowanie tej strategii stało się stosunkowo łatwe dzięki takim funkcjonalnościom MAXQDA jak Przeglądarka Relacji Kodów (Code Relations Browser) (Ryc. 1) lub Mapa Kodów (Code Map) (Ryc. 2).

Rycina 1. Przeglądarka Relacji Kodów (Code Relations Browser) zastosowana do badania pragmatycznego kontekstu terminu uffheben (oznaczone na zielono). Tabela pozwoliła nam zauważyć, że chociaż ten termin pojawia się bardzo często w naszym korpusie i przyjmuje różne znaczenia, to jednak większość przypadków jego zastosowania oznaczyliśmy jako pomyłki (mistakes), czyli błędy popełniane przez szermierzy podczas walki. Biorąc pod uwagę, że poszukiwaliśmy znaczenia uffheben jako terminu oznaczającego jakąś technikę walki, której XVI-wieczny szwajcarski mistrz szermierki miał uczyć w zamian za opłatę, mogliśmy zawęzić nasze poszukiwania do tych przypadków, gdzie ten termin nie był zakodowany jako pomyłka, a więc odnosił się do poprawnego działania użytecznego podczas walki.

Rycina 2. Mapa Kodów (Code Map) sporządzona dla terminu uffheben ujawnia jego funkcjonowanie jako określenie na pewien rodzaj pomyłki popełnianej przez walczących zarówno podczas konfrontacji bez broni (wrestling), jak i szermierki [fencing]. Równocześnie wskazuje ona, że pokrewne terminy – beheben, uber sich heben lub potoczne heben – nie były stosowane w ten sposób.

Przeglądarka Relacji Kodów okazała się także przydatna podczas badania różnic w żargonie (technolekcie) stosowanym w różnych źródłach historycznych. Bezpośrednio z panelu Drzewa Kodowego (Code System)można aktywować dokumenty zawierające konkretny kod – w naszym przypadku mogliśmy, na przykład, aktywować wszystkie źródła z kodem zapasy (wrestling) i przyjrzeć się temu, jak terminologia różniła się, pomimo tego, że wszystkie teksty opisywały bardzo zbliżone techniki walki (Ryc. 3). W ten sposób łatwo było wychwycić nawet subtelne różnice semantyczne pomiędzy poszczególnymi przypadkami zastosowania danego terminu, tym bardziej że zakodowane segmenty można było podejrzeć wprost z przeglądarki, klikając na niebieskie kwadraty. Co prawda ten wątek nie został pogłębiony w ramach naszego projektu, jednak pozwolił nakreślić perspektywę przyszłych badań, np. sugerując możliwość prześledzenia trendów geograficznych lub chronologicznych w niemieckiej terminologii związanej ze sztukami walki z tego okresu.

Rycina 3. Obraz wygenerowany w Przeglądarce Relacji Kodów na podstawie dokumentów aktywowanych kodem zapasy (wrestling) dla czterech terminów technicznych. Jasno widać tutaj, że tylko połowa z badanych źródeł używa tych terminów, aby omawiać walkę bez broni, co sugeruje, że musiały istnieć jakieś jakieś alternatywne, synonimiczne wyrażenia. Ponadto klikając w niebieskie kwadraty, można było z łatwością uzyskać dostęp do zakodowanych segmentów, co wydatnie ułatwiało ich przeglądanie.

W najbardziej skomplikowanych przypadkach pogłębione analizy użycia terminów były znacznie łatwiejsze dzięki Interaktywnym Drzewom Słów (Interactive Word Trees). Jedną z najważniejszych właściwości tego narzędzia jest to, że operuje ono nie na kodach, lecz na surowym tekście. Stąd może być użyte zarówno do wstępnej eksploracji korpusu, nawet jeszcze przed pre-kodowaniem, jak i na dalszych etapach badania. W naszym studium, przykładowo, pozwoliło to na określenie precyzyjnego, specjalistycznego znaczenia, które w ramach badanego korpusu zawierała niepozorna kombinacja dwóch skrajnie potocznych słów – “trzy sztuki” (drei stück). Co ciekawe, w tym przypadku Interaktywne Drzewo Słów odsłoniło wielopoziomowe kolokacje, takie jak ta pomiędzy drei, stück oraz winden (Ryc. 4), tym samym pozwalając nam znaleźć związek pomiędzy potocznymi wyrażeniami (drei stück) a terminami technicznymi odnoszącymi się do technik walki (winden) dużo lepiej znanymi z wcześniejszych badań (np. Farrell, 2015).
Rycina 4. Przykład Interaktywnego Drzewa Słów (Interactive Word Tree) wygenerowanego dla słowa “trzy” (tutaj jako drew, gdyż taka była jedna z wersji pisowni niemieckiego liczebnika drei). Poprzez staranną analizę tego rodzaju Drzew możliwe było przybliżenie znaczenia badanego zwrotu “trzy sztuki” (drei stück; oznaczone na zielono), a nawet odkrycie nowych słów kluczowych współwystępujących z liczebnikiem “trzy” – tutaj są to wunder, winden oraz leger (oznaczone, odpowiednio, na czerwono, pomarańczowo i czarno). Warto zwrócić uwagę, że drew, stuck oraz winden stanowiły dwustopniową kolokację, jako że winden nie współwystępowało ani z drew wunder, ani z drew leger.

DRUGA TRUDNOŚĆ: NIECHLUJNY KORPUS

Nasze studium wymagało dużej ilości pracy z dokumentami zawierającymi marnie zedytowane tabele, w których zestawione były różne transkrypcje tego samego tekstu, a czasami także ilustracje. Co więcej, te dokumenty trzeba było najpierw ściągnąć z internetowego repozytorium i ten process nie zawsze przebiegał gładko – otwierane w formacie Word dokumenty nierzadko zupełnie się “rozłaziły”. Ręczne przywracanie ich do stanu umożliwiającego lekturę byłoby żmudną stratą czasu. Na szczęście okazało się, że MAXQDA poradził sobie z większością z nich zupełnie przyzwoicie (Ryc. 5–6).

Rycina 5. Tabela z danymi tekstowymi po ściągnięciu z internetu w formacie Word. Niedokładnie to, co widoczne było na stronie internetowej…

Rycina 6. Ta sama tabela otwarta w MAXQDA bez żadnych wcześniejszych zmian w pliku Word. Jak widać, skutkiem jest porządny i w pełni czytelny dokument.

Podczas ostatniej konferencji MAXQDA w Berlinie (luty 2020) miałem możliwość uczestniczyć w świetnym warsztacie pt. “Qualitative Text Analysis” prowadzonym przez Daniela Rascha i jeden z uczestników spytał go, czy ma jakiś pomysł na zastosowanie funkcji Podkreślenia Kolorem (Colour Highlight). Daniel odpowiedział wówczas, że nie spotkał jeszcze dobrego pomysłu na to narzędzie i chętnie jakieś pozna. Dlatego wydało mi się warte wzmianki, że w naszym projekcie – dość specyficznym, trzeba przyznać – ta funkcjonalność okazała się całkiem przydatna. Każdy z dokumentów z naszego korpusu zestawiał po kilka wersji tego samego tekstu (różne kopie i/lub tłumaczenia) w tabelach, więc naturalną koleją rzeczy zaznaczaliśmy i kodowaliśmy interesujące fragmenty we wszystkich zestawionych wersjach, aby móc podglądać je razem w oknie zakodowanych segmentów (Retrieved Segments Window) (Ryc. 7). Jednak czasami różne wersje zakodowanego tekstu w danym dokumencie różniły się w istotnych szczegółach – na przykład, gdy któreś z tłumaczeń zawierało błąd lub gdy istniały rozbieżności pomiędzy dostępnymi kopiami tekstu. W takich przypadkach stosowaliśmy właśnie podkreślenie kolorem, aby dodatkowo wyróżnić odpowiednie fragmenty w obrębie już zakodowanych segmentów (Ryc. 8). Okazało się to pomocne zwłaszcza w tych dokumentach, w których tablice porównawcze były szczególnie szerokie. Gdybyśmy ograniczyli się do standardowego kodowania kłopotliwych fragmentów, wówczas kod wyświetlałby się obok tekstu, przemieszany z innymi kodami przypisanymi do tego samego segmentu, tym samym znacznie utrudniając zlokalizowanie problematycznych słów lub wyrażeń. Zupełnie inaczej rzecz miała się, gdy budzące wątpliwości fragmenty oznaczaliśmy kolorem – były dzięki temu łatwe do odszukania bez konieczności klikania w odpowiednie kody na pasku bocznym. Oszczędność jednego czy dwóch kliknięć może wydawać się czymś błahym, ale w przypadku badań korpusowych, które z definicji obejmują dużą liczbę tekstów, zaoszczędzone w ten sposób sekundy kumulowały się do znacznych wartości. Nie wspominając już nawet o frustracji, której tą drogą uniknęliśmy.

Rycina 7. Gdy pojedyncza tabela zawiera kilka wersji tego samego tekstu oraz towarzyszące mu ilustracje, najlepiej jest kodować wszystkie kolumny razem – w ten sposób będzie można w razie potrzeby podejrzeć cały wiersz. Wadą tej metody jest jednak to, że czyni ona niezwykle trudnym odnalezienie tej części tekstu, która w największym stopniu odpowiada za zastosowany kod lub odszukanie rozbieżności pomiędzy alternatywnymi wersjami tekstu.

Rycina 8. Dzięki zastosowaniu Podkreślenia Kolorem (Colour Highlight) możliwe było kodowanie całych wierszy tabeli przy jednoczesnym precyzyjnym wizualnym wyróżnianiu najważniejszych fragmentów (tutaj na żółto). Dodając komentarze do zaznaczeń, można je było uzupełnić o łatwo dostępne dodatkowe informacje.

UWAGI KOŃCOWE

Podsumowując, trzeba podkreślić, że zastosowanie MAXQDA było kluczowe dla powodzenia naszego projektu. Bez tego nasz duży i technicznie wymagający korpus byłby istotnie trudniejszy do opanowania, a proces analityczny – wyraźnie wolniejszy. Ciekawą obserwacją może być to, że znaczne usługi oddały nam dwie funkcjonalności programu, które na ogół traktowane są dość marginalnie (Podkreślenie Kolorem oraz automatyczne formatowanie tabel w Przeglądarce Dokumentów).

Ponieważ projekt jest w toku, nie mogę w tej chwili przedstawić więcej wniosków.

CYTOWANE PRACE

Baker, P. (2006). Using corpora in discourse analysis. A&C Black: London-New York.

Bauer, M. J. (2016). Teaching How to Fight with Encrypted Words: Linguistic Aspects of German Fencing and Wrestling Treatises of the Middle Ages and Early Modern Times, [w:] D. Jaquet, K. Verelst & T. Dawson (red.), Late Medieval and Early Modern Fight Books (ss. 47–61). Brill: Leiden-Boston.

Farrell, K. (2015). The Kölner Fechtbuch: Context and Comparison. Acta Periodica Duellatorum 4(2), 69–90.

Kytö, M. (2011). Corpora and historical linguistics. Revista Brasileira de Linguística Aplicada, 11(2), 417–457.

Stubbs, M. (2004). Language corpora, [w:] A. Davies & C. Elder (red.), The handbook of applied linguistics (ss. 106–132). Blackwell Publishing: Malden-Oxford-Carlton.

O autorze

Maciej Talaga jest doktorantem na Wydziale “Artes Liberales” przy Uniwersytecie Warszawskim i członkiem European Committee for Sport History (CESH). Bada późnośredniowieczne i wczesnonowożytne europejskie kultury bojowe i pracuje nad metodologią historii opartą o praksografię i badania ucieleśnione. Poszukuje również sposobów na włączenie analiz jakościowych wspieranych komputerowo do swojej praktyki historyczno-archeologicznej. Więcej na temat programu doktoranckiego, w którym uczestniczy można znaleźć tutaj: Nature-Culture Progamme

[1] Martial Culture in Late Medieval Town (2018-2022, finansowany przez SNF, projekt nr. 178896). Online: http://p3.snf.ch/project-178896 oraz https://www.martial-culture.unibe.ch/ (dostęp 12.05.2021).
Pragnę przy tej okazji podziękować dr. Danielowi Jaquetowi oraz mgr. Miente Pietersma za wspólną pracę w ramach projektu oraz za umożliwienie mi podzielenia się w tym miejscu technicznymi aspektami naszego studium.

PIERWSZA TRUDNOŚĆ: “SEKRETNA MOWA”

DRUGA TRUDNOŚĆ: NIECHLUJNY KORPUS

UWAGI KOŃCOWE

CYTOWANE PRACE

O autorze

Similar Articles