Fordítás
Könyvajánló: Zanettin, Federico. Translation-Driven Corpora. (Translation Practices Explained 14). Manchester: St. Jerome Publishing, 2012. xiii + 244 pp. ISBN 978-1-905763-29-0 £30

Stefan Baumgarten

Fordította Götz Andrea, Kerek András, Ledács-Kiss Lili, Dányi Tibor, Bogdán Noémi, Berta Réka, Kovács Aina, Völgyi Kata, Karaffa Edina, Perger Míra, Szántó Rebeka, Tompos Barbara, Sándor Alexandra és Nagy Fanni

Károli Gáspár Református Egyetem

Tartalomjegyzék

Irodalom
A szerző elérhetősége

A jelen kötet a korpuszalapú fordításkutatás egyre bővülő szakirodalmának üdvözlendő kiegészítője ‒ ennél azonban sokkal többet nyújt. A kötet ugyanis azt bizonyítja, hogy a korpuszalapú paradigma kiforrott és hamarosan akár tudományágunk egyik központi módszertani irányzatává is válhat. A korpuszalapú kutatás az egyes kutatók saját projektjeit is gazdagíthatja, de az alapvető értéke kollektív. Hadd kezdjem tehát a könyv konklúziójával, amely találóan összefoglalja a szerző nézeteit a számítógépes fordításkutatás etikájának kapcsán:

Az új számítógépes paradigmának köszönhetően a korpuszépítés kollektív kutatási erőfeszítéssé válhat az úgynevezett „crowdsourcing” révén, amelynek során a különböző projektek feladatait egyéni feladatként kiosztják nyílt felhívás útján az egyes felhasználók között.(207–208)

Azon is látszik, hogy Zanettin mennyire fontosnak tartja a kollaboratív megközelítést, hogy szorgalmazza, a korpuszokat és korpuszalapú eszközöket a stabilitás, a rugalmasság és az elérhetőség kritériumainak megfelelően hozzuk létre. Hiszen a korpuszokat „úgy kellene megtervezni és kivitelezni, hogy a különböző szoftverplatformokon egyaránt használhatók legyenek, az adatokat pedig a lehető legszélesebb körben hozzáférhetővé kell tenni a kutatói közösség számára” (78). Ezzel összhangban a könyv elsősorban a „korpuszok és korpuszalapú eszközök létrehozásával és felhasználásával” foglalkozik (1), míg várható olvasóközönségként a fordításkutatókat, oktatókat, tanuló fordítókat és gyakorló fordítókat célozza meg. A könyv hat tematikus fejezetből áll és egy DVD tartozik hozzá, amelyen gyakorlatok és szoftverek találhatók. Mindegyik fejezet összefoglalja a legfrissebb kutatásokat és egy gyakorlati feladattal, valamint további olvasnivalóval zárul, amelyeket esetenként hasznos tanácsok egészítenek ki a rendelkezésre álló szoftverekkel kapcsolatban. A feladatrészek további előnye, hogy lehetővé teszik, hogy az olvasók átültessék az elméletet a gyakorlatba. A könyv az egyes olvasó céljainak és érdeklődésének megfelelően használható, gyakorlatorientált jellege a korpuszmunkát a szélesebb közönségnek is elérhetővé teszi: „Remélem, a könyv és a hozzá tartozó DVD ugródeszkaként szolgál a további kísérletezéshez és autonóm felhasználáshoz” (8). Zanettin definíciója szerint a „fordításvezérelt korpusz” a „fordítással kapcsolatos célra létrehozott és/vagy használt” (8), „különleges célú korpusz” (41). A gyakorlati fókuszú könyv rengeteg példát és esettanulmányt kínál az egyes pontok szemléltetésére.

A második fejezet (Corpus Linguistics and Translation Studies) áttekintést nyújt a korpusznyelvészet és a fordítástudomány kapcsolatáról. A legtöbb helyet a korpuszalapú fordításkutatás foglalja el, míg az oktatási alkalmazhatóság és a fordítás gyakorlata a háttérbe szorulnak. Ez a fejezet bemutatja a „korpuszvezérelt korpuszok tipológiáját” (10), és részletesen tárgyalja a fordítás sajátságos nyelvi mintázatait (vagy fordítási univerzálékat), amelyek megléte a fordított szövegekben a korpuszalapú kutatás fókuszpontjává vált (vö. Mauranen és Kujamäki 2004Mauranen, Anna, and Pekka Kujamäki eds. 2004 Translation Universals: Do They Exist? Amsterdam: John Benjamins. ). Míg a fordítás jellemző mintázatait „csak az empirikus adatok ismételt megfigyelésével és egyre kifinomultabb elemzésekkel lehet feltárni” (23), a szerző különbséget tesz a célszövegre (T-universal) és a forrásszövegre (S-universal) jellemző univerzálék között, emellett körültekintően figyelmeztet, hogy „még ha feltételezzük is, hogy ezek a mintázatok kifejezetten a fordított szövegekre jellemzőek, nem világos, hogy ezek a nyelvi tendenciák a fordítók nyelvi viselkedésének kognitív vagy társadalmi megkötéseiből származnak-e” (22). Zanettin a korpuszalapú megközelítések gyenge pontjait is objektívan tárgyalja. Annak érdekében, hogy ne hagyatkozzunk túlzottan a lexikai vizsgálatokra, számos kutatás rengeteget nyerhetne a lexikogrammatikai annotációból. Ehhez hasonlóan, ha a nyelvi mintázatokat a diskurzus tágabb területein is szeretnénk vizsgálni, hasznos újítás lenne a kontextuális annotáció – például a fordítók jegyzeteinek és előszavak adatainak felhasználása (23–25).

A harmadik fejezet a korpusztervezés és -gyűjtés legfontosabb folyamatait ismerteti. Alapvetően meghatározza a korpuszt annak mérete, összetétele és hogy mennyire reprezentatív. Ezen tényezők döntik el, hogy milyen kutatásra alkalmas a korpusz. A méretet tekintetve a nagyobb korpuszokban a statisztikai mérések meghatározóbb szerepet játszanak, mint a kisebb, speciális korpuszok esetében. Az összetétel a korpusz kiegyensúlyozottságára vonatkozik a témakör, a szövegtípus és egyéb tényezők szempontjából. A reprezentativitást – a korpusztervezés vitathatatlanul legnehezebb tényezőjét – „úgy biztosíthatjuk, hogy szövegpopulációt, amelyet a korpusz leképez, megfelelő számú kategóriába osztjuk” (45). A könyv egyik hasznos tulajdonsága, hogy az elméletet következetesen összekapcsolja a gyakorlati korpuszmunkával. Így például megismerhetjük a Translational English Italian Corpus (CEXI) felépítését, vagy éppen a Corpus of Contemporary American English (COCA) szerzői jogi kérdéseit. Különösen tanulságos a webkorpuszokról szóló rész, mivel az internet a korpuszok forrásaként vagy a korpuszok lelőhelyeként is használható. Vannak nyelvi keresőmotorok az interneten, mint például a WebCONC, és kifinomultabb alkalmazások is, mint a WebCorpLive, amelyek eltekintve attól, hogy általában nagyon lassúak, „megbízhatóbbá teszik az internetet mint nyelvészeti információforrást” (60). Másrészt vannak olyan internetes eszközök is, mint a BootCaT (Bootstrapping Corpora and Terms from the Web), amelyek jelentősen felgyorsítják a korpuszépítéshez szükséges szövegek beszerzését és azok rendszerezését automatikus, kulcsszóvezérelt eljárások segítségével.

A negyedik fejezet (Corpus Encoding and Annotation) a korpuszépítés részleteivel foglalkozik. Ebben a fejezetben olvashatunk arról, hogy miként tudjuk az „egyensúlyt tartani az annotációt illetően: ne feledkezzünk meg róla teljes egészében, de ne is adjunk neki központi szerepet a projektjeinkben” (76). A legfontosabb azonban, hogy az objektív és alapos empirikus kutatásnak törekednie kell a korpuszanyagok rendelkezésre bocsátására számos szoftverplatformon, hogy megfeleljen a stabilitás, rugalmasság és hozzáférhetőség kritériumainak.

ha minden korpusz a saját szabályai szerint és a saját szoftverével készül, fennáll a veszélye, hogy a korpusz csak bizonyos szoftverkonfigurációval használható, ezzel szemben az annotációs standard használata segít megelőzni vagy legalábbis késleltetni a korpusz elavulását.(80)

A lehetőleg megismételhető és megosztható kutatások elengedhetetlen része tehát a kódolási és az annotációs standardok használata. Míg az UTF-8 kódolás tűnik a legalkalmasabbnak a korpuszépítéshez (McEnery és Xiao 2004McEnery, Tony, and Richard Xiao 2004 “Character Encoding in Corpus Construction.” In Developing Linguistic Corpora: A Guide to Good Practice, ed. by Martin Wynne, 47–58. Oxford: Oxbow Books. http://www.ota.ahds.ac.uk/documents/creating/dlc/chapter4.htm. Accessed February 7, 2013.), a szerző alaposan elmagyarázza a Text Encoding Initiative (TEI) annotációs rendszerét és az XML (Extensible Markup Language) alkalmazását, amelyek „de facto szabványt alkotnak elektronikus szövegeken végzett tudományos munkához” (82). A jelölés manuálisan is elvégezhető, de például a webes BootCaT korpuszgyűjtő eszköz, amely a Sketch Engine fizetős korpuszkezelő program beépített része, automatizált annotációs folyamattal rendelkezik: „így a fordító gyorsan összeállíthat egy DIY webkorpuszt, percek alatt annotálva és előkészítve a korpuszt a keresésre” (77). Zanettin következetesen összegzi az általános kódolási és annotációs problémákat, valamint a specifikusabb dokumentációs, strukturális és nyelvi jelölési eljárásokat, ami ezt a fejezetet elengedhetetlen olvasmánnyá teszi mindenki számára, aki fordításvezérelt korpuszt kíván építeni.

Az ötödik fejezet (Corpus Tools and Corpus Analysis) a rendelkezésre álló eszközöket és módszereket mutatja be, a korpusz létrehozásának és elemzésének fázisával összehangolva. Az egynyelvű korpuszokra koncentrálva, a fejezet szövegértési, annotációs és korpuszkezelési eszközök bemutatásával kezdődik, amit az elemzési eszközök, technikák és statisztikai mérőeszközök bemutatása követ. Míg a korpuszeszközök alapvető funkciója, hogy segítsék „a keresést végzőket abban, hogy releváns nyelvi mintázatokat azonosítsanak” (117), a szerző különbséget tesz a bemeneti és kimeneti eszközök (keresések és eredmények), valamint a szövegalapú és az indexelő eszközök között, mivel a szövegalapú konkordanciakeresők – különösen ha annotált vagy nagyobb korpuszokról van szó – jelentős lelassulnak (116). Az elemzés első lépéseit általában szó- és kulcsszólisták elkészítése alkotja, a fejezet pedig bemutatja, hogyan fedhetőek fel például a stílusjegyek szólisták összehasonlításával két különböző fordításban. A konkordanciakeresők nemcsak a lexikai, hanem a nyelvtani mintázatok feltárását is megkönnyítik, ezért vitathatatlanul ezek alkotják a korpuszszoftverek alapját. Ahogyan korábban a szerző meggyőzően leírta, a kutatóknak ajánlott gondosan megtervezni és logikusan végrehajtani az elemzési lépéseket a keresési lekérdezés megfogalmazásától kezdve a konkordanciasorok rendezésén és manipulálásán keresztül a más programokba történő exportálásig. A korpuszelemzés nagyrészt az kookkurrens mintázatok keresését jelenti, amint azt a gyakran kiemelt lexikogrammatikai mintázattípusok, például kollokációk, klaszterek vagy kolligációk is bizonyítják (130–138). Ezeket a magyarázatokat egy hasznos szemantikai-pragmatikai kitérő kíséri, amely bemutatja, hogyan nyerhetőek ki szemantikai mintázatok szemantikai preferencia és szemantikai prozódia formájában. Ez utóbbi inkább pragmatikai jelenség, és így „nehezebb szétválasztani pusztán a korpuszadatok alapján” (140), a szemantikai mintázatokat ugyanakkor általában sokkal könnyebben interpretáljuk helytelenül. Hangsúlyozni kell, hogy a mindig a korpuszprojekt célja határozza meg, milyen eszközöket, anyagokat, valamint milyen elemzési módszert igényel az adott projekt.

Az utolsó két fejezet a többnyelvű korpuszokat tárgyalja, az előző fejezetekhez hasonló témavezetést követve a korpusztervezési kérdésektől korpuszelemzési kérdések felé halad.

A hatodik fejezet (Creating Multilingual Corpora) a nyelvi korpuszok főbb típusainak bemutatásával kezdődik. Az összehasonlítható és párhuzamos korpuszok közötti terminológiai különbségtétel még mindig „kissé ellentmondásos és átfedéseket mutat, hiszen a két típus közötti különbség nem mindig egyértelmű” (149). Zanettin ennek ellenére nem tisztázza teljesen a terminológiai kérdéseket (l. 10f.), és bár a terminológiai különbségtétel valóban összetett gyakorlati megfontolásokból ered, nem látok problémát abban, hogy a párhuzamos korpuszt olyan korpuszként határozzuk meg, amely forrás- és célszövegeket tartalmaz és amelyet kettő specifikus vizsgálatára terveztek, míg az összehasonlítható korpusz bármilyen összehasonlító vizsgálatra alkalmas. Ami a korpusz összeállítását illeti, az olvasó értékes támpontokat kap a lehetséges forrásokról és alkalmazásokról, a webalapú két- és többnyelvű összehasonlítható, valamint párhuzamos korpuszok átfogó választékáról. A „potenciálisan összehasonlítható többnyelvű adatok” (151) kinyeréséhez hasznosnak bizonyulnak például a hírügynökségek szövegei. Érdekes módon a terminológiai különbségtétel elveinek komplexitását példázza a Wikipédia-bejegyzésekből összeállítandó többnyelvű korpusz:

az összehasonlítható és párhuzamos korpuszok közötti különbség elhalványul, ha olyan hibrid szövegeket veszünk figyelembe, ahol a fordítás mint szövegalkotás összemosódik az „eredeti” szövegalkotással. A Wikipédia-cikkek egy részét újonnan írják, de a másik részüket „párhuzamos” cikkek alapján fordítják, így ezek valójában többnyire különböző szövegalkotási módok és szerzők kombinációjának eredményeként jönnek létre.(151)

Bár online sokkal kevesebb párhuzamos korpusz áll rendelkezésre, fontos megkülönböztetni az (a) intézményi forrásokat, mint például a Brit Parlament (Hansard) és az Európai Parlament (Europarl) korpuszát, a (b) szépirodalmi forrásoktól, mint például a többnyelvű párhuzamos bibliai korpuszok. A nagy vagy akár csak közepes méretű párhuzamos korpuszok létrehozása és elemzése sok kutató számára továbbra is csak vágyálom marad az online elérhető párhuzamos korpuszok szűkössége, valamint a forrás- és célszövegek párhuzamosításának technikai nehézségei miatt, ugyan az automatizált párhuzamosítás területén végbementek bizonyos újítások. Nekünk azonban az álmok adnak reményt, a fejezet legnagyobb részét a különböző párhuzamosítási eszközök, technikák, automatizált eljárások, a fordítási memóriák ‒ mint párhuzamos korpuszok ‒ vázlatos bemutatása teszi ki. Továbbá a fejezet két részletben ismerteti az OPUS-projektet szemléletes esettanulmány formájában, amely „valószínűleg a párhuzamos korpuszok legnagyobb, online szabadon hozzáférhető gyűjteménye” (169; 6.3. és 7.4. szakasz).

A hetedik fejezet (Using Multilingual Corpora) elsősorban a párhuzamos korpuszokkal végzett gyakorlati korpuszmunkára összpontosít, mivel „eddig nem álltak rendelkezésre eszközök és források” az összehasonlítható korpuszok számítógépes elemzéséhez. Különösen, ami „a két- vagy többnyelvű szövegek és kontextusok lekérdezését és megjelenítését illeti, az összehasonlítható alkorpuszokban az automatikusan összekapcsolt szavak révén” (182). A forrásszövegek és a fordítások úgynevezett párhuzamos konkordanciaprogrammal vizsgálhatók a párhuzamos korpuszokban. A párhuzamos korpuszok elemzése során különbséget kell tenni a szerveralapú és az önálló alkalmazások között. A szerveralapú korpuszok, mint például a fent említett OPUS-projekt, általában nagy korpuszokat tartalmaznak, mivel ezek gyakran együttműködésen alapuló kutatási projektek eredményei. Emellett jellemzően saját, egyedi eszközöket is használnak, ilyen például az OPUS többnyelvű keresőfelülete. A kisebb korpuszokat gyakran önálló alkalmazások, például a MultiConcord vagy ParaConc segítségével vizsgálják, azonban az összes alkalmazás eltér a keresési funkciók és az eredménymegjelenítés tekintetében. A fejezet két tanulságos esettanulmányt is tartalmaz. Az első a Salman Rushdie írásaiból származó, 1,5 millió szóból álló olasz fordítási korpusz elemzése, amely „olyan módszertant mutat be, amely segítségével a párhuzamos korpuszban a forrásnyelvi jellemzők különböző fordításai hasonlíthatók össze, amelyeket pedig többnyelvű célnyelvi referenciakorpusszal lehet egybevetni” (196). A második pedig bemutatja, hogyan lehet az OPUS-korpuszt feltárni „kontrasztív nyelvészeti oldalról, betekintést nyújtva abba, hogy a különböző nyelveken kifejezett jelentések hogyan illeszkednek egymáshoz” (196). Ami a tényleges fordítási gyakorlatot illeti, még mindig nem cseréltek le minden nyomtatott referenciaművet ‒ például szótárat ‒ elektronikus adatbázisokra, de a korpusszal támogatott technológia „továbbra is példákat szolgáltat a fordítóknak arra nézve, hogy a nyelvi elemeket, például szavakat, kifejezéseket és kollokációkat mások korábban hogyan fordítottak le (párhuzamos korpuszok), valamint példákat kapnak a standard nyelvprodukcióra is, amellyel a fordítási megoldások (összehasonlítható korpuszok) egybevethetők” (202).

A könyv következtetései visszavezetnek a recenzió kezdetéhez, mivel úgy vélem, hogy Zanettin a korpuszalapú munkára és kutatásra ‒ mint kollektív vállalkozásra ‒, valamint az korpuszeszközök elérhetőségére (beleértve a digitalizált szövegeket is) helyezett hangsúlya a jövőt testesíti meg. Az önálló eszközök minden bizonnyal továbbra is népszerűek maradnak, de az olyan alkalmazások, mint a Sketch Engine segíthetnek egy kisebb forradalom elindításában a kollaboratív korpuszkutatásban, létrehozva egy „webes környezetet a korpuszmunkához, amely lehetővé teszi még a technikában nem jártas felhasználók számára is, hogy korpuszt építsenek olyan korpusz-összeállítási folyamaton keresztül, amelyet különféle nyílt forráskódú programok integrálásával hoztak létre, egyedi tervezésű korpuszelemző alkalmazásokkal kombinálva” (207). Ennek fényében a könyv határozottan bebizonyítja, hogy a korpusszal támogatott fordítástudomány folyamatosan fejlődik. Annak ellenére, hogy az IT területe új fejlesztések révén rohamosan fejlődik, ez a könyv minden bizonnyal értékes forrás marad az elkövetkezendő években is, hiszen megannyi példát és gyakorlatot tartalmaz, emellett egyszerűen fogalmazva mutatja be, hogyan lehet fordításvezérelt korpuszokat létrehozni, annotálni és elemezni. Azonban néhány szövegrész nehezen követhető, amely a feltételezhető olvasóközönség sokféleségének ‒ oktatók, kutatók, hallgatók – tudható be. Ezért a jövőbeli kiadásokban bizonyos kifejezéseket és szövegrészeket pontosítani lehetne (pl. „egy olasz–angol kétnyelvű, kétirányú, párhuzamos és fordításvezérelt korpusz” [3]), az elírásokat kijavítani, valamint hasznos lenne szószedettel kiegészíteni a kötetet. Összességében a Translation-Driven Corpora kitűnő forrás, amelyre egy nap olyan munkaként tekinthetünk vissza a tudományágunkban, mint ami utat tört a korpuszvezérelt – nagyrészt „kollektivista” – „fordulatnak”, köszönhetően a kollektív kutatásra és a nyílt forrásokra helyezett hangsúlyának.

Irodalom

Mauranen, Anna, and Pekka Kujamäki

eds. 2004 Translation Universals: Do They Exist? Amsterdam: John Benjamins.

①

McEnery, Tony, and Richard Xiao

2004 “Character Encoding in Corpus Construction.” In Developing Linguistic Corpora: A Guide to Good Practice, ed. by Martin Wynne, 47–58. Oxford: Oxbow Books. http://www.ota.ahds.ac.uk/documents/creating/dlc/chapter4.htm. Accessed February 7, 2013.

①

A szerző elérhetősége

Stefan Baumgarten

Bangor University

School of Modern Languages

Gwynedd

LL57 2DG Bangor

Wales, UK

[email protected]

FordításKönyvajánló: Zanettin, Federico. Translation-Driven Corpora. (Translation Practices Explained 14). Manchester: St. Jerome Publishing, 2012. xiii + 244 pp. ISBN 978-1-905763-29-0 £30

Irodalom

A szerző elérhetősége

Fordítás
Könyvajánló: Zanettin, Federico. Translation-Driven Corpora. (Translation Practices Explained 14). Manchester: St. Jerome Publishing, 2012. xiii + 244 pp. ISBN 978-1-905763-29-0 £30