Tekstynų lingvistika

Tekstynų lingvistika – kalbotyros šaka, kuriai būdingi iš autentiškų tekstų sudaryti tekstynai. Iš pradžių tekstynai rinkti rankiniu būdu, o dabar jie automatiškai sudaromi iš elektroninių tekstų.

Tekstynų lingvistikoje kyla nesutarimų dėl anotuotų tekstynų vertės. Džonas Sinkleris (John McHardy Sinclair) pasisakė už minimalų anotavimą, jis teigė, kad tekstai turi kalbėti patys už save,[1] tuo tarpu kiti anotavimą supranta kaip aukštesnį kalbos lygmenį, kuriuo tiksliau aprašoma kalba.

Istorija redaguoti

Vieni seniausių gramatinių aprašomųjų tyrimų buvo bent iš dalies grįsti tekstynais. Pavyzdžiui, Pratišakhjų literatūroje aprašyti sanskrito garsų modeliai, pavartoti vedose, o Paninio klasikinio sanskrito gramatika buvo bent jau iš dalies paremta to paties tekstyno analize. Taip pat ankstyvieji arabų gramatikai nemažai dėmesio skyrė Korano kalbai. Vakarų Europoje mokslininkai parengdavo konkordansus, kurie leisdavo nuodugniai tirti Biblijos ir kitų kanoninių tekstų kalbą.

Moderniajai tekstynų lingvistikai pagrindus padėjo Henrio Kučeros (Henry Kučera) ir V. Nelsono Francio (W. Nelson Francis) darbas Dabartinės amerikiečių anglų kalbos kompiuterinė analizė (angl. Computational Analysis of Present-Day American English), išleistas 1967 m. Jame remiamasi Brauno tekstyne (angl. Brown Corpus) kruopščiai atrinktais dabartinės amerikiečių anglų kalbos tekstais, kurie sudaro maždaug 1 milijono žodžių tekstyną, surinktą iš įvairių šaltinių. Kučera ir Francis vėliau šį tekstyną panaudojo kompiuterinei analizei ir sudarė daugiasluoksnį darbą, apimantį lingvistikos, kalbos mokymo, psichologijos, statistikos ir sociologijos elementus. Kitas svarbus leidinys buvo Randolfo Kvirko (Randolph Quirk) Link anglų kalbos vartosenos aprašymo (1960)[2], kuriame jis pristato anglų kalbos vartosenos analizę.

Netrukus Bostono Hautono-Miflino leidykla (angl. Houghton-Mifflin) pasiūlė Kučerai sukurti milijono žodžių trieilę citatų duomenų bazę, kad šis galėtų parengti amerikiečių paveldo žodyną. Tai pirmasis žodynas parengtas remiantis tekstyno lingvistikos priemonėmis. Šis žodynas buvo naujas tuo, kad derino preskriptyvųjį (kaip kalba turėtų būti vartojama) ir deskriptyvųjį (kaip kalba yra vartojama) požiūrius.

Kiti leidėjai tęsė šiuos tyrimus. Britų leidėjo Kolinso COBUILD (angl. Collins COBUILD) vienakalbis mokomasis žodynas, sudarytas naudojantis Anglų kalbos banku (angl. Bank of English). Anglų kalbos vartosenos analizės tekstynas panaudotas vienai svarbiausių tekstynų lingvistika grįstų gramatikų – Išsami anglų kalbos gramatika (angl. Comprehensive Grammar of English[3].

Paskatinti Brauno tekstyno sėkmės, tyrėjai parengė daug panašiai sudarytų tekstynų: LOB tekstyną (XX a. septintasis dešimtmetis, britų anglų kalba), Kolhapuro (indų anglų kalba), Velingtono (Naujosios Zelandijos anglų kalba), Australų anglų kalbos tekstyną (australų anglų kalba), Frauno tekstyną (XX a. paskutinio dešimtmečio amerikiečių anglų kalba) ir FLOB tekstyną (XX a. paskutinio dešimtmečio britų anglų kalba).

Kiti tekstynai atspindi įvairias kalbas, jų atmainas, įskaitant Tarptautinį anglų kalbos tekstyną (angl. International Corpus of English) ir Nacionalinį britų tekstyną (angl. British National Corpus), kuriuos sudaro 100 milijonų žodžių rinkinys iš rašytinių ir sakytinių tekstų. Juos XX a. paskutiniame dešimtmetyje surinko leidėjų konsorciumas ir universitetai (Oksfordo ir Lankasterio) bei Britų biblioteka. Dabartinės amerikiečių anglų kalbos tekstyną sudaro daugiau nei 400 milijonai žodžių. Jis laisvai prieinamas internete.

Pirmasis kompiuterizuotas transkribuotos šnekamosios kalbos tekstynas sudarytas 1971 m. Monrealio prancūzų projekte. Tekstyną sudaro 1 milijonas žodžių. Jis paskatino kito, daug didesnio, Šanos Poplak (Shana Poplack) Otavos-Halo regiono šnekamosios prancūzų kalbos tekstyno sudarymą[4].

Tekstynai kuriami ne tik gyvosioms kalboms: kompiuterizuoti tekstynai sudaromi ir iš senovinių kalbų tekstų rinkinių. Pavyzdžiui, nuo 1970 m. kuriama Anderseno-Forbso (Andersen-Forbes) hebrajų Biblijos duomenų bazė, kurioje kiekvienas skirsnis apdorotas taikant grafus, atspindinčius septynis sintaksės lygius ir kiekvienas sakinys anotuotas septyniais informacijos laukais. Arabiškasis Korano tekstynas – tai anotuotas klasikinės Korane vartojamos arabų kalbos tekstynas. Šis projektas turi daugybę anotacijos lygmenų: morfologinė segmentacija, kalbos dalių žymėjimas, sintaksinė analizė naudojant priklausomybių gramatiką.

Šiuo metu tekstynų lingvistika taikoma ne vien tik kalbotyros tyrimuose. Ji taikoma ir kitose mokslo bei profesinėse srityse, pvz., naujoje subdisciplinoje teisės ir tekstynų lingvistikoje, kuri siekia suprasti teisinių tekstų reikšmę taikant tekstynų išteklius ir įrankius.

Metodai redaguoti

Tekstynų lingvistikoje buvo sukurti nauji tyrimo metodai, kuriais stengiamasi atrasti ryšį tarp duomenų ir teorijos.

Nuorodos redaguoti

  1. Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
  2. Quirk, R. 'Towards a description of English Usage', Transactions of the Philological Society. 1960. 40–61.
  3. Quirk, R., Greenbaum, S., Leech, G. and Svartvik, J. A Comprehensive Grammar of the English Language London: Longman. 1985.
  4. Poplack, S. The care and handling of a mega-corpus. In Fasold, R. & Schiffrin D. (eds.) Language Change and Variation, Amsterdam: Benjamins. 1989. 411–451.