ICT4LT Moduuli
3.4
Tämän moduulin tavoitteena on tutustuttaa oppija korpuslingvistiikkaan. Kielentutkijat käyttävät usein korpuksia raakamateriaalina, josta voidaan tuottaa kielen kuvauksia, mutta ne ovat merkityksellisiä myös tietokoneavusteisen kielenopetuksen (CALL) ohjelmia laadittaessa. Korpukset voivat tarjota täsmällisiä, empiriisesti perusteltuja lingvistisiä havaintoja CALL-materiaalien pohjaksi. Tämän lisäksi itse korpukset, tavallisesti konkordanssien välityksellä, voivat olla raakamateriaalia tietokoneavusteisessa opetuksessa . Joissakin tilanteissa korpusta voidaan ajatella osiopankkina. CALL-opetuksessa korpukset ovat siis monikäyttöisiä ja CALL-ohjelmien laatijoille korpusmetodologian tuntemus on yhä korvaamattomampaa.
Tämä moduuli laajentaa ja täydentää Moduulin 2.4 korpuslingvistiikkaa käsittelevää osuutta, jonka ovat kirjoittaneet Marie-Nöelle Lamy ja Hans Jorgen Mortensen. Korpuslingvistikka on mukana myös NLP:tä (Natural Language Processing) käsittelevässä Mathias Schulzen ja Piklu Guptan laatimassa Moduulissa 3.5, joka käsittelee kieliteknologiaa (Human Language Technology).
Tony McEnery, Newcastlen yliopisto, Englanti
Andrew Wilson, Walesin yliopisto, Bangor, Wales
Tekstin on suomentanut Helena Valtanen.
Käytämme termiä "varhainen korpuslingvistiikka" kuvaamaan lingvistiikkaa ennen Chomskya. Kentällä toimivat kielitieteilijät, kuten esimerkiksi Boas (1940) joka tutki Amerikan intiaanikieliä, sekä myöhemmin strukturalistiseen traditioon kuuluvat kielitieteilijät käyttivät kaikki korpuksiin perustuvia menetelmiä. Tämä ei kuitenkaan tarkoita sitä, että termiä "korpuslingvistiikka" olisi käytetty tuon ajan kirjallisuudessa tai tutkimuksissa. Seuraavassa on lyhyt katsaus ennen vuotta 1950 ilmestyneistä kiinnostavista korpuspohjaisista tutkimuksista.
Lasten kielen omaksumisen tutkiminen päiväkirjatutkimusten kaudella (noin 1876-1926) perustui vanhempien pitämiin päiväkirjoihin, joihin he huolellisesti kirjasivat lastensa kielellisen tuotokset. Tällaisia alkeellisia korpuksia käytetään edelleen normatiivisen aineiston lähteenä kielen omaksumisen tutkimuksessa, ks. esimerkiksi Ingram (1978). Korpusten kerääminen jatkui ja monimuotoistui päiväkirjatutkimusten kauden jälkeen: tutkimuksia, joissa käytettiin suuria otoksia, tehtiin noin vuodesta 1927 vuoteen 1957 - aineistoa kerättiin suurelta joukolta lapsia tavoittena kehittää kehityksellistä normistoa. Pitkittäistutkimukset ovat olleet vallalla vuodesta 1957 tähän päivään saakka - nekin perustuvat lasten puhetuotosten keräämiseen, mutta nyt pienempiin otoksiin (noin kolme lasta), joita seurataan pitemmän aikaa, esim. Brown (1973) ja Bloom (1970).
Kading (1897) käytti suurta saksan korpusta - 11 miljoonaa sanaa - kootessaan saksan kirjainten ja kirjainyhdistelmien frekvenssijakaumat. Jo kokonsa vuoksi hänen korpuksensa on vaikuttava ja hyvinkin verrattavissa nykyaikaisiin korpuksiin.
Fries ja Traver (1940) sekä Bongers (1947) ovat esimerkkejä kielitieteilijöistä, jotka käyttivät hyväkseen korpuksia tutkiessaan vieraan kielen opetusta. Kuten Kennedy (1992) on huomauttanut, korpuksella ja vieraan kielen opetuksella oli kiinteä yhteys 1900-luvun alkupuoliskolla, sillä oppijoille tarkoitettuja sanalistoja johdettiin usein korpuksista. Esimerkiksi Thorndiken (1921) ja Palmerin (1933) tutkimuksista johdetut frekvenssilistat olivat tärkeitä määriteltäessä sanaston oppimisen tavoitteita toisen kielen opetuksessa.
Chomsky muutti lingvistiikan suunnan empirismistä kohti rationalismia hämmästyttävän lyhyessä ajassa. Näin tehdässään hän näennäisesti mitätöi korpuksen lingvistisen tutkimuksen todistusaineistona. Chomskyn mukaan korpus ei voinut koskaan olla kielitieteilijälle hyödyllinen työkalu, koska tämän tehtävä on mallintaa kielen kompetenssia, ei performanssia.
Kompetenssi sekä selittää että luonnehtii henkilön tietoa kielestä. Performanssi on taas kompetenssin vajavainen peilikuva. Esimerkiksi sellaiset asiat kuin lyhytkestoisen muistin rajoitukset tai se, olemmeko juoneet alkoholia saattavat muuttaa sitä, miten puhumme tietyssä tilanteessa. Tästä pääsemmekin Chomskyn esittämän kritiikin ytimeen: korpus on luonnostaan kokoelma ulkoistettuja ilmauksia - se on performanssiaineistoa ja sen tähden huono opas mallinnettaessa kielellistä kompetenssia.
Tämän lisäksi, jos emme kerran kykene mittaamaan kielellistä kompetenssia, kuinka voimme päätellä tietystä ilmauksesta sen, mitkä ovat lingvistisesti merkityksellisiä performanssiin kuuluvia ilmiöitä? Tämä on keskeinen kysymys, sillä jos emme pysty vastaamaan siihen, emme voi olla varmoja onko sillä, mitä löydämme suoranaisesti relevanssia lingvistiikan kannalta. Saatamme siis esimerkiksi tietämättämme kommentoida juomisen vaikutusta puheen tuottamiseen. Edellä mainittu asia ei kuitenkaan ollut ainoa Chomskyn varhaista korpuslingvistiikka kohtaan esittämä kritiikki.
Kielen ei-finiittinen luonne
Kaikki varhaisen korpuslingvistiikan parissa tehty työ perustui kahdelle perustavaa laatua olevalle, mutta virheelliselle oletukselle:
Korpus nähtiin yksinomaisena evidenssin lähteenä lingvistisessä teorianmuodostuksessa - "Tässä vaiheessa lingvistit [...] pitivät korpusta lingvistiikan ainoana selittävänä tekijänä" (Leech, 1991).
Rehellisesti sanoen eivät suinkaan kaikki tuon ajan kielitieteilijät esittäneet tällaisia härkäpäisiä väittämiä - Harris (1951) kuuluu luultavasti asian innokkaimpiin kannattajiin, kun taas Hockett (1948) pani vähemmän painoa korpukselle ja mainitsi, että strukturalistiseen traditioon kuuluvan kielitieteilijän tarkoitus "ei ole yksinkertaisesti selittää vain ilmauksia, jotka muodostavat hänen korpuksensa" vaan pikemminkin "tehdä selkoa ilmauksista, jotka eivät sisälly hänen korpukseensa jonain tiettynä aikana."
Luonnollisen kielen lauseiden määrä ei ole ainoastaan rajattoman laaja - se on potentiaalisesti ääretön. Tämä johtuu niiden sekä leksikaalisten että syntaktisten valintojen huikeasta määrästä, joita tehdään lausetta tuotettaessa. Lauseet voivat lisäksi olla rekursiivisia. Ajatellaanpa lausetta "Mies jonka kissa näki jonka koira söi jonka mies tunsi jonka...". Tällaista konstruktiota kutsutaan nimellä centre embedding ja sen avulla voidaan tuottaa äärettömiä lauseita. (Tätä aihetta käsittelevät yksityiskohtaisemmin McEnery & Wilson 1996:7-8).
Ainoa tapa selittää minkä tahansa kielen kielioppia on kuvata sen säännöt - ei luetella sen lauseita. Juuri kielen syntaktisia sääntöjä Chomsky pitää äärellisinä. Näiden avulla taas voidaan tuottaa ääretön määrä lauseita.
Vaikka kieli olisikin äärellinen konstrukti, olisiko korpusten käyttö silti paras tapa tutkia sitä? Miksi pitäisi vaivautua odottaamaan, että kaikki mahdolliset kielen lauseet saataisiin lueteltua, kun voimme introspektion avulla sukeltaa omaan mieleemme ja tutkia omaa kielellistä kompetenssiamme? Joskus intuitio voi säästää aikaa tehdessämme korpushakuja.
Jos emme turvaudu introspektiivisiin ratkaisuihin, kuinka pystymme erottomaan epäkieliopilliset tuotokset niistä, jotka eivät yksinkertaisesti ole vielä esiintyneet. Jos rajallinen korpuksemme ei sisällä lausetta:
*He shines Tony books
kuinka pystymme päättelemään, että se on epäkieliopillinen? Korpuksesta saattaa jopa löytyä vakuuttavaa tukea käsitykselle, että lause on kieliopillinen jos havaitsemme sellaisia lauseita kuten:
He gives Tony books
He lends Tony books
He owes Tony books
Intropektio näyttää hyödylliseltä ja hyvältä työvälineeltä tällaisissa tapauksissa, mutta varhaiset korpuslingvistit eivät hyväksyneet sen käyttämistä.
Myös monimerkityksisten rakenteiden tunnistaminen ja niiden merkityksen selvittäminen voidaan tehdä introspektion avulla. Lauseen fyysisen muodon havainnointi yksinään vaikuttaa riittämättömältä. Ajatelkaamme lauseita:
Tony and Fido sat
down - he read a book of recipes.
Tony and Fido sat down - he ate a can of dog food.
Vain introspektion avulla voimme selvittää näiden kahden monimerkityksisen lauseen merkitykset, toisin sanoen tiedämme, että Fido on koiran nimi ja siksi juuri Fido söi koiranruoan ja Tony luki kirjaa.
Chomskyn esittämän teoreettisen kritiikin lisäksi korpuslingvistiikkaan liittyi käytännön ongelmia. Abercrombien (1963)"pseudoproseduurien" kritiikkiä voi helposti soveltaa korpuslingvistiikkaan. Voitko kuvitella tekeväsi hakuja 11 miljoonan sanan korpuksesta, kuten Kading (1897) teki, käyttäen apuna vain silmiäsi? Koko yrityksestä tulee kohtuuttoman aikaavievä, puhumattakaan sen virhealttiudesta ja kalleudesta. Abercrombien huomiot pseudoproseduurien luonteesta olivat epäilemättä oikeita.
Varhainen korpuslingvistiikka vaati sellaisia tietojenkäsittelymahdollisuuksia, joita ei yksinkertaisesti ollut aikanaan tarjolla. 1950-luvulla korpuslingvistiikkaa kohtaan esitetyn kritiikin vaikutus oli välitön ja syvällinen. Korpuslingvistiikka hylättiin jokseenkin kokonaan, vaikka se ei koskaan täydellisesti kuollut.
Vaikka Chomskyn esittämä kritiikki aiheutti korpuslingvistiikan arvonalennuksen, kaikkea korpuksiin perustuvaa työtä ei silti lopetettu. Esimerkiksi fonetiikan alueella luonnollisen kielen aineisto pysyi hallitsevassa asemassa eikä introspektiolla koskaan ollut samanlaista vaikutusta kuin muilla kielitieteen alueilla. Myös kielen omaksumisen tutkimuksessa aineisto koottiin suurimmaksi osaksi havainnoimalla luonnollista kieltä. Lingvisti/psykologi, joka tutkii lasten kielen omaksumista, ei voi turvautua introspektiivisiin arvioihin - yritäpä kysyä 18-kuukauden ikäiseltä lapselta, onko "moo-cow" verbi vai substantiivi! Introspektio on mahdollista vain silloin kun metalingvistinen tietoisuus on kehittynyt eikä ole mitään todisteita siitä, että yksittäisiä sanoja puhuvalla lapsella olisi metalingvististä tietoisuutta. Jopa Chomsky (1964) varoitti luopumasta performanssia koskevasta aineistosta kielen omaksumista koskevassa tutkimuksessa.
Leech (1992) väittää, että tieteellisenä menetelmänä korpustutkimus on vakuuttava metodologia, koska sen tulokset voidaan objektiivisesti todentaa. Onko kielen tuottaminen todellakin ainoastaan kielellisen kompetenssin kehno heijastuma, kuten Chomsky on esittänyt? Labov (1969) osoitti, että "suurin osa kaikista kielellisista ilmauksista kaikissa konteksteissa on kieliopillisia". Emme väitä, että kaikki lauseet tietyssä korpuksessa ovat kieliopillisesti hyväksyttäviä, mutta näyttää todennäköiseltä, että Chomskyn (1968:88) väite performanssiaineiston 'degeneratiivisuudesta' on liioittelua (ks. Ingram 1989:223, jossa lisää tämän näkemyksen kritiikkiä).
Kvantitatiivinen aineisto hyödyttää kielitieteilijöitä. Esimerkiksi Svartvikin (1966) tutkimus passivisaatiosta hyödynsi korpuksesta saatua kvantitatiivista aineistoa. Kaikki onnistuneet yritykset analysoida automaattisesti sanaluokkia perustuvat korpuksista saatuun kvantitatiiviseen aineistoon.
Abercrombien havainnot korpustutkimuksen aikaavievyydestä, kalleudesta ja virhealttiudesta eivät enää pidä paikkaansa, kiitos tehokkaiden tietokoneiden ja ohjelmien, jotka pystyvät suorittamaan monimutkaisia laskutoimituksia muutamassa sekunnissa, erehtymättömästi.
Yleisesti uskotaan, että korpuslingvistiikka hylättiin kokonaan 1950-luvulla ja sitten siihen palattiin jokseenkin yhtä äkkinäisesti 1980-luvulla. Tämä ei pidä paikkaansa ja tekee karhunpalveluksen niille kielitieteilijöille, jotka jatkoivat välikautena pioneerityötään korpusten parissa.
Esimerkiksi Quirk (1960) suunnitteli ja toteutti kunnianhimoisen tutkimuksena englannin kielen käytöstä (Survey of English Usage, SEU), jonka hän aloitti vuonna 1961. Samana vuonna Francis ja Kucera aloittivat työnsä tunnetun Brownin korpuksen parissa, työn jonka loppuunsaattamiseen meni melkein kaksi vuosikymmentä. Nämä tutkijat edustivat vähemmistöä, mutta heitä ei kuitenkaan yleisesti pidetty omituisina ja muut seurasivat heidän esimerkkiään. Vuonna 1975 Jan Svartvik alkoi SEU:n ja Brownin korpusten pohjalta rakentaa Lontoo-Lund korpusta.
Tässä vaiheessa myös tietokone alkoi hitaasti vakiinnuttaa asemaansa korpuslingvistiikassa. Svartvik sovelsi SEU:n tietokoneelle ja sen seurauksena tuotti korpuksen, joka monien, esimerkiksi Leechin (1991), mielestä on "vielä tänäkin päivänä vertaansa vailla oleva puhutun englannin tutkimusresurssi".
Tietokoneelle tallennetun korpuksen olemassaolo ja tietokonelaitteistojen yleistyminen sekä laitoksissa että yksityishenkilöiden käytössä näyttää antaneen sysäksen korpuslingvistiikan uudelle tulemiselle.
Termi korpus on melkein identtinen termin koneellisesti luettava korpus kanssa. Korpuslingvistin kiinnostus tietokoneisiin johtuu niiden kyvystä suorittaa erilaisia prosesseja, joita ihmisen suorittamina voitiin kutsua ainoastaan pseudotekniikoiksi. Kadingin analyysien tapaiset vuosia kestäneet operaatiot voidaan nykyisin suorittaa muutamassa hetkessä kotitietokoneella.
Kun ajatellaan koneen ja korpuksen liittoa, kannattaa tarkastella vähän yksityiskohtaisemmin, millaisia ovat nämä prosessit, jotka auttavat kielitieteilijöitä. Tietokone pystyy hakemaan tiettyä sanaa, sanaryhmää tai jopa sanaluokkaa tekstistä. Jos olemme esimerkiksi kiinnostuneita sanan however esiintymisestä tekstissä, voimme yksinkertaisesti pyytää konetta etsimään tätä sanaa tekstistä. Tietokoneen kyky noutaa kaikki sanan esiintymät, tavallisesti kontekstissa, on lisäapua kielitieteilijälle.
Tietokone pystyy löytämään relevantin tekstin ja tuoda sen käyttäjän nähtäväksi. Se pystyy myös laskemaan kuinka monta kertaa sana tekstissä esiintyy, minkä pohjalta saadaan tietoa sanan esiintymistiheydestä. Voimme sitten haluta jotenkin lajitella aineiston - esimerkiksi aakkosiin joko sen oikealla tai vasemmalla puolella esiintyvän sanan mukaan. Voimme jopa lajitella sanalistan etsimällä ne sanat, jotka esiintyvät kiinnostuksemme kohteen välittömässä yhteydessä. Voimme tämän jälkeen ottaa alkuperäisen listamme sanan however esiintymistä konteksteineen (mitä tavallisesti kutsutaan konkordanssiksi - ks. Moduuli 2.4) ja tehdä siitä uuden listan, vaikkapa kaikista however -sanoista, joiden välittömässä läheisyydessä on sana we tai joita seuraa pilkku.
Edellä esitetetyt prosessit sisältyvät usein konkordanssiohjelmiin. Tämä on se työkalu, jota useimmiten käytetään korpuslingvistiikassa korpusten tarkasteluun. Tietokone siis mahdollistaa sen, että voimme hyödyntää korpuksia laajassa mittakaavassa, nopeasti ja tarkasti.
Kirjoitettujen tai puhuttujen tekstien tutkimus ei suinkaan rajoitu korpuslingvistiikkaan. Yksittäisiä tekstejä käytetään usein aineistona monenlaisiin kirjallisuus- ja lingvistisiin analyyseihin - runon tyyllillisestä analyysistä television puheohjelman keskusteluanalyysiin. Kuitenkin korpuksen käyttö empiriisen lingvistiikan perustana eroaa usealla olennaisella tavalla yksittäisten tekstien tutkimuksesta.
Periaatteessa mitä tahansa useamman kuin yhden tekstin kokonaisuutta voidaan kutsua korpukseksi (sana 'corpus' on latinaa ja tarkoittaa "ruumista" tai "kokonaisuutta", joten korpus on mikä tahansa tekstien kokoelma). Modernissa kielitieteessä "korpuksella" on useimmiten kuitenkin tarkempi merkitys kuin tällä yksinkertaisella määritelmällä. Seuraavassa (3.2 - 3.5) tarkastellaankin nykyaikaisen korpuksen neljää pääominaisuutta.
Kielitieteessä olemme usein kiinnostuneita erilaisista kielen varianteista pikemminkin kuin yhden ainoan kirjailijan teksteistä tai yksittäisestä tekstistä. Tällaisessa tapauksessa meillä on kaksi mahdollisuutta kerätä aineistoa:
Kuten edellä oli puhetta, Chomsky kritisoi korpustutkimusta sen perusteella, että kieli on ääretön ja sen vuoksi mikä tahansa korpus on vääristynyt. Toisin sanoen jotkut ilmaukset jäisivät sen ulkopuolelle harvinaisuutensa takia tai toiset yleisemmät sattumalta ja toisaalta erittäin harvinaisia ilmauksia saattaisi tulla mukaan useaankin kertaan. Vaikka nykyinen tietokonetekniikka mahdollistaa paljon suurempien korpusten kokoamisen kuin mitä Chomskyllä oli mielessä, hänen kritiikkinsä täytyy silti ottaa vakavasti. Tämä ei tarkoita sitä, että meidän pitäisi luopua korpuksista vaan sitä, että meidän täytyy yrittää löytää tapoja koota sellaisia korpuksia, jotka ovat vähemmän vääristyneitä ja paljon edustavampia.
Olemme siksi kiinnostuneita luomaan korpuksen, joka edustaa parhaalla mahdollisella tavalla sitä kielen varianttia, jota tutkimme, eli korpuksen, joka antaa meille niin tarkan kuvan kuin on mahdollista kyseisen variantin ominaispiirteistä ja niiden suhteellisista jakaumista. Se mitä tarvitsemme on laaja valikoima sellaisia kirjoittajia ja tekstilajeja, joiden voidaan yhdessä ajatella "tuottavan keskiarvon" ja antavan jokseenkin tarkan kuvan siitä kielellisestä kokonaisuudesta, josta olemme kiinnostuneita.
Termi "korpus" tarkoittaa myös rajallisen kokoista, esimerkiksi miljoona sanaa käsittävää, tekstien kokoelmaa. Aina näin ei kuitenkaan ole asianlaita - esimerkiksi Birminghamin yliopistossa John Sinclairin COBUILD-ryhmä koostaa ja analysoi monitorikorpusta. Tämä "tekstikokoelma", kuten Sinclairin ryhmä sitä kutsuu, on avoin kokonaisuus - uusia tekstejä lisätään jatkuvasti, joten kokoelma kasvaa kaiken aikaa. Monitorikorpukset kiinnostavat erityisesti sanaston tutkijoita, jotka etsivät uusista teksteistä uudissanoja tai tutkivat vanhojen sanojen merkitysten muutoksia. Tällaisten korpusten suurimmat edut ovat:
Niiden suurin haittapuoli on:
Monitorikorpuksia lukuun ottamatta korpukset yleensä sisältävät rajallisen määrän sanoja. Tavallisesti lukumäärä päätetään jo korpusta suunniteltaessa. Brownin korpus esimerkiksi sisältää miljoona sanaa juoksevaa tekstiä. Toisin kuin monitorikorpusten kohdalla, koostaminen päättyy kun korpuksen sanojen määrä saavuttaa tavoitteen eikä korpuksen koko tästä enää kasva. (Poikkeus on Lontoo-Lund -korpus, johon sisällytettiin uutta aineistoa 1970-luvun puolivälissä tavoitteena kattaa useampia tekstilajeja.)
Nykyään termi "korpus" melkein aina sisältää ajatuksen siitä, että se on "koneellisesti luettava". Aikaisemmin näin ei ollut asia, sillä "korpus" tarkoitti ainoastaan painettua tekstiä. Nykyisin vain harvat korpukset ovat kirjamuodossa - eräs tällainen on "A Corpus of English Conversation" (Svartvik & Quirk 1980), joka edustaa "alkuperäistä" Lontoo-Lund -korpusta. Joskus korpusaineistoa (kuten frekvenssilistoja ilman kontekstia) on tarjolla myös muissa muodoissa. Esimerkiksi LOB-korpuksen täydellinen konkordanssiversio on saatavilla mikrofilmillä ja joistakin puhutun kielen korpuksista on mahdollista saada kopio alkuperäisistä äänityksistä - Lancaster/IBM Spoken English -korpus on tällainen, mutta Lontoo-Lund -korpus taas ei.
Koneellisesti luettavalla korpuksella on seuraavat edut verratuna kirjoitettuun tai puhuttuun versioon:
Jos et ole vielä tutustunut nykyaikaisten korpuksien muihin ominaisuuksiin, voit nyt lukea niistä.
Yleensä ollaan, sitä julki lausumattakin, yhtä mieltä siitä, että korpus muodostaa edustamansa kielen variantin standardoidun lähdemateriaalin. Tämä edellyttää sitä, että korpus on laajasti muiden tutkijoiden käytettävissä ja näin onkin asianlaita monien korpusten kohdalla - esimerkiksi Brownin korpus, LOB-korpus ja Lontoo-Lund -korpus.
Kaikki korpukset eivät suinkaan ole yksikielisiä, vaan yhä enemmän tehdään työtä monikielisten korpusten rakentamiseksi.
Mutta ihan aluksi meidän täytyy tehdä ero kahdentyyppisten monikielisten korpusten välillä: ensimmäisiä voidaan luonnehtia pieneksi kokoelmaksi yksikielisiä korpuksia siinä mielessä, että samoja proseduureja ja kategorioita sovelletaan kuhunkin kieleen, mutta jokainen sisältää täydellisesti erilaisia tekstejä. Esimerkiksi Århusin tanskan, ranskan ja englannin lakitekstien korpus koostuu kolmesta yksikielisestä korpuksesta, joiden sisältämät tekstit eivät ole saman tekstin käännöksiä.
Toinen monikielisten korpusten tyyppi (ja se, joka on saanut eniten huomiota osakseen) sisältää rinnakkaiskorpuksia (parallel corpus). Nämä ovat korpuksia, jotka koostuvat samoista teksteistä käännettyinä usealle kielelle. Rinnakkaisten korpusten historia ulottuu keskiajalle, jolloin tuotettiin "monikielisiä raamattuja", joissa sama teksti esiintyi rinnakkain hepreaksi, latinaksi ja kreikaksi.
Rinnakkaiskorpus ei ole välittömästi käyttäjäystävällinen. Jotta korpuksesta olisi hyötyä, on tarpeen tunnistaa mitkä lauseet alikorpuksissa ovat toistensa käännöksiä ja toisaalta mitkä sanat. Korpus, jossa esitetään nämä samastukset, tunnetaan nimellä aligned corpus koska siinä esitetään eksplisiittisesti yhteydet niiden elementtien välillä, jotka ovat toistensa käännöksiä. Esimerkiksi korpuksessa lauseet "Das Buch ist auf dem Tisch" ja "The book is on the table" voidaan linkittää yhteen. Lisäksi tietyt sanat voidaan yhdistää, kuten "Das" ja "The". Tämä ei ole aina kuitenkaan yksinkertaista, sillä usein yhdellä sanalla jossain kielessä voi olla vastineena kaksi sanaa toisessa, kuten esimerkiksi saksan "rauch" ja englannin "is smoking".
Tällä hetkellä on olemassa vain muutamia selityksin varustettuja rinnakkaiskorpuksia ja nekin ovat yleensä kaksikielisiä, eivätkä monikielisiä. Kahdessa EU:n rahoittamassa projektissa (CRATER ja MULTEXT) aiotaan kuitenkin tuottaa aidosti monikieliset korpukset. Kanadalainen Hansard-korpus on selityksin varustettu ja sisältää rinnakkaisia tekstejä ranskaksi ja englanniksi, mutta kattaa ainoastaan rajallisen määrän tekstityyppejä (Kanadan parlamentin asiakirjoja). Tämä on kuitenkin kehittyvä alue ja tilanne tullee muuttumaan dramaattisesti lähitulevaisuudessa.
Jos korpus on annotoimaton, se esitetään raakatekstimuodossa, kun taas annotoidut korpukset on varustettu erityyppisellä lingvistisellä informaatiolla. Ei suinkaan ole yllätys, että korpuksen käyttömahdollisuudet kasvavat heti kun se on varustettu koodeilla, minkä jälkeen korpus ei enää ole vain implisiittistä lingvististä informaatiota sisältävä tekstikokoelma vaan todellinen lingvistinen aarreaitta. Implisiittisestä tiedosta on tullut eksplisiittistä annotaation kautta.
Esimerksi sana "gives" sisältää implisiittisesti tiedon sanaluokasta eli "preesensissä oleva yksikön kolmannen persoonan verbi", mutta normaalissa lukemisessa tämä tieto saadaan aivoissamme olevasta englannin kielioppia koskevasta tiedostamme. Annotoidussa korpuksessa taas muoto "gives" voi esiintyä muodossa "gives_VVZ", jossa koodi VVZ ilmaisee, että kyseessä on yksikön kolmannen persoonan preesensmuoto leksikaalisesta verbistä (VV). Tällainen koodaus tekee korpuksen sisältämän tiedon hakemisen ja analysoinnin nopeammaksi ja helpommaksi.
Lingvistisen annotaation erästä muotoa, joka tarkoittaa erityisten koodien liittämistä sanoihin osoittamaan tiettyä piirrettä, kutsutaan usein nimellä "tagging", ja tällaisia koodeja nimellä "tag". Näitä termejä käytetään seuraavissa jaksoissa.
Tämä on korpuksen lingvistisen annotaation perusmuoto - tavoitteena on antaa jokaiselle leksikaaliselle yksikölle tekstissä koodi, joka ilmaisee sen sanaluokan. Sanaluokkien koodaaminen on hyödyllistä, sillä se tehostaa korpuksesta tehtyjen hakujen tarkkuutta ja muodostaa muiden analyysimuotojen (kuten syntaktisen jäsentämisen (parsing) ja semattisten kenttien annotaation) perustan. Sanaluokkien koodaaminen auttaa meitä myös erottamaan samalla tavalla kirjoitetut sanat (homografit) toisistaan.
Sanaluokkien koodaaminen oli yksi varhaisimmista korpusten annotaation muodoista ja nykyisin myös yleisin. Eräs syy tähän on se, että se voidaan tehdä hyvinkin tarkasti tietokoneella. Greene ja Rubin (1971) pääsivät 71%:n tarkkuuteen käyttämällään sanaluokkien tagging-ohjelmalla (TAGGIT). 1980-luvun alussa Lancasterin yliopiston UCREL-ryhmä ilmoitti onnistumisasteekseen 95% ohjelmallaan CLAWS.
Puhutun kielen korpukset voidaan transkriboida foneettisesti. Kirjoittamishelkellä ei ollut olemassa montaakaan vapaasti saatavilla olevaa foneettisesti transkriboitua korpusta. Tämä johtuu oletettavasti siitä, että foneettinen transkribointi on sellainen annotaation muoto, jonka tekemiseen tarvitaan ihmistä tietokoneen asemasta. Tällaisten koodaajien täytyy olla taitavia havaitsemaan ja transkriboimaan puhuttua kieltä. Foneettinen transkriboiti vie tästä syystä paljon aikaa.
Toinen foneettisen transkriboinnin ongelma tulee oletuksesta, että puhesignaali on mahdollista jakaa yksittäisiin, selvästi toisistaan erottuviin "äänteisiin", kun todellisuudessa näillä "äänteillä" ei ole selviä rajoja, ja siksi foneettiseen transkriptiin merkitty "sama" äänne voi olla erilainen kontekstista riippuen.
Näistä ongelmista huolimatta foneettisesti transkriboitu korpus voi olla erittäin käyttökelpoinen kielitieteilijälle, jolla ei ole käytettävissään puhutun kielen analyysiin tarvittavaa laboratorioteknologiaa tai asiantuntemusta. Eräs esimerkki tällaisesta korpuksesta on MARSEC -korpus (joka perustuu Lancaster/IBM Spoken English -korpukseen) ja joka on muokattu Lancasterin ja Leedsin yliopistoissa. MARSEC -korpukseen tulee sisältymään foneettinen transkripti.
Ongelmakeskeinen tagging (kuten de Haan (1984) sen kuvaa) tarkoittaa sitä, että käyttäjät valitsevat korpuksen, joka on joko annotoitu tai annotoimaton, ja lisäävät siihen oman koodauksensa, joka palvelee tiettyjä, heidän oman tutkimuksensa päämääriä. Tämä eroaa kahdessa mielessä niistä annotaatiotyypeistä, joita olemme edellä käsitelleet.
Vaikka onkin vaikeaa tehdä muita yleistyksiä tästä annotaation muodosta, se kuitenkin kannattaa pitää mielessä kun suunnitellaan korpuksiin perustuvaa käytännön tutkimusta.
Tässä osassa tarkastelemme muutamia korpusten käyttötapoja kielentutkimuksessa. Korpusten merkitys kielentutkimukselle on yhteydessä empiirisen aineiston tärkeyteen. Empiriinen aineisto mahdollistaa sen, että kielentutkija voi esittää objektiivisia väitteitä subjektiivisten tai yksilön sisäisiin kognitiivisiin havaintoihin perustuvien väitteiden sijasta. Empiirisen aineiston avulla voimme myös tutkia erilaisia kielen variantteja kuten murteita tai sellaisen kielen kehitysvaiheita, jonka kohdalla rationalistinen lähestymistapa ei ole mahdollinen.
On tärkeää pitää mielessä, että vaikka monet lingvistit voivat termillä "korpus" viitata mihin tahansa tekstien kokoelmaan, me käytämme sitä tarkoittamaan tekstikokonaisuutta, joka on otostettu huolellisesti edustamaan mahdollisimman kattavasti tiettyä kieltä tai kielen varianttia. Varsinainen korpuslingvistiikka tulee nähdä osana empiiristä lähestymistapaa kielentutkimukseen. Vaikka korpuslingvistiikka edellyttää empiriistä tutkimusotetta, empiriinen lingvistiikka ei välttämättä edellytä korpuksen käyttämistä.
Seuraavassa käsittelemme niitä rooleja, joita korpusten käytöllä saattaisi olla kieleen kohdistuvan tutkimuksen eri alueilla. Keskitymme tarkastelemaan kahta asiaa: miksi korpusaineisto on tärkeää näillä alueilla ja miten korpukset voivat edistää tiedon lisääntymistä käsittelemillämme alueilla. Lisäksi esitämme käytännön esimerkkejä korpusten käytöstä.
Leksikografiassa käytettiin hyväksi empiiristä aineistoa jo kauan ennen kuin korpuslingvistiikka tieteenalana oli keksitty. Esimerkiksi Samuel Johnson otti kirjallisuudesta esimerkkejä sanakirjaansa ja 1800-luvun Oxford Dictionaryssa esitettiin lainauksia esimerkkeinä kielenkäytöstä. Korpukset ovat kuitenkin muuttaneet tavan, jolla kielentutkijat tarkastelevat kieltä.
Lingvisti, jolla on käytettävissään korpus tai muu (ei-edustava) kokoelma koneellisesti luettavissa olevia tekstejä, voi tulostaa esimerkkejä tietystä sanasta tai fraasista muutamassa sekunnissa miljoonien sanojen korpuksesta. Sanakirjoja voidaan tuottaa ja uudistaa paljon nopeammin kuin ennen, jolloin käytettävissä on ajantasaista tietoa kielestä. Myöskin määritelmät voivat olla täydellisempiä ja tarkempia, koska on mahdollista tutkia suurempaa määrää esimerkkejä todellisesta kielenkäytöstä.
Korpuksesta poimitut esimerkit voidaan helposti organisoida mielekkäisiin ryhmiin analyysia varten. Esimerkiksi järjestämällä sanan oikealla puolella oleva konteksti aakkosjärjestykseen voidaan saada esille kaikki tietyn sanan kollokaatiot. Tämän lisäksi, koska korpusaineisto sisältää suuren määrän tekstuaalista informaatiota - alueellinen variantti, kirjoittaja, ajoitus, kirjallisuudenlaji, sanaluokka jne. - on entistä helpompaa yhdistää tietty sana tai fraasi tiettyyn alueelliseen varianttiin, kirjallisuudenlajiin ja niin edespäin.
Mahdollisuus saada esiin yksittäisten sanojen sijasta sanayhdistelmiä sekä käyttää erilaisia työkaluja osoittamaan yhdessä esiintyvien sanojen välisiä suhteita (katso kohta 3) tarkoittaa sitä, että voimme käsitellä fraaseja ja kollokaatioita aikaisempaa systemaattisemmin. Fraseologinen yksikkö saattaa olla tekninen termi tai idiomi ja kollokaatiot antavat tärkeitä vihjeitä sanojen täsmällisestä merkityksestä.
Leksikaalisten tutkimusten ohella kielioppia (tai syntaksia) koskevissa tutkimuksissa on käytetty korpuksia runsaasti hyväksi. Korpukset ovat hyödyllinen väline syntaktisessa tutkimuksessa koska:
Monet pienimuotoisemmat kieliopilliset korpustutkimukset ovat sisältäneet kvantitatiivisen aineiston analyysia (esimerkiksi Schmiedin 1993 tutkimus relatiivilauseista). Nykyisin on entistä suurempaa kiinnostusta kieliopillisten frekvenssien systemaattisempaan tutkimukseen - esimerkiksi Oostdijk ja de Haan (1994a) aikovat analysoida englannin erilaisten lausetyyppien esiintymistiheyttä.
1950-luvulta lähtien teoreettispohjainen/empiiris-deskriptiivinen jako lingvistiikassa (katso osa 1) on usein tarkoittanut sitä, että näitä kahta lähestymistapaa on pidetty erillisinä ja toistensa kilpailijoina. On kuitenkin olemassa joukko kielitieteilijöitä, jotka ovat käyttäneet korpuksia kielioppiteorioiden testaamiseen pikemminkin kuin niiden pelkkään kuvaamiseen tai induktiiviseen teorianmuodostukseen.
Esimerkiksi Nijmegenin yliopistossa puhtaasti rationalistisia formaaleja kielioppeja on testattu tietokonekorpusten todellisesta elämästä otetulla aineistolla (Aarts 1991). Formaali kielioppi luodaan ensin käyttämällä hyväksi introspektiota ja kielen jo olemassaolevia kielioppeja. Tämän jälkeen kielioppi ladataan tietokoneen parseriin (katso Moduuli 3.5) ja testataan korpusaineistolla, jotta nähtäisiin kuinka kattavasti se selittää tämän aineiston. Kielioppi modifioidaan sitten kattamaan myös ne analyysit, joista se ei suoriutunut tai joissa oli virheitä.
Vaikka sosiolingvistiikka on empiirinen tutkimusala, se on tähän asti pääasiassa perustunut sellaiseen tutkimusaineistoon, jota ei ole tarkoitettu kvantitatiivisesti tutkittavaksi ja otoksia ei siitä syystä ole tehty eksaktisti. Joskus aineisto on myös hankittu keinotekoisissa eikä luonnollisissa tilanteissa. Korpus voi tarjota tutkimusmateriaalia, jota tällainen aineisto ei tarjoa - edustavan otoksen autenttista aineistoa, joka voidaan kvantifioida. Vaikka korpuksia ei ole vielä laajasti hyödynnetty sosiolingvistiikassa, näyttää siltä, että se on kasvava alue.
Tällä alueella suurin osa tutkimuksista liittyy sanastotutkimuksiin, joita on tehty kielen ja sukupuolen yhteyksien selvittämisessä. Esimerkiksi Kjellmer (1986) käytti Brownin ja LOB korpuksia tutkiessaan amerikan- ja brittienglannin maskuliinista vinoumaa. Hän tarkasteli maskuliini- ja feminiinisukuisia pronomineja sekä sanojen man/men ja woman/women esiintymistä. Kuten olettaa saattaa, naiseen viittaavien sanojen esiintymistiheys oli paljon matalampi kummassakin korpuksessa. On kuitenkin kiinnostavaa, että naisiin viittaavat sanat olivat yleisempiä brittienglannissa kuin amerikanenglannissa. Korpus ei tukenut Kjellmerin toista oletusta - että naiset olisivat vähemmän "aktiivisia" eli esiintyisivät useammin verbin objektina kuin subjektina. Objekti/subjekti -suhde oli samankaltainen miehillä ja naisilla.
Holmes (1994) tekee kaksi tärkeää huomiota tällaisten tutkimusten metodologiasta ja ne kannattaa pitää mielessä. Ensinnäkin, kun esiintymiä luokitellaan ja lasketaan, leksikaalisen yksikön konteksti tulisi ottaa huomioon. Esimerkiksi vaikka sanalle policeman/policewoman on olemassa neutraali vastine, nimittäin police officer, tällaista vastinetta ei ole feminiinimuodolle -ess ilmauksessa Duchess of York. Viimeksi mainittu muoto pitäisi siksi jättää huomiotta laskettaessa "seksistisiä" suffikseja kun tarkastellaan sukupuolista vinoumaa kirjoitetuissa teksteissä. Toiseksi Holmes mainitsee vaikeudet muodon luokittelussa silloin kun se on aktiivisen semanttisen muutoksen alainen. Hänen mukaansa sana man voi viitata sekä yksittäiseen mieheen (kuten esimerkiksi A 35 year old man was killed) tai sillä voi olla geneerinen merkitys, joka viittaa ihmiseen (kuten Man has engaged in warfare for centuries). Sellaisista fraaseista, kuten we need the right man for the job, on vaikea päätellä onko kyse miehestä vai voisiko sanan man korvata sanalla person. Tällaisten yksinkertaisten asioiden tulisi innostaa kriittisempään otteeseen aineiston luokittelussa korpusta hyödyntävissä sosiolingvistissä tutkimuksissa, käsittelivätpä ne sitten sukupuolta ja kieltä tai jotain muuta aluetta.
Tässä osassa olemme nähneet kuinka kielentutkimus on hyötynyt korpusaineiston käytöstä. yhteenvetona voimme todeta, että korpusten pääasialliset edut ovat:
Abercrombie D. (1963) Studies in phonetics and linguistics, London: Oxford University Press.
Beale A. (1987) "Towards a distributional lexicon". In Garside R., Leech G. & Sampson G. (eds.) The computational analysis of English: a corpus based approach. London: Longman.
Bloom L. (1970) Language development: form and function in emerging grammars, Cambridge, MA: MIT Press.
Boas F. (1940) Race, language and culture, New York; Macmillan.
Bongers H. (1947) The history and principles of vocabulary control, Worden: Wocopi.
Brown R. (1973) A first language: the early stages, Cambridge, MA: Harvard University Press.
Chomsky N. (1964) "Formal Discussion". In Bellugi U. & Brown R. (eds.) The acquisition of language. Monographs of the Society for Research in Child Development 29: 37-39.
Chomsky N. (1965) Aspects of the theory of syntax, Cambridge, MA: MIT Press.
Chomsky N. (1968) Language and mind, New York: Harcourt Brace.
De Haan P. (1984) "Problem-oriented tagging of English corpus data". In Aarts J. & Meijs W. (eds.) Corpus linguistics, Amsterdam: Rodopi.
Fries C. & Traver A. (1940) English word lists: a study of their adaptability and instruction, Washington, DC: American Council of Education.
Greene B. & Rubin G. (1971) Automatic grammatical tagging of English. Technical Report, Department of Linguistics, Brown University, RI.
Halliday M. & Hasan R. (1976) Cohesion in English, London: Longman.
Harris Z. (1951) Methods in structural linguistics, Chicago: University of Chicago Press.
Hockett C. (1948) "A note on structure", International Journal of American Linguistics 14: 269-71.
Ingram D. (1978) "Sensori-motor development and language acquisition". In Lock A (ed.) Action, gesture and symbol: the emergence of language, London: Academic Press.
Ingram D. (1989) First language acquisition, Cambridge University Press, Cambridge.
Johansson S. (1991) "Times change and so do corpora". In Aijmer & Altenburg (eds.) English corpus linguistics: studies in honour of Jan Svartvik, London: Longman.
Kading J. (1879) Häufigkeitswörterbuch der deutschen Sprache, Steglitz: privately published.
Karlsson F., Voutilainen A., Heikkilä J. & Anttila A. (eds.) (1995) Constraint grammar: a language-independent system for parsing unrestricted text, Berlin: Mouton de Gruyter.
Kennedy G. (1992) "Preferred ways of putting things". In Svartvik J. (ed) Directions in corpus linguistics, Berlin: Mouton de Gruyter.
Labov V. (1969) "The logic of non-standard English", Georgetown Monographs on Language and Linguistics 22.
Leech G. (1991) "The state of the art in corpus linguistics". In Aijmer K. & Altenberg B. (eds.) English corpus linguistics: studies in honour of Jan Svartvik, London: Longman.
Leech G. (1992) "Corpora and theories of linguistic performance". In Svartvik, J. (ed.) Directions in corpus linguistics, Berlin: Mouton de Gruyter.
Leech G. (1993) "Corpus annotation schemes", Literary and Linguistic Computing 8, 4: 275-81.
McEnery T. & Wilson A. (1996) Corpus linguistics, Edinburgh: Edinburgh University Press.
O'Connor J. & Arnold G. (1961) Intonation of colloquial English, London: Longman.
Palmer H. (1933) Second interim report on English collocations, Tokyo: Institute for Research in English Teaching.
Quirk R. (1960) "Towards a description of English usage", Transactions of the Philological Society: 40-61.
Sampson G. (1992) "Probablistic parsing". In Svartvik, J. (ed.) Directions in corpus linguistics, Berlin: Mouton de Gruyter.
Schmidt K. M. (1993) Begriffsglossar und Index zu Ulrichs von Zatzikhoven Lanzelet, Tübingen: Niemeyer.
Sedelow S & Sedelow W. (1969) "Categories and procedures for content analysis in the humanities". In Gerbner G., Holsti O. R., Krippendorff K., Paisley W.J. & Stone P. J. (eds.) The analysis of communication Ccontent, New York: John Wiley.
Souter C. (1993) "Towards a standard format for parsed corpora". In Aarts J., De Haan P. & Oostdijk N. (eds.) English language corpora: design, analysis and exploitation, Amsterdam: Rodopi.
Sperberg-McQueen C.M. & Burnard L. (1994) Guidelines for electronic text encoding and interchange (P3), Chicago and Oxford: Text Encoding Initiative.
Stenström A-B. (1984) "Discourse tags". In Aarts J. & Meijs W. (eds.) Corpus linguistics, Amsterdam: Rodopi.
Svartvik J. (1966) On voice in the English verb, The Hague: Mouton.
Svartvik J. & Quirk R. (1980) A corpus of English conversation, Lund: C.W.K. Gleerup.
Thorndike E. (1921) A teacher's wordbook, New York: Columbia Teachers College.
University Centre for Computer Corpus
Research on Language (UCREL), University of Lancaster. Many useful links and
a Web-based part-of-speech tagging service:
http://www.comp.lancs.ac.uk/computing/research/ucrel
The Electronic Text Centre, University
of Virginia. A large collection of humanities texts in 12 languages. A useful
source of corpus texts:
http://etext.lib.virginia.edu
The Corpora List Archive in Hypermail
A discussion list for people interested in corpus linguistics - a substantial
archive of messages:
http://torvald.aksis.uib.no/corpora/
The Corpus Research Group, University
of Birmingham . Many useful links, including access to an email-based part-of-speech
tagging service:
http://www.corpus.bham.ac.uk/
University of Louvain, Belgium.
A comprehensive list of publications on learner corpora:
http://www.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/publications.html
University of
Lancaster. A comprehensive website on corpus linguistics, a supplement to the
book by McEnery & Wilson (1996):
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm
Michael Barlows
corpus linguistics site. Many useful links and sources of information. Covers
a wide variety of languages:
http://www.athel.com/corpus.html
Sivut päivitetty 30. kesäkuuta 2006.
© ICT4LT Project 2000-2006. The materials contained at this website are subject to copyright. The materials may be downloaded, printed and used for non-commercial purposes in a teaching or training environment. If these materials are reproduced in any form in whole or in part the source of the materials and the authors must be acknowledged.
Takaisin suomenkielisille ICT4LT-sivuille