ICT4LT Moduuli 3.5

Kieliteknologia


Sisältö


Tavoitteet

Tämän moduulin tavoitteena on tarkastella sellaisia kieliteknologian aspekteja ja haasteita, joilla on merkitystä tietokoneavusteisen kielenopetuksen kannalta. Lyhyt johdanto kieliteknologian varhaisiin vaiheisiin, joista esimerkkinä konekääntäminen, osoittaa, että tältä alueelta saaduilla kokemuksilla on ollut ainakin jonkinlainen vaikutus tietokoneavusteisen kielenopetuksen kehitykseen. Tietokoneavusteisesta kielenopetuksesta muotoutui nopeasti monitieteellinen tutkimus-, kehitystyö- ja toimintakenttä. Muutamat tutkijat alkoivat kehittää sovelluksia, jotka käyttivät hyväksi kieliteknologiaa, ja joitakin tällaisia sovelluksia esitellään tässä moduulissa. Kieliteknologian soveltamisen etuja ja rajoituksia pohditaan jäsenninpohjaisen tietokoneavusteisen kielenopetuksen yhteydessä. Tämä lyhyt johdatus toimii perustana alustavalle hypoteesille ihmisen ja tietokoneen interaktion luonteesta jäsenninpohjaisessa tietokoneavusteisessa kielenopetuksessa.


Moduulin kirjoittajat

Piklu Gupta toimii germaanisen lingvistiikan luennoitsijana Hullin yliopistossa Englannissa. Hän opettaa saksan kieltä ja kielitiedettä perusopintotasolla sekä tieto- ja viestintäteknologiaa ja luonnollisen kielen prosessointia jatko-opiskelijoille. Hän on aiemmin opettanut saksaa yläasteella ja aikuisopiskelijoille. Hänen tutkimusintressinsä kohdistuvat leksikografiaan ja korpuslingvistiikkaan.

Mathias Schulze toimii saksan lehtorina UMIST:issa, yhdessä Manchesterin neljästä yliopistosta. Hän opettaa saksan kieltä ja kielitidettä perusopintotasolla ja luennoi tietokoneavusteisesta kielenopetuksesta jatko-opiskelijoille. Hänen keskeinen tutkimusalueensa on jäsenninpohjainen tietokoneavusteinen kielenopetus ja lingvistiikka.

Tekstin on suomentanut Helena Valtanen


1. Kieliteknologia

Osan 1 sisältö

1.1 Määritelmä

Kieliteknologia (Human Language Technologies) on uusi termi, joka kattaa laajan tutkimus- ja kehitystyöalueen alalla, jota on aikaisemmin kutsuttu nimillä Language Technologies tai Language Engineering. Tämän moduulin tavoitteena on tutustuttaa oppija eräisiin kieliteknologian valikoituihin alueisiin, nimittäin:

Luonnollisestikaan moduuli ei pysty opettamaan kaikkea mahdollista kieliteknologiasta. Tämä ei ole tarpeen eikä mahdollistakaan. (Moduulin kirjoittajat ovat eläviä todisteita tästä - molemmat aloittivat kielenopettajina ja kiinnostuivat sitten kieliteknologiasta.) Käytämme konekääntämistä ja kielen jäsentämistä sekä niiden merkitystä tietokoneavusteiselle kielenopetukselle (tärkeinä) esimerkkeinä. Muita kieliteknologian alaan kuuluvia asioita kosketellaan vain lyhyesti.

Moduulin otsikkona on Euroopan unionin komission telemaattisten sovellusten ohjelman kieliteknologiasektorin (Language Engineering Sector) uuden nimen mukaisesti Human Language Technologies.

Tämä sivusto toimii ponnahduslautana useisiin kieliteknologiaresursseihin Internetissä. Joitakin kehittyneitä kieliteknologian sovelluksia on hyödynnetty tällä sivustolla ja siihen liittyy myös moderoitu keskusteluryhmä. Sivustolla on myös runsaasti linkkejä kieliteknologiaresursseihin.

Hyödyllinen johdantojulkaisu, Language and Technology: from the Babel to the Global Village, on mahdollista imuroida Acrobat-muodossa seuraavalta Euroopan komission Multilingual Information Societyn WWW-sivulta - klikkaa kohtaa L & T Brochure seuraavalla sivulla:

http://europa.eu.int/ISPO/topics/i_multiling.html

Monikielinen CD-ROM nimeltään A world of understanding on tuotettu Euroopan komission toimesta (Information Society Directorate General):

http://europa.eu.int/comm/dgs/information_society/index_en.htm

Sen tavoitteena on esitellä kieliteknologian merkitystä toteutettaessa monikielistä informaatioyhteiskuntaa ja erityisesti luoda katsaus ja tallentaa jälkipolville Euroopan Unionin neljännen puiteohjelman (1994-98) kieliteknologiasektorin toimintaa. Linglinkistä (ks.edellä) löytyy lisätietoa asiasta.

1.2 Johdatus kieliteknologiaan

"...there is no doubt that the development of tools (technology) depends on language - it si difficult to imagine how any tool - from o chisel to a CAT scanner - could be built without communication, without language. What is less obvious is that the development and the evolution of language - its effectiveness in communicating faster, with more people, and with greater clarity - depends more and more on sophisticated tools." (Language and technology 1996:1)

Language and technology -lehti listaa seuraavat esimerkit kieliteknologiasta (kieltämättä ymmärtäen termin varsin laajasti):

Monia näistä käytetään jo hyväksi kielten opetuksessa ja oppimisessa. Nykyisin suurin osa siitä tutkimus- ja kehitystyöstä, jonka tavoitteena on tehostaa ihmisten kommunikointia toistensa kanssa (esim.sähköposti ja verkkokonferenssit) ja erilaisten laitteiden kanssa (esim. konekäääntäminen ja hakukoneiden luonnollista kieltä hyödyntävät käyttöliittymät) tehdään kieliteknologian alueella:

"The field of human language technology covers a broad range of activities with the eventual goal of enabling people to communicate with machines using natural communication skills. Research and development activities include the coding, recognition, interpretation, translation, and generation of language. ...Advances in human language tecnology offer the promise of nearly universal access tu online information and services. Since almost everyone speaks and understands a language, the development of spoken language systems will allow the average person to interact with computers without special skills or training, using common devices such as the telephone. These systems will combine spoken language understanding and generation to allow people to interact with computers using speech to obtain information on virtually any topic, to conduct business and to communicate with each other more effectively." (Cole 1996)

Tutkijoita on vuosisatojen ajan kiinnostanut ihmistenvälisen kommunikaation tukeminen ja helpottaminen mekaanisten laitteiden avulla. Kielimuurien ylittämiseen ehdotettiin tällaisia laitteita ensimmäisen kerran jo 1600-luvulla. Myöhemmin Leibnitz, Descartes ja muut (ks.Hutchins 1986:21) esittivät, että numeerisia koodeja voitaisiin käyttää välittäjinä eri kielten välillä. Nykyisen kieliteknologian alkuvaiheet liittyvät luonnollisesti tietokoneiden ilmaantumiseen. Vuonna 1948 kirjoittamassaan raportissa Turing, eräs tekoälyn isistä, joka johti toisen maailmansodan aikana koodien murtamista Colossus-koneella Bletcley Parkissa, mainitsee joukon erilaisia tapoja, joilla nämä uudet tietokoneet voisivat osoittaa älykkyytensä:

"(i) Various games, e.g.chess, noughts and crosses, bridge, poker; (ii) the learning of languages; (iii) translation of languages; (iv) cryptography; (v) mathematics. (Turing 1948)" Teoksessa Hutchins1986:26

Booth ja Weaver keksivät termin "konekääntäminen" maaliskuussa 1947, hieman sen jälkeen kun ensimmäiset tietokoneet ja tietokoneohjelmat oli tuotettu. Konekääntäminen oli jonkin aikaa varsin suosittua sekä tutkijoiden että rahoittajien parissa niin Yhdysvalloissa kuin Neuvostoliitossakin.

"From 1956 onwards, the dollars (and roubles) really started to flow. Between 1956 and 1959, no less than twelve research groups became established at various US universities and private corporations and research centres. ...The kind of optimism and euthusiasm with wich researchers tackled the task of MT [machine translation] may be illustrated best by some prophecies of Reifler, whose views may be taken as representative of those of most MT workers at that time: "...it will not be very long before the remaining linguistic problems in machine translation will be solved for a number of important languages" (Reifler 1958:518), and, "in about two years (from August 1957), we shall have a device which will at a glance read a whole page and feed what it has read into a tape recorder and thus remove all human co-operation on the input side of the translation machines" (Reifler 1958:516)." Teoksessa Buchmann 1987:14

Vaikka tälläiset ennustukset saattavat nykyisin olla kielitieteilijöiden, kielenopettajien ja tietokoneen käyttäjien mielestä naurettavia, tuona aikana esiintynyt innostus ja tehty työ muodostavat perustan kieliteknologian eri alueiden kehitykselle.


2. Muutamia kieliteknologian yleisimpiä sovelluksia

Kieliteknologiaan kohdistuva tutkimus- ja kehittämistyö johtaa nnkyisin nopeammin kaupallisiin sovelluksiin kuin ennen 1980-lukua: voitaisiin jopa sanoa, että kieliteknologia on tunkeutumassa jokapäiväiseen elämäämme. Sellaisten tunnettujen alueiden lisäksi kuten konekääntäminen (Osa 3) ja puheentunnistus (Osa 4) - joita molempia on saatavina halpoina mutta laadultaan vaihtelevina paketteina paupallisiin ja yksityisiin tarkoituksiin - muitakin odottamattomia käyttöalueita on ilmaantunut. Nykyään on esimerkiksi yleistä, että kännyköissä on ns. ennakoiva tekstin syöttö auttamassa lyhyiden viestien kirjoittamista: http://www.tegic.com. Sen sijaan, että meidän täytyy painella tiettyä numeronäppäintä monta kertaa saadaksemme käyttöön haluamamme kirjaimen, puhelimeen sisältyvä ohjelmisto vertaa käyttäjän painalluksia lingivistiseen tietokantaan päätelläkseen oikean (tai todennäköisimmän) sanan. Useimpiin Internetin hakukoneisiin liittyy myös nykyään sellaista kieliteknologiaa, jonka avustuksella käyttäjä voi tehdä hakuja luonnollista kieltä käyttäen: esimerkiksi "What is meant by log-likelihood ratio?" on yhtä hyväksyttävä haku kuin yksinkertaisesti "log-likelihood ratio".

Mitä kielenopettaja voi sitten mahdollisesti hyötyä kieliteknologian käytöstä? Antakaamme muutamia esimerkkejä: jos opettaja haluaisi korostaa joitakin kieliopillisia ilmiöitä tai rakenteita, lauseenjäsenten merkitseminen eli 'tagging' (ks. Osa 5) säästäisi häneltä tekstin manuaalisen merkkaamisen vaivan ja Internetissä olevat ja omalle tietokoneelle asennettavat jäsennysohjelmat voisivat tuottaa lauserakenteista graafisia esityksiä, jotka saattaisivat olla hyödyllisiä edistyneimpien oppijoiden kieliopin opettamisessa. Kieliteknologian sisällyttämistä tietokoneavusteisen opetuksen ohjelmiin käsittelemme yksityiskohtaisesti Osassa 6.


3. Konekääntäminen

Osan 3 sisältö

Konekääntäminen on ollut tietokonealan kehittelijöiden unelmana 1940-luvulta lähtien. Tässä jaksossa tarkastellaan lyhyesti sen historiaa. Seuraavasta verkkojulkaisusta asiasta kiinnostuneet voivat lukea erittäin hyödyllisen johdatuksen konekääntämiseen:

Arnold D., Balkan L., Meijer S., Humphreys R.L. & Sadler L. (1994) Machine Translation: an introductury guide.

http://www.essex.ac.uk/linguistics/clmt/MTBook/HTML/book.html

3.1 Konekääntäminen: lyhyt historia

Varhaiselle työlle konekääntämisen parissa oli tyypillistä sellainen lähestymistapa luonnollisen kielen kääntämisen "ongelmaan", jota me nyt pitäisimme sangen naivina. Salakielisten sanomien onnistunut purkaminen koneellisesti toisen maailmansodan aikana sai jotkut tutkijat, etenkin Warren Weaverin, pitämään kääntämistä ja koodin purkamista periaatteessa samanlaisina prosesseina. Kirjeessään Norbert Wienerille vuonna 1947, Weaver (joka toimi Rockefeller-säätiön johtajana) pohdiskeli konekääntämisen mahdollisuuksia:

"When I look at an article in Russian I say 'This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode...'"

Weawerin intoa saattoi hillitä Wienerin pessimistinen vastaus:

"I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasi-mechanical translation scheme very hopeful."

mutta hän pysyi kuitenkin kannassaan ja laati kuuluisan vuoden 1949 muistionsa, jonka hän lähetti aikansa 200 huomattavimmalle ajattelijalle. Siinä hän tarkasteli yksityiskohtaisesti konekääntämisen tarvetta ja sen toteuttamismahdollisuutta.

Konekääntämissysteemien ensimmäinen sukupolvi toimi suoran transferenssin periaatteella; toisin sanoen, reitti lähtökielestä sen kohdekieliseen käännösvastineeseen oli lyhyt ja koostui pääasiallisesti kahdesta prosessista: korvaamisesta ja järjestämisestä. Suora systeemi koostui kaksikielisestä sanakirjasta, joka sisälsi jokaiselle lähtökielen sanalle kohdekielisen, sitä korvaavan sanan tai käännösvastineen. Tällaisten systeemien rajoituksena oli, että ne olivat yksisuuntaisia eivätkä voineet sisältää useita kieliä kuten niitä alkeellisella tasolla; vaikka sanan hakemista sanakirjasta, rakenteen järjestämistä ja tekstin lopullista semanttiseen - ei ollut mahdollisuutta. Tämä johti väistämättä huonolaatuiseen tulokseen, joka osaltaan vaikutti ankaraan konekääntämiseen kohdistuneeseen kritiikkiin vuonna 1966 ilmestyneessä ALPAC:in (Automatic Language Processing Advisory Committee) raportissa, jossa todettiin konekääntämisellä olevan vain niukasti käyttöarvoa tulevaisuudessa. ALPAC:in raportin antama tuomio lopetti käytännössä konekääntämisen rahoituksen Yhdysvalloissa 1960- ja 1970-luvuilla.

Voimmekin sanoa, että sekä tekniset rajoitukset että lingvistisen perustan puuttuminen vaikeuttivat konekääntämisjärjestelmien kehittymistä. Georgetownin yliopistossa kehitetty ja ensimmäisen kerran vuonna 1954 New Yorkissa esitelty systeemi ei tehnyt selvää eroa kielellisen tiedon ja prosessointialgoritmien välillä, mikä teki sen modifioinnin hankalaksi.

ALPAC:in raporttia seuranneena aikana ilmeni lisääntyvää tarvetta sellaisen lähestymistavan löytämiseen, jossa vältettäisiin monet ensimmäisen sukupolven konekääntämisjärjestelmien virheet. Tähän mennessä mielipiteet olivat muuttuneet siihen suuntaan, että lingvistiikan kehityksen olisi vaikutettava systeemien suunnitteluun ja kehittämiseen. Voidaankin sanoa, että toisen sukupolven "epäsuorat" järjestelmät olivat paljon velkaa aikansa lingvistisille teorioille. Toisen sukupolven systeemeissä, jotka toimivat 'raa'an voiman' periaatteella eli kääntäminen tapahtuu askel askeleelta, niissä lähtötekstin analyysi ja kohdetekstin generoiminen ovat erillisiä prosesseja. Toisen sukupolven järjestelmät voidaan periaatteessa jakaa "interlingvaalisiin" systeemeihin ja "transferenssisysteemeihin". Tarkastelemme ensin interlingvaalisia systeemejä tai tarkemmin sanottuna niitä systeemejä, jotka väittävät omaksuneensa interlingvaalisen lähestymistavan.

Vaikka Warren Weaver oli esittänyt ajatuksen välittävästä "universaalista" kielestä mahdollisena reittinä konekääntämisessä kirjeessään Norbert Wienerille, kielitiede ei kyennyt tarjoamaan mitään mallia ennen 1960-lukua. Esitellessään "syvärakenteen" käsitteen Chomskyn tranformatiivis-generatiivinen kielioppi näytti tarjoavan mahdollisuuden "universaaliin" semanttiseen esittämistapaan ja siten tarjoavan mallin niin kutsutulle välikielelle (interlingua). Välikieli ei ole luonnollinen kieli vaan pikemminkin sellainen merkityksen representaatio, joka on riippumaton sekä käännöksen lähtö- että kohdekielestä.

Interlingvaalinen systeemi kartoittaa kielen pintarakenteen välikieleksi ja päin vastoin. Tällaisella lähestymistavalla systeeminsuunnitteluun on selviä etuja, joista tärkein on taloudellisuus, sillä interlingvaalista esittämistapaa voidaan soveltaa mihin kielipariin tahansa ja se mahdollistaa myös muiden kieliparien mukaan ottamisen ilman, että systeemiin on tehtävä merkittäviä lisäyksiä.

Transferenssimallissa taas välirepresentaatio on kielestä riippuvainen ja se sisältää kaksikielisen moduulin, jonka funktio on olla välittäjänä lähde- ja kohdekielisten välirepresentaatioiden välillä. Tästä syystä emme voi pitää transferenssimoduulia kielestä riippumattomana. Transferenssimoduulien luonteella on tiettujä seurannaisvaikutuksia systeemin suunnitteluun siinä mielessä, että uuden kielen lisääminen edellyttää ei ainoastaan uusia moduuleita analyysia ja synteesiä varten vaan myös transferenssimoduulien lisäämistä, joiden määrän sanelee olemassa olevaan järjestelmään sisältyvien kielten määrä ja jotka lisääntyisivät polynomisesti vaadittavien lisäkielten määrän mukaan.

Toisen sukupolven järjestelmien tärkeä edistysaskel ensimmäisen sukupolven järjestelmiin verrattuna oli algoritmien (ohjalmiston) erottaminen kielellisestä aineistosta. Sellaiset systeemit kuten Georgetownissa kehitetty sekoittivat kielen mallintamisen, kääntämisen ja sen prosessoinnin samaan tietokoneohjelmaan. Tästä johtuen ohjelma oli järkälemäinen ja virheitä syntyi helposti, kun sen puutteita yritettiin oikaista. Ohjelmiston ja kielellisen aineiston erottamista toisistaan nopeuttivat samanaikaiset edistysaskeleet sekä laskennallisissa että lingvistisissä tekniikoissa. Lingvististen formalismien ottaminen mukaan systeemien suunnitteluun ja edistyneiden ohjelmointikielten kehittyminen mahdollistivat sen, että koodaaminen voitiin suorittaa entistä ongelmalähtöisemmin. Ohjelmointikielten kehittyminen taas johti siihen, että oli entistä helpompaa koodata kääntämissäännöt mielekkäällä tavalla ja epäilemättä se myös paransi näiden sääntöjen laatua. Lingvistisen kuvauksen deklaratiivinen luonne heijastui entistä selvemmin konekääntämiseen tarkoitettujen tietokoneohjelmien suunnittelussa.

Jotkin nykyisistä konekääntämisen suuntauksista pohjautuvat vähemmän formaaleihin kielellisiin kuvauksiin kuin edellä esiteltyyn transferenssilähestymistapaan. Esimerkiksi esimerkkipohjainen konekääntäminen ei perustu kielten vertailuun vaan siinä verrataan toisiinsa tietokoneen muistiin tallennettuja käännösesimerkkejä kaksikielisen käännösparikorpuksen avulla (ks. luku 10 teoksessa Arnold et al. 1994). Vielä radikaalimpi on tilastollinen lähestymistapa (ks. Brown et al. 1993), joka edellyttää suurten kaksikielisten korpusten käyttämistä, jotka toimivat syötteenä tilastolliselle käännösmallille. Olemme siis tavallaan tehneet täyden kierroksen siinä mielessä, että Weaverin ajatukset tilastollisten tekniikoiden käyttämisestä nähdään nykyään hedelmällisenä perustana konekääntämiselle.

3.2 Kaupalliset käännösohjelmat

Markkinoilla on runsaasti halpoja kaupallisia käännöspaketteja. Vaikka tällaiset paketit voivat olla hyödyksi silloin, kun halutaan saada tekstistä irti sen keskeinen sisältö, niitä ei voida kuitenkaan pitää ihmiskääntäjän vakavana kilpailijana. Nämä paketit eivät pysty jäsentämään kieltä luotettavasti. Systran (nykyisin nimeltään Babelfish) on saatavilla Alta Vistan kautta Internetistä: http://babelfish.altavista.digital.com. Se ei ole hassumpi; sen tuottamat käännökset ovat jokseenkin ymmärrettäviä ja antavat vihiä siitä, kannattaako teksti kääntää kunnolla. Ammattimaiset kääntäjät käyttävät sellaisia paketteja kuten SDLX, jonka on kehittänyt SDL, yhtiö, joka on erikoistunut teknisten manuaalien kääntämiseen ja ohjelmistojen "lokalisointiin".

Toinen vaihtoehto ovat tallennetut fraasipankit, esimerkiksi LinguaWrite, joka on suunnattu liikeyrityksille ja sisältää suuren tietokannan, jossa on erikielisiä, toisiaan vastaavia fraaseja ja lauseita liikekirjeiden kirjoittamista varten.


4. Johdatusta puheteknologiaan

Tietokoneisiin liittyy tavallisesti yksi syöttölaite - näppäimistö - ja kaksi tulostuslaitetta - monitori ja tulostin. Kaikki kolme rajoittavat syötteen ja tulosteen kirjoitettuun kieleen. On kuitenkin olemassa yhä enemmän sellaisia laitteita ja ohjelmistoja, jotka mahdollistavat puhutun aineiston prosessoimisen. Multimediatietokoneet ovat niin tehokkaita, että käyttäjä voi liittää niiden äänikorttiin mikrofonin ja tallentaa omaa ääntään. Samalla tavalla on mahdollista liittää kasettinauhuri tietokoneeseen ja digitalisoida nauhalle äänitetty aineisto. Tällaisten äänitiedostojen tallentaminen ei enää ole hankalaa, koska kovalevyjen tallenuskapasiteetti on lisääntynyt (ja hinta laskenut) ja tarjolla on entistä parempia algoritmeja tällaisen aineiston kompressointiin (pakkaamiseen).

On ehkä vieläkin kiinnostavampaa, että tarjolla on tietokoneohjelmia puhutun aineiston prosessoimiseen. Tällainen aineisto voidaan analysoida monien eri parametrien mukaan ja analyysit esittää joko graafisesti tai numeerisesti. Tällaisesta graafisesta esityksestä ei tietenkään ole suoranaista hyötyä asiaan perehtymättömälle henkilölle, emmekä suinkaan väitä, että siitä olisi sellaisenaan hyötyä kielenoppijallekaan. Toisaalta spesialistit pystyvät helposti tulkitsemaan tällaista puheanalyysiaineistoa; katso http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html, jossa esitellään erilaisten analyysien yksityiskohtia ja annetaan joitakin selityksiä.

Puheen analyyseistä saatu tieto on osoittautunut hyvin arvokkaaksi puheentunnistuksessa ja puheen syntetisoinnissa. Puheentunnistuksessa puhuttu syöte muutetaan kirjoitettuun muotoon; puheen syntetisointi tarkoittaa tekstin muuttamista puhutuksi. Viimeksi mainitun kaltaista ohjelmistoa kutsutaan tavallisesti nimellä 'text-to-speech software' eli TTS.

Tällä hetkellä puheen tuottamisessa tietokoneella ollaan paljon pidemmällä kuin sen tunnistamisessa. Koneellisesti tuotetun puheen ääntämyksen taso ja luonnollisuus on todella vaikuttavaa. Jopa ilmaiseksi jaetuilla ohjelmilla saavutetaan hämmästyttäviä tuloksia; katso esimerkiksi Winspeech osoitteessa http://www.pcww.com. Puheen syntetisointi on tietysti monimutkaisempaa kuin kirjainten ja äänteiden yhdistämistä toisiinsa, koska useinkaan niiden välillä ei ole yhden suhde yhteen -vastaavuutta. Luonnollista puhetta tuotettaessa täytyy ottaa myös huomioon lausetyypin intonaatio eli tietyn ilmaisun rytmi. Bell-laboratorion sivuilla esitetyt esimerkit osoittavat, millaisia erityisvaikeuksia akronyymit ja lukusanat tuottavat. Tässä yhteydessä puheen syntetisointi voidaan tehdä suoraan osoitteessa http://www.bell-labs.com. Kuten esimerkeistä havaitaan, puheen tuottaminen tietokoneella on saavuttanut sellaisen tason ja luotettavuuden, että se on mahdollista integroida kielenoppimisprosessiin. Tällainen teknologia voitaisiin liittää mihin tahansa eri kielillä kirjoitettuun syötteeseen, esimerkiksi online sanakirjan sanojen automaattiseen ääntämiseen, tekstin ääneen lukemiseen, jne.

Puheen tunnistaminen - prosessi, jossa mikrofonin tai puhelimen kautta tullut akustinen signaali muunnetaan sanoiksi - ei ole vielä saavuttanut yhtä korkeaa tasoa.

"The accuracy of past generations of speech recognition software topped out at a little more than 90 percent (nearly one error every ten words), making them questionable as productivity-enhancing tools. The good news about the latest speech software is that most of the products provide recognition accuracy above 95 percent and help you get more done in less time — as long as you have sufficient PC speed, an adequate sound card and microphone, and the ability to speak clearly at all times."(Alwang 1999)

Puheentunnistus näyttää olevan paljon mutkikkaampaa kuin sen tuottaminen tietokoneella. Tällainen teknologia nojaa vahvasti aiemmin mainittuun puheen analysointiin. Kun pitää mielessä, että jokaiseen analysoitavista parametreista saattaa vaikuttaa puhujasta riippumaton taustahäly tai tämän tietyn puhujan idiosynkraattinen ääntämys, käy selvästi ilmi, miten vaikea puheentunnistusohjelman on tulkita analyysiaineistoa. Ongelmia lisää edelleen se seikka, että sanoja ei normaalisti tuoteta yksittäisinä vaan tavallisesti jatkuvana puhevirtana, jossa yhden sanan ääntämys saattaa vaikuttaa seuraavan sanan äänneasuun ja jossa intonaatiolla ja rytmillä on vaikutuksensa siihen, miten yksittäinen sana ääntyy. Markkinoilla on kuitenkin ollut jo jonkin aikaa joitakin kaupallisia ohjelmistoja, jotka hyödyntävät tätä uutta teknologiaa. DynEd, eräs tällaisten kielenoppimisohjelmien tuottaja, esittää seuraavaa puheentunnistuksen käytöstä opetusohjelmissa:

"Speech recognition technology has finally come of age - at least for language training purposes for young adults and adults. Computer programs that truly "understand" natural speech, the Holy Grail of artificial intelligence researchers, may be a decade or more away, and today's SR programs may be merely pattern matching devices, still incapable of parsing real language, of achieving anything like "understanding," but, nonetheless, they can now provide language students with realistic, highly effective, and motivating speech practice.

(...)

The essence of real language is not in discrete single words - language students need to practice complete phrases and sentences in realistic contexts. Moreover, programs which were trained to accept a speaker's individual pronunciation quirk were not ideally suited to helping students move toward more standard pronunciation. These technologies also failed if the speaker's voice changed due to common colds, laryngitis and other throat ailments, rendering them useless until the speaker recovered or retrained the speech engine.

The solution to these problems came with the development of continuous speech recognition engines that were speaker independant. These programs are able to deal with complete sentences spoken at a natural pace, not just isolated words. They require no special hardware, are small enough and fast enough to work on normal PC's, and importantly for the typical language training environment, do not require a training period - they allow a variety of individual language learners working on the same computer to practice speaking English from the first moment they talk into the microphone.

(...)

Such flexibility with regard to pronunciation paradigms means that today's speaker-independent SR programs are not ideal for direct pronunciation practice. Nonetheless, exercises which focus on fluency and word order, and with native speaker models which are heard immediately after a student's utterance had been successfully recognized, have been shown to indirectly result in much improved pronunciation. Another trade off is that the greater flexibility and leniency which allows these programs to "recognize" sentences spoken by students with a wide variety of accents, also limits the accuracy of programs, especially for similar sounding words and phrases. Some errors may be accepted as correct.

Native speakers testing the "understanding" of programs "tuned" to the needs of non-native speakers may be bothered by this, but most teachers, after careful consideration of the different needs and psychologies of native speakers and learners, will accept the trade off. Students do not expect to be undestood every time. If they are required occasionally to repeat a sentence which the program has not recognized or which the program has misinterpreted, there may be some small frustration, but language stydents are much more likely to take this in their stride than would native speakers. On the other hand, if the program does "understand" such students, however imperfect their pronunciation, they typically expirience a huge sense of satisfaction, a feel good factor native speakers simply cannot enjoy to anywhere near the same degree.

The worst thing for a student is a program that is too demanding of perfection - such programs will quickly lead to student frustration or the kind of embarrassed, hesitant unwillingness to speak English typical of many classrooms. Even if we accept that accuracy needs to be responsive to proficiency in order to encourage students to speak, we must, as teachers, be concerned that errors do not become reinforced. (http://www.dyned.com/dyned/eng/sr.htm)

_____________________________________________________________________________________________________________________________________

5. Jäsennys (parsing) ja tekstin merkkaus (tagging)

Osan 5 sisältö

5.1 Jäsennyksen perusteet

Tässä jaksossa tarkastelemme lauseenjäsennyksen perusasioita kuvaamalla aluksi jäsennyssysteemin komponentit ja sitten esittelemällä erityyppisiä jäsenninohjelmia. Katsomme myös erästä kielellistä ilmiötä, joka aiheuttaa hankaluuksia jäsennyksessä ja lopuksi tutkailemme mahdollisia ratkaisuja niihin ongelmiin, joita jäsennys nostaa esiin.

Yksinkertaistaen ilmaistuna jäsennin (parser) on tietokoneohjelma, joka jäsentää sanajonoja rakenteiksi. Jäsentimen tarvitsemat peruskomponentit ovat sanakirja, joka sisältää jäsennettävän tekstin sanat, ja kielioppi, joka sisältää ne säännöt, jotka määrittelevät kieliopilliset rakenteet. Ensimmäiset jäsentimet kehitettiin ohjelmointikielten analysoimista varten, jotka keinotekoisina ja säännönmukaisina kielinä eivät luonnollisestikaan aiheuta samanlaisia ongelmia kuin luonnolliset kielet.

Jäsennystä kannattaa ajatella hakuongelmana, joka on ratkaistava. Se voidaan ratkaista algoritmin avulla, jonka voimme määritellä "muodolliseksi proseduuriksi, joka tuottaa aina oikean tai optimaalisen tuloksen. Algoritmi soveltaa askel-askeleelta -proseduuria, joka takaa tietyn tuloksen tai ratkaisee tietyn ongelman. Algoritmi suorittaa laskutoimituksen rajallisessa ajassa. Ohjelmoijat määrittelevät sen algoritmin, jota ohjelma noudattaa, laatiessaan tavallisen tietokoneohjelman" (Smith 1990). Jäsennysalgoritmit määrittelevät sen proseduurin, joka etsii sellaista kieliopillisten sääntöjen optimaalista yhdistelmää, joka generoi puurakenteen syötetylle lauseelle. Miten sitten voimme määritellä nämä kieliopilliset säännöt niin suppealla tavalla, että ne soveltuvat tietokoneen prosessointiin? Hyödyllinen konstrukti tähän tarkoitukseen on ns. kontekstivapaa kielioppi (context-free grammar, CFG). Tällainen kielioppi koostuu säännöistä, joissa on yksi ainoa symboli vasemmalla puolella ja yksi tai useampi oikealla puolella. Esimerkiksi lausuma, että lause voi koostua substantiivilausekkeesta (noun phrase) ja verbilausekkeesta (verb phrase) voidaan ilmaista seuraavalla uudelleenkirjoitussäännöllä:

S ® NP VP

Tämä tarkoittaa, että lause S voidaan 'uudelleenkirjoittaa' muotoon substantiivilauseke NP, jota seuraa verbilauseke VP, jotka vuorostaan määritellään kieliopissa. Substantiivilauseke voi esimerkiksi koostua määreestä DET ja substantiivista N. Nämä symbolit ovat nonterminaalisia ja niiden edustamat sanat taas ovat terminaalisia symboleja.

Jäsennysalgoritmit voivat toimia ylhäältä alaspäin tai alhaalta ylöspäin. Joissakin tapauksissa nämä kahdentyyppiset algoritmit voidaan yhdistää. Seuraavassa tarkastellaan lyhyesti näitä kahta jäsennysstrategiaa.

5.1.1 Ylhäältä alas (syvyyssuunta ensin)

Ylhäältä-alas -strategia aloittaa nonterminaalisista symboleista:

S ® NP VP

ja sitten hajoittaa ne rakenneosiin. Strategia olettaa, että meillä on S ja toimii sen mukaisesti. Kun teemme haun syvyyssuunnassa, aloitamme puun yhdeltä puolelta kerrallaan. Haku loppuu onnistuneesti silloin kun lause onnistutaan hajoittamaan kaikkiin terminaalisiin symboleihin (sanoihin).

5.1.2 Alhaalta ylös (leveyssuunta ensin)

Alhaalta-ylös -strategia tarkastelee S:n elementtejä ja luokittelee ne laajemmiksi konstituenteiksi kunnes päästään S:ään. Silloin kuin teemme haun syvyyssuunnassa, käymme järjestyksessä lävitse jokaisen kerroksen ja lopetamme kun olemme konsruoineet lauseen.

Tarkastelkaamme nyt erästä lingvististä ilmiötä, joka aiheuttaa ongelmia jäsennyksessä - niin kutsuttua elementtien liittymisen moniselitteisyyttä. Katsokaamme seuraavaa lausetta:

The man saw the man in the park with a telescope.

Lauseella on selvästikin useita tulkintamahdollisuuksia: kaukoputki voi esimerkiksi olla se väline, jonka avulla toinen mies nähdään tai 'in the park with a telescope' saattaa olla puiston määritelmä, ts. sellainen puisto, jossa on kaukoputki. Jäsennyksen tulos voidaan esittää suluilla olevana listana tai, tavallisimmin, puurakenteena. Seuraavassa on kaksi mahdollista jäsennystä edellä esitetylle lauseelle:

Kuvio 1: Jäsennyspuuversio 1.0

Kuvio 2: Jäsennyspuuversio 2.0

Eräs tapa selviytyä monitulkintaisten lauseiden tuottamista ongelmista on keskittyä jäsennyksen kohteena olevan lauseen tiettyihin elementteihin ja jättää moniselitteisyys kokonaan huomiotta. Ideaalitapauksessa oletamme jäsentimen pystyvän analysoimaan lauseen sen kieliopillisen rakenteen perusteella, mutta usein ongelmia saattavat aiheuttaa tekstissä olevat virheet tai kieliopin ja sanaston epätäydellisyys. Myös lauseiden pituus ja kielioppien monitulkintaisuus tekevät usein rajoittamattoman tekstin jäsentämisen vaikeaksi. Joitain ongelmia voidaan ratkaista osittaisen tai pinnallisen jäsennyksen avulla. Abney (1997:125) kuvaa tällaista jäsennystapaa seuraavasti: Osittaiset jäsennystekniikat pyrkivät saamaan rajoittamattomasta tekstistä esille informaation tehokkaasti ja luotettavasti uhraamalla analyysiin täydellisyyden ja syvyyden.

Osittaiset jäsentimet keskittyvät sellaisiin lauserakenteen osiin, jotka eivät vaadi suurta määrää informaatiota (kuten esimerkiksi leksikaalista assosiaatioinformaatiota) ja esimerkiksi fraasien liittyminen toisiinsa jää selvittämättä. Tällä tavoin jäsennyksen tehokkuutta voidaan huomattavasti parantaa. Toinen kielen analyysiin käytetty menetelmä on lauseenjäsenten merkkaaminen (tagging), jossa emme pyrikään löytämään sellaisia laajempia rakenteita kuten substantiivilausekkeita vaan sen sijaan merkitsemään lauseen jokaiselle sanalle sanaluokka. Saadaksesi jonkinlaisen käsityksen siitä, millaiselta merkkauksen lopputulos näyttää, tämän sivun englanninkielisen version yksi kappale on analysoitu Stuttgartin yliopistossa kehitetyllä merkkausohjelmalla: http://www.ims.uni-stuttgart.de/projekte/corplex/DecisionTreeTagger.html. Tässä on alkuperäinen kappale dokumentin osasta 3:

In a transfer model the intermediate representation is language dependent, there being a bilingual module whose function it si to interpose between source language and target language intermediate representations. Thus we cannot say that the transfer module is language independent. The nature of these transfer modules has obvious ramifications for system design in that addition of another language to a system necessitates not only modules for analysis and synthesis but also additional transfer modules, whose number is dictated by the number of languages in the existing system and which would increase polynomially according to the number of additional languages required.

Seuraava taulukko esittelee sanaluokkien merkitsemisen lopputuloksen ja siitä voimme havaita, että useimmat sanat on tunnistettu oikein.

Kuvio 1: Sanaluokkien merkkauksen tulos

IN IN in
a DT a
transfer NN transfer
model NN model
the DT the
intermediate JJ intermediate
representation NN representation
is VBZ be
language NN language
dependent JJ dependent
, , ,
there RB there
being VBG be
a DT a
bilingual JJ bilingual
module NN module
whose WP$ whose
function NN function
it PP it
is VBZ be
to TO to
interpose VB interpose
between IN between
source NN source
language NN language
and CC and
target NN target
language NN language
intermediate JJ intermediate
representations NNS representation
. SENT

.

Thus RB thus
we PP we
cannot VBP can
say VB say
that IN that
the DT the
transfer NN transfer
module NN module
is VBZ be
language NN language
independent JJ independent
. SENT .
The DT the
nature NN nature
of IN of
these DT these
transfer NN transfer
modules NNS module
has VBZ have
obvious JJ obvious
ramifications NNS ramifications
for IN for
system NN system
design NN design
in IN in
that DT that
addition NN addition
of IN of
another DT another
language NN language
to TO to
a DT a
system NN system
necessitates VBZ necessitate
not RB not
only JJ only
modules NNS module
for IN for
analysis NN analysis
and CC and
synthesis NN synthesis
but CC but
also RB also
additional JJ additional
transfer NN transfer
modules NNS module
, , ,
whose WP$ whose
number NN number
is VBZ be
dictated VBN dictate
by IN by
the DT the
number NN number
of IN of
languages NNS language
in IN in
the DT the
existing JJ existing
system NN system
and CC and
which WDT which
would MD would
increase VB increase
polynomially RB <unknown>
according VBG accord
to TO to
the DT the
number NN number
of IN of
additional JJ additional
languages NNS language
required VBN require
. SENT .

 

Kuten osittaisen jäsennyksenkin kohdalla, tarkoituksena ei ole selvittää, miten sanat liittyvät toisiinsa, ja koska tehtävä on rajallinen, siinä on onnistuttu melkoisen hyvin. Merkkauksesta saatu tieto voi sekin toimia syötteenä osittaiselle jäsennykselle tai sitä voidaan käyttää tehostamaan tavallisten jäsentimien suorituskykyä. Joissain tapauksissa päätös siitä, mikä sanaluokka on kyseessä, perustuu kahden tai kolmen sanan sekvenssien esiintymiin, silloinkin kun sanat voidaan sijoittaa useampaan kuin yhteen sanaluokkaan. Esimerkissämme esiintyy esimerkiksi sekvenssi 'the transfer module' - transfer voi luonnollisesti olla myös verbi, mutta todennäköisyys sille, että determinanttia (the) seuraisi verbi on pienempi kuin se, että sitä seuraa substantiivisekvenssi.

Lisätietoa asiasta löytyy Manningin & Schützen (1999) teoksen luvusta 10.

5.1.3 Virheellisen syötteen jäsentäminen

Tietokoneavusteisessa opetuksessa olemme luonnollisesti tekemisissä sellaisten tekstien kanssa, joita ovat tuottaneet eri taito- ja tarkkuustasolla olevat kielenoppijat. Siksi onkin kohtuullista olettaa, että jäsentimen täytyy kyetä selviytymään syötteessä olevista kielellisistä virheistä. Voisimmekin siksi täydentää virheettömiä lauseita sisältävän kielioppimme virheellisten lauseiden kieliopilla - virhekieliopilla, ts. kokoamme yksilölliset ja/tai tyypilliset virheet erilliseksi säännöstöksi. Tällaisen virhekieliopin etuna on, että palaute voi olla hyvin täsmällistä ja tavallisesti myös melko luotettavaa, koska se liittyy hyvin spesifiin sääntöön. Haittapuolena on kuitenkin se, että oppijoiden yksilölliset virheet on ennakoitava, koska jokainen niistä tarvitsee vastaavan säännön.

Kuitenkin, kuten jo edellä mainitsimme, eivät ainoastaan oppijoiden tuottamat tekstit sisällä virheellisyyksiä. Konekääntämisessä on samankaltaisia ongelmia. Dina & Maldati ovat tarkastelleet niitä lähestymistapoja, jotka "koskevat sellaisten kielioppien suunnittelua ja implementointia, jotka pystyvät käsittelemään 'autenttista syötettä' (Dina & Maldati 1993:75). He luettelevat neljä lähestymistapaa:

  1. Sääntöpohjainen lähestymistapa perustuu kahteen säännöstöön: toinen kieliopillista ja toinen epäkieliopillista syötettä varten. Dina & Malnati huomauttavat aivan oikein, että normaalitapauksessa oikeellisuusehtojen pitäisi riittää ja toinen säännöstö johtaa lingvistiseen redundanssiin. Ongelmana tämän lähestymistavan omaksumisessa jäsenninpohjaiseen tietokoneavusteiseen kielenopetukseen on se, että meidän on kyettävä ennakoimaan oppijoiden mahdollisesti tekemät virheet.
  2. Metasääntöihin perustuva lähestymistapa käyttää hyväksi oikeellisuussääntöjä ja jos mitään niistä ei voida soveltaa, ottaa käyttöön algoritmin, joka höllentää joitakin rajoituksia ja kirjaa ylös sääntöjen rikkomiset. Dina & Malnati huomauttavat, että algoritmin proseduraalisuus aiheuttaa ongelmia silloin, kun se joutuu kohtaamaan useita virheitä - mikä on erittäin todennäköistä oppijoiden tuottamissa teksteissä.
  3. Preferenssipohjainen lähestymistapa sisältää yligeneroivan kieliopin ja sarjan preferenssisääntöjä. "...each time a formal condition is removed from a b-rule to make its applicability context wider, a preference rule must be added tu the grammar. Such a p-rule must be able to state - in the present context of the b-rule - the condition that has been previously removed." (Dina & Malnati 1993:78) Tässä on taaskin lingvistisen redundanssin lähde, joka saattaa johtaa epäjohdonmukaisuuksiin kieliopissa. Dinan ja maldatin mukaan mahdollisten tulkintojen yligenerointi aiheuttaa sen, että "systeemi on täysin käyttökelvoton soveltavassa kontekstissa." (ibid.:79)
  4. Rajoitinpohjainen lähestymistapa perustuu seuraaviin oletuksiin:

 

Tästä seuraa, että "...lauseen todennäköisin tulkinta on se, joka toteuttaa suurimman määrän rajoituksia" (Dina & Malnati 1993:80). Kirjoittajien mukaan heikkoihin rajoituksiin perustuva lahestymistapa on hyödyllisin, sillä sen etuja ovat epäredundanttisuus, sisäänrakennettu preferenssimekanismi, kattavuus, tehokkuus sekä kielellinen joustavuus.


6. Kieliteknologia ja tietokoneavusteinen kielenopetus

Luvussa 3 totesimme, että konekääntäminen ja sitä kohtaan osoitettu poliittinen ja tieteellinen kiinnostus näyttelivät tärkeää osaa kieliteknologian hyväksymisessä (tai sen hylkäämisessä) ja yleisessä kehityksessä.

"By 1964, however, the promise of operational MT systems still seemed distant and the sponsors set up a committee, which recommended in 1966 that funding for MT should be reduced. It brought to an end a decade of intensive MT research activity." (Hutchins 1986:39)

Tästä syystä ei ehkä ole yllättävää, että 1960-luvun puolivälissä nähtiin toisenkin tieteenalan - tietokoneavusteisen kielenopetuksen - syntyminen. Alkuna pidetään yleisesti PLATO-projektia ja PLATO IV oli se projektin versio (keskustietokoneilla), jolla oli suurin vaikutus tietokoneavusteiseen kielenopetukseen. Samaan aikaan toinenkin amerikkalainen yliopisto, Brigham Young University, sai valtiolta rahoituksen omaan projektiinsa nimeltään TICCIT (Time-Shared, Interactive, Computer Controlled Information Television) (Levy 1997:18). Myöhemmin kehitettiin muita tunnettuja ja laajasti käytettyjä ohjelmia esimerkiksi saksan kielen opiskeluun: CALIS (Computer Assisted Language Instruction System) Duken yliopistossa (Borchard 1995) ja TUCO Ohion valtionyliopistossa. Englannissa John Higgins kehitti vuonna 1980 Storyboard-nimisen tekstin rekonstruointiohjelman pientietokoneille. "Muut ohjelmat kuten Fun with Texts (Camsoft) laajensivat tekstin rekonstruoimisen ideaa edelleen lisäämällä uusia aktiviteetteja." (Levy 1997:25)

Viime vuosina kehitykseen alalla ovat suuresti vaikuttaneet teknologian edistyminen ja kykymme hallita sitä ja niinpä ei ainoastaan useimpien opetusohjelmien laatiminen vaan myös niiden luokittelu on ollut teknologian ohjaamaa. Wolffin (1993:21) luokittelusysteemi, joka ottaa huomioon sekä uusimman kehityksen informaatioteknologiassa että eurooppalaiset standardit, erottaa toisistaan viisi sovellusryhmää:

1970-luvun loppupuolella tehtiin ensimmäiset yritykset laatia älykkäitä tietokoneavusteisia kielenopetusohjelmia (ICALL) eli "tekoälyn ja CALL:in sekoituksia" (Matthews 1992b:i). Bowermanin (1993:31) mukaan "Weischedel kumppaneineen (1978) tuotti ensimmäisen älykkään CALL-systeemin, joka sisälsi ymmärtämisharjoituksia. Se hyödynsi syntaktista ja semanttista tietoa oppijoiden vastausten oikeellisuuden tarkistamisessa." Tietämämme mukaan tämä yksi pääskynen ei kuitenkaan tehnyt kesää. Krüger-Thielmann (1992:51ff) luettelee ja tekee yhteenvedon seuraavista varhaisista ICALL-projekteista: ALICE, ATHENA, BOUWSTEEN & COGO, EPISTLE, ET, LINGER, Mentzel, Schwind, VP2, XTRA-TE, Zock.

Matthews (1993:5) pitää lingvististä teoriaa ja toisen kielen oppimisen teoriaa niinä kahtena tieteenalana, jotka ovat vaikuttaneet älykkääseen CALL:iin ja joihin älykäs CALL on vaikuttanut (tai tulee vaikuttamaan), ja hän lisää, että "ne tekoälytutkimuksen alueet, joista ICALL:in pitäisi saada eniten vaikutteita, ovat luonnollisen kielen prosessointi (NLP) ja älykkäät tutoring-systeemit (ITS)" (Matthew 1993:6). Hän myös osoittaa, että on mahdollista "kuvitella älykäs CALL-systeemi klassisen ITS-arkkitehtuurin puitteissa" (ibid.). Systeemi koostuu kolmesta moduulista - asiantuntijan, oppilaan ja opettajan moduulista - ja käyttöliittymästä. Asiantuntijamoduuliin sisältyy systeemin kielitieto ja tämä on se osa, joka pystyy prosessoimaan oppijan tuottamaa tekstiä - ideaalissa systeemissä. Tämä tehdään tavallisesti jonkintyyppisen jäsentimen avulla. "The use of parsers in CALL is commonly referred to as intelligent CALL or 'ICALL'; it might be more accurate described as parser-based CALL [italics added], because its 'intelligence' lies in the use of parsing - a technique that enables the computer to encode complex grammatical knowledge such as humans use to assemble sentences, recognise errors, and make corrections" (Holland et al. 1993:28)

Ajatus jäsenninpohjaisesta tietokoneavusteisesta kielenopetuksesta ei ainoastaan heijastele tieteenalan luonnetta paremmin kuin hieman harhaanjohtava "älykäs CALL" (Onko kaikki muu tietokoneavusteinen kielenopetus sitten epäälykästä?), vaan lisäksi identifioi kieliteknologian erääksi mahdolliseksi lähestymistavaksi sellaisten alojen rinnalla kuten multimediapohjainen CALL ja WWW-pohjainen CALL ja siten näkee jäsenninpohjaisen CALL:in yhtenä mahdollisuutena edistyä tietokoneavusteisen kielenopetuksen alueella. Joissain tapauksissa (teknologian perusteella määritellyt) rajat osa-alueiden välillä ovat häilyviä, kuten tulemme näkemään joidenkin seuraavassa kappaleessa mainittujen projektien kohdalla.

Jotta saisimme käsityksen siitä, millaista edistystä kehittyneen kieliteknologian hyödyntäminen on saanut aikaan tietokoneavusteisen kielenopetuksen alalla, tarkastelkaamme muutamia projekteja, jotka esiteltiin kahdessa konferenssissa 1990-luvun loppupuolella. Ensimmäinen näistä konferensseista oli Groningenissa vuonna 1997 pidetty Language Teaching and Language Technology (Jager et al. 1998).

Carson-Berndsen (1998) esitteli konferenssissa ohjelman nimeltään Apron, Autosegmental Pronunciation Teaching, joka hyödyntää fonologista tietopohjaa ja generoi "joidenkin ilmaisujen tapahtumarakenteen" (op cit.:15). Ohjelman avulla pystytään esimerkiksi visualisoimaan yksittäisten äänteiden ja ilmausten ääntämisprosessi käyttäen hyväksi ääntöelinten animaatiota. Witt ja Young (1998) ovat puolestaan kiinnostuneita ääntämisen arvioinnista. He ovat kehittäneet ja testanneet ääntämisen arvioimiseen käytettävän algoritmin, joka perustuu puheentunnistukseen ja piileviä Markovin malleja. "Tulokset osoittavat että - ainakin tässä asetelmassa, jossa käytettiin keinotekoisia ääntämisvirheitä - GOP (goodness of pronunciation) pisteytyssysteemi on varteenotettava arviointiväline." Kolmas ääntämistä koskeva esitys, jonka pitivät Skrelin ja Volskaja (1998), hahmotteli puheen syntetisoinnin hyödyntämistä kielenoppimisessa ja siinä listattiin sanelu, homografien erottelu, äänisanakirja ja ääntämisdrillit mahdollisina sovelluksina.

Konferenssissa pidettiin useita esitelmiä, jotka perustuivat GLOSSER-projektin tuloksiin; GLOSSER on COPERNICUS-projekti, jonka tavoitteena on demonstroida kielen prosessointiin tarkoitettujen työkalujen käyttöä (Locolex, Rank Xeroxin tutkimuslaitoksen kehittämä morfologinen analysointiohjelma ja lauseenjäsenten tunnistusohjelma, sellaiset elektroniset sanakirjat kuten Hedendaag Frans sekä kaksikieliset korpukset). "The project vision foresees two main areas where GLOSSER applications can be used. First, in language learning and second, as a tool for users that have a bit of knowledge of o foreign language, but cannot read it easily or reliably" (Dokter & Nerbonne 1998:88)

Dokter ja Nerbonne (1998) esittelemä ranskalais-hollantilainen demonstrointiohjelma toimii UNIX-ympäristössä ja

Roosma ja Prószéky (1998) kiinnittivät huomiota siihen, että GLOSSER toimii seuraavien kieliparien kanssa: englanti-viro-unkari, englanti-bulgaari, ranska-hollanti, ja esittelivät Windowsissa toimivan demoversion. Dokter, Nerbonne, Schürcks-Grozeva ja Smit (1998) taas vetävät tutkimuksestaan sen johtopäätöksen, että "Glosser-RuG helpottaa kielenoppijoiden mahdollisuuksia lähestyä vieraskielistä tekstiä" (op.cit.:175).

Muita tietokoneavusteisen kielenopetuksen projekteja, jotka ovat hyödyntäneet kielen prosessointia, ovat RECALL (Murphy et al. 1998; Hamilton 1998), "tietopohjainen virheiden korjaussovellus" (Murphy et al. 1998:62) englannin- ja saksankieltä varten ja oppimisvälineiden kehittäminen baskin oppimiseen vieraana kielenä (Diaz de Ilarranza et al. 1998). Viimeksi mainittu projekti käyttää hyväksi oikeinkirjoituksen tarkistinta, morfologista analyysia, syntaktista jäsennintä sekä baskinkielistä sanastotietokantaa, ja sen tekijät esittelivät nyös välikielimallin kehittämistä.

Toisessa konferenssissa, joka keräsi yhteen kieliteknologian käytöstä tietokoneavusteissa kielenopetuksessa kiinnostuneita tutkijoita (Schulze et al. 1999), Tshichold (1999) puolestaan esittelivät virheiden diagnosointia monitasoisessa representaatiossa. Käytettävissä olevasta syntaktisesta, semanttisesta ja pragmaattisesta informaatiosta etsitään rajoitusten rikkomistapauksia, ts. oppijan tekemiä virheitä. Visser (1999) esitteli CALLex-ohjelman, joka on tarkoitettu sanaston oppimiseen ja perustuu leksikaalisille funktioille. Diaz de Ilarranza et al. (1999) kuvasivat IDAZKIDE-ohjelmaa, joka on tarkoitettu espanjalaisille baskin oppijoille. Ohjelmaan sisältyvät seuraavat moduulit: kattavat lingvistiset työkalut (65,000 hakusanan tietokanta; oikeinkirjoituksen tarkistin; sananmuodostuksen apuväline ja morfologinen analyysiohjelma), mukautuva käyttöliittymä sekä oppijan mallintamissysteemi. Oppijoiden kielitiedon malli, ts. heidän välikielensä, perustuu korpusanalyysiin (300 baskin oppijoiden tuottamaan tekstiä). Foucou ja Kübler (1999) esittelivät webbipohjaisen ympäristön teknisen englannin opettamiseen tietojenkäsittelyn opiskelijoille. Ward et al. (1999) osoittivat, että NLP-tekniikat yhdessä graafisen käyttöliittymän kanssa soveltuvat kielipelien tuottamiseen. Davies ja Poesio (1998) raportoivat yksinkertaisista CALL-prototyypeistä, jotka oli laadittu käyttäen CSLUrp-ohjelmaa, joka on graafinen multimediatyökalu puhuttujen dialogisysteemien luomiseen. Heidän argumenttinsa on, että koska nykyaikaiset dialogisysteemit ovat käyttökelpoisia tietokoneavusteisen kielenopetuksen ohjelmien laadinnassa, nyt on mahdollista ja tarpeen tutkia mahdollisuuksia integroida korjaavaa palautetta näihin systeemeihin. Mitkov (1998) esitteli alustavia suunnitelmia uuteen CALL-projektiin, nimeltään The Language Learner's Workbench, jonka tavoitteena on integroida useita nykyisin olemassaolevia kieliteknologiatyokaluja ja tehdä niistä paketti kielenoppijoita varten.

Tällaiset viimeaikaiset esimerkit kieliteknologiaan hyödyntävistä CALL-sovelluksista eivät suinkaan ole ainoita. Ne osoittavat kuitenkin, että kieliteknologian soveltamiseen kohdistuva tutkimus on vireää ja että sillä on merkittävä osuus CALL-ohjelmien jatkokehittelyssä. Molemmat tutkimusalat ovat tietenkin vuelä melko nuoria eivätkä monet käynnissä olevista projekteista ole vielä päässeet edes täysin toimivan prototyypin vaiheeseen. Kieliteknologiaa hyödyntävät onnistuneet CALL-projektit kuitenkin osoittavat, että näillä uusilla teknologioilla on paljon tarjottavaa sellaisten tietokoneavusteisen kielenopetuksen ohjelmien kehittämisessä, joita oppijat voivat käyttää entistä helpommin, tehokkaammin ja luonnonmukaisemmin.

Joukko puheentunnistusta hyödyntäviä CALL-paketteja on tullut kaupallisille markkinoille ja oppijat ympäri maailmaa käyttävät niitä. Puheen generoiminen (ainakin sanatasolla) on saavuttanut sellaisen "ääntämyksen selvyyden", joka tekee siitä varteenotettavan työkalun kielenoppimisessa. Lauseenjäsenten merkkausohjelmat ovat myös saavuttaneet sellaisen tarkkuustason, että niitä voidaan käyttää oppijoiden tekstien automaattiseen alkuprosessointiin. Morfologiset analyysiohjelmat, joita on tarjolla monissa kielissä, tarjoavat automaattista informaatiota sanastosta kontekstissa ja mahdollistavat taivutettujen tai johdettujen sanojen automaattisen haun sanakirjasta. Jäsennysteknologia on jo tarpeeksi kehittynyttä toimiakseen vieraan kielen oppijoille tarkoitetun kieliopin tarkistimen tukirankana: vaikka tällainen tarkistin on vielä tietenkin kaukana täydellisestä, se on kuitenkin selvästi parempi kuin monet nykyiset kaupalliset kieliopin tarkistimet, jotka enimmäkseen perustuvat yksinkertaiseen merkkien tunnistamiseen eivätkä lingvistisiin menetelmiin.


7. Lingvistiikka ja tietokoneavusteinen kielenopetus

Kieliteknologiassa ja tietokoneavusteisessa kielnopetuksessa tapahtunut edistys on suurelta osin ollut mahdollista siksi, että ymmärrämme nyt paremmin kielen rakennetta - kielitieteen ansiosta. Lingvistisen mallintamisen puuttuminen ja NLP-tekniikoiden riittämätön soveltaminen on mainittu erääksi syyksi sille, että jotkin tietokoneavusteisen kielenopetuksen alueet eivät ole edistyneet (ks. esim. Levy 1997:3, jossa siteerataan Kohnia). Edellisessä luvussa esitetyt esimerkit osoittavat, että on aivan mahdollista soveltaa tiettyjä kielitieteellisiä teorioita (esim. fonologiaa ja morfologiaa) kieliteknologiaan ja käyttää tätä teknologiaa CALL-ohjelmissa. Jäsenninpohjaisen lähestymistavan vastustajat kuitenkin väittävät, että "tekoälyarkkitehtuuri on vielä kaukana siitä, että ken avulla voitaisiin luoda mitään, mikä edes jossain määrin muistuttaisi ihmiskielen mutkikasta kommunikaatiosysteemiä ja tästä syystä sillä ei voi olla kvalitatiivista vikutusta CALL-ohjelmien suunnitteluun" (Salaberry 1996:11). Salaberry tukee väitettään lisäämällä, että "tämän [älykkään CALL:in] epäonnistumisen takana on se, että NLP-ohjelmat - joihin ICALL:n kehitystyö perustuu - eivät pysty käsittelemään inhimillisten kielten kompleksisuutta" (1996:12).

Tämä on luonnollisesti aivan totta. Se ei kuitenkaan merkitse, etteivätkö formaalit lingvistiset teoriat pystyisi esittämään tietyn kielen kiinnostavia yksityiskohtia tai aspekteja ja etteikö niitä voitaisi ottaa käyttöön CALL-sovelluksissa. Toisin sanoen, jos saksan kieltä ei pystytäkään kokonaisuudessaan käsittelemään tietokoneohjelmalla, tämä ei tarkoita sitä, etteikö olisi mahdollista vangita joitakin sen kiinnostavia aspekteja. Esimerkiksi saksan sanojen rakennetta, niiden morfologiaa, voidaan kuvata siten, että tietokone sen "ymmärtää" ja tällainen tietoa antaa tukevan perustan erilaisille CALL-sovelluksille (erilaisten kieliopillisten päätteiden tunnistaminen, saksan sanojen taivutuksen harjoittelu kantekstissa, apua dokumenttien oikolukuun jne.). Tämä tarkoittaa sitä, että vaikka pystymme kuvaamaan ainoastaan tiettyjä fragmentteja kielestä riittävän yksityiskohtaisesti, voimme silti käyttää tällaista kuvausta hyväksemme kielenopetukseen tarkoitetuissa tietokonesovelluksissa. Tämä on tärkeää, sillä emme koskaan tule kykenemään kuvaamaan elävää kieltä täydellisesti - ja kuinka pystyisimmekään: kieli muuttuu koko ajan kommunikaatiossa ja me muokkaamme sitä kehittyviin ja muuttuviin tarpeisiimme - joten meidän on tehokkaasti käytettävä hyväksi sitä tietoa, jota meillä on tietyistä kielen aspekteista tai fragmenteista.

Millaista tietoa meillä sitten tulisi kielestä olla ennen kuin ryhdymme tuottamaan sellaista kieliteknologista työkalua, jota voidaan tehokkaasti käyttää tietokoneavusteisessa kielenopetuksessa? Tarkastelkaamme erästä tiettyä kielen aspektia - kielioppia. Viime vuosina on silloin tällöin käyty keskustelua kieliopin tietoisen oppimisen hyödyllisyydestä ja usein täysin vastakkaisessa hengessä kuin mitä ns. "kommunikaativinen lähestymistapa" edellyttää. ReCALL:in kielioppia tietokoneavusteisessa opetuksessa käsittelevässä erikoisnumerossa Goodfellow ja Metcalf (1997) kirjoittavat että "...tähän ReCALL:in numeroon kirjoittaneet ovat osoittaneet, että CALL:in avulla kielioppia on mahdollista opettaa, ei steriilisti vaan sensitiivisesti, rikkaasti ja nautittavasti." (ibid.:6) Tällainen oletus johtaa kysymykseen siitä, millainen rooli tietokoneella (tietokoneohjelmalla) sitten on sensitiivisessä, rikkaassa ja nautittavassa kieliopin oppimisprosessissa. ReCALL:in erikoisnumerossa esiteltyjen lähestymistapojen moninaisuus osoittaa, että onnistuneeseen kieliopin oppimiseen on olemassa useita eri teitä, joita kannattaa tutkia. Tässä moduulissa tarkastelemme ainoastaan yhtä esimerkkiä jäsenninpohjaisesta tietokoneavusteisesta opetuksesta ja otamme esimerkiksi oppijoille tarkoitetun kieliopin tarkistimen.

Tällainen tarkistin voitaisiin sitten integroida CALL-ohjelmaan, tekstinkäsittelyyn, sähköpostieditoriin, webbisivujen editoriin jne. Kieliopin tarkistimemme "piirrustukset" perustuvat pääasiassa teoreettisen lingvistiikan ja toisen kielen oppimisen teorian tuottamiin tutkimustuloksiin.

Aloittakaamme toisen kielen oppimisen teoriasta. Alalla tehty tutkimus on osoittanut, että kieliopin oppiminen voi johtaa parempaan kielen omaksumiseen. Ellis (1994) tukeutuu Longin (1991) tutkimukseen väittäessään, että sellaisella kieliopin opettamisella, jossa painopiste on muodoissa (focus on forms) on kielteinen vaikutus, "kun taas [lähestymistapa], jos keskitytään muotoon (focus on form) tuottaa nopeampaa oppimista ja paremman kielitaidon tason." (Ellis 1994:639) Ero "muotojen" ja "muodon" välillä voidaan selittää erona yksittäisiin muotoihin keskittyvien kieliopillisten drillien ja tekstin muotoon keskittyvän tietoisen reflektoinnin välillä - fokuksessa on tekstin tuottamisen "miten" eikä "mitä". Jos oletamme, että tekstin tuottamisprosessi on upotettu autenttiseen kommunikatiiviseen tehtävään, reflektointivaihe edellyttää sitä, että oppija tarkkailee tekstin tuottamisen lingvististä aspektia eikä ainoastaan sen sisältöä tai kommunikatiivista funktiota; toisin sanoen, reflektointivaiheen aikana oppijoiden huomio keskittyy (kirjoitetun) tekstin muotoon. Tällöin oppijoilla on tilaisuus korjate ne virheet, joita he ovat tehneet keskittyessään aiheeseen ja tekstin kommunikatiiviseen funktioon. Tässä vaiheessa kieliopin tarkistin voi osoittautua hyödylliseksi ja stimuloivaksi oppaaksi.

Jotta saisimme varmuuden tällaisen tarkistimen tietojenkäsittelyllisistä piirteistä, tarkastelkaamme ensin "kieliopin" käsitettä kielenoppimisessa. Helbig pohtii mahdollisia vastauksia tähän kysymykseen kielenopetuksen ja -oppimisen näkökulmasta yleensä:

Lähtökohdaksi kysymykseemme kieliopin relevanssista (ja tarpeellisuudesta) vieraan kielen opetuksessa olemme ottaneet sen, mitä termillö "kielioppi on tarkoitettu ja tarkoitetaan:

Helbig erottaa edelleen Kieliopit B1 ja B2 - ensimmäinen on lingvistinen kielioppi ja toinen oppijan kielioppi. Ottaen huomioon sen seikan, että on mahdollista eriyttää Kielioppia B1 vielä edelleen, Helbig otaksuu Kielioppien B1a - vieraan kielen lingvistinen kuvaus; B1b - äidinkielen lingvistinen kuvaus; ja B1c - äidinkielen ja vieraan kielen konfrontaatio - olemassaolon. Kiellioppi B1c:n kuvaus on suora käännös Helbigin määritelmästä; nykyisessä terminologiassa siitä käytettäisiin nimitystä "välikieli".

Helbigin luokittelun soveltamisesta tietokoneavusteiseen kielenopetukseen saadaan seuraavat tulokset:

Tästä seuraa, että Kielioppi B kokonaisuudessaan ja Kielioppi C täytyy ennen kaikkea ottaa huomioon kehiettäessä kieliopin tarkistinta. Tästä taas nousee seuraava kysymys: Jos Kielioppi A antaa jäsentimen laatijalle hänen tarvitsemansa kielellisen tiedon, millä tavalla voimme "syöttää" nämä eri kieliopit tietokoneohjelmaan?

Tietokone edellyttää, että minkä tahansa kieliopin, jota aiomme käyttää missä tahansa ohjelmassa (tai ohjelmointikielessä), on oltava matemaattisesti eksakti. Sellaiset kieliopit, jotka täyttävät tämän ehdon, tunnetaan nimellä formaalit kieliopit. Näiden kielioppien matemaattinen kuvaus käyttää hyväksi joukko-oppia. Siksi sanotaan, että kielellä L on sanasto V. Niitä mahdollisia merkkijonoja, jotka voidaan konstruoida sanastoa V käyttäen, kutsutaan V:n sulkeumaksi ja sitä merkitään symbolilla V*. Jos merkkijonojen konstruointiin ei olisi mitään rajoituksia, mahdollisten jonojen määrä olisi ääretön. Tämä käy selväksi, kun ajatellaan, että jokainen sanasto-osio V voitaisiin toistaa äärettömän monta kertaa jonoa muodostettaessa. Kuitenkin, kuten erityisesti kielenoppijat tietävät, jokainen kieli L pitäytyy rajalliseen määrään (kielioppi-) sääntöjä. Toisin sanoen, L sisältää kaikki ne sulkeuman V* merkkijonot, jotka täyttävät kielen L kielioppisäännöt.

 

Huomaa, että sekä V* (niiden merkkijonojen lukumäärä, jotka voidaan konstruoida sanaston V avulla) että L (mahdollisten lauseiden lukumäärä kielessä) ovat äärettömiä. Vaikka matemaattisesti ei voidakaan todistaa, että V*-L (mahdollisten epäkieliopillisten lauseiden määrä) on myös ääretön, on kuitenkin parasta olettaa niin olevan. Tämä selittää sen, miksi kielenopetusohjelma, joka yrittää ennakoida mahdolliset virheelliset vastaukset, voi onnistua tässä ainoastaan silloin, kun vastausalue on tiukasti rajattu ja ennakointiprosessi siitä johtuen yksinkertaisempi. Se, mitä kielenopettaja tekee auttaessaan oppijoita korjaamaan tuottamaansa tekstiä, on auttaa heitä tunnistamaan kaikki virheettömät lauseet (ne jotka sisältyvät L:ään) ja kaikki virheelliset lauseet (ne, jotka ovat V*-L:ssä) ja tämän jälkeen rohkaista, selittää ja osoittaa, miten jälkimmäiset muunnetaan vastaaviksi virheettömiksi lauseiksi.Voisiko tietokoneohjelma suoriutua tästä tehtävästä - tehtävästä, joka perustuu äärettömään määrään mahdollisuuksia? Kyllä se voi - mutta vain perustuen äärelliseen määrään mahdollisuuksia. Tästä syystä on tarpeen tarkastella erästä lähestymistapaa, joka perustuu äärelliseen mahdollisuuksien sarjaan, jotka sitten voidaan ohjelmoida ennakolta. Pitäkäämme siis L:ää joukkona merkkijonoja, jotka voidaan konstruoida (formaalin) kieliopin G avulla. Formaali kielioppi voidaan määritellä seuraavasti (ks. esim. Allen 1995):

G (VN, VT, R, S)

Kielioppi G on funktio, jolla on neljä listaa muuttujia: VN on lista non-terminaalisista symboleista kuten NP (substantiivilauseke) ja VP (verbilauseke); VT lista terminaalisista symboleista eli sanoista; R tarkoittaa niitä kieliopillisia sääntöjä, jotka kuvaavat non-terminaalisten symbolien muodostamista; ja S on aloitusnoodi. Ja tässä meillä onkin jo joukkoja, joissa on äärellinen määrä jäseniä. Kieliopillisten sääntöjen lukumäärä on melko rajallinen. Näin on erityisesti silloin, kun ajattelemme sitä kielen peruskielioppia, jonka ei vielä kovin pitkälle edennyt kielenoppija tarvitsee oppia. (Huomaa, mitä mainitsimme aiemmin Kieliopista B2 - se on oppijan kielioppi ja Kieliopin B1 - lingvistisen kieliopin - alakohta.)

Formaaleja kielioppeja on sovellettu monissa CALL-projekteissa. Matthews (1993) on jatkanut vuonna 1992 aloittamaansa kieliopillisten viitekehysten tarkastelua. Hän luettelee kahdeksan tärkeintä kieliopillista viitekehystä, joita on käytetty tietokoneavusteisessa kielenopetuksessa:

Nämä ovat luonnollisesti vain joitakin esimerkkejä. Myöhemmin Tschichold et al. ovat raportoineet ranskalaisille oppijoille tarkoitetun englanninkielisten tekstien korjausohjelman prototyypistä. Tämä systeemi perustuu joukkoon erilaisia finiittiisiä automaatteja ennakkoprosessointiin, suodattamiseen ja havaitsemiseen (Tschichold et al. 1994). Artikkelissaan "Francophone Stylistic Grammar Checking (FSGC) using Link Grammars" Brehony ja Ryan (1994) raportoivat projektistaan, jossa olemassa olevan jäsentimen postprosessointia on mukautettu havaitsemaan englantia opiskelevien ranskalaisten opiskelijoiden tekemät tyylivirheet.

Listattuaan erilaiset lähestymistavat Matthews lisää, että "the ... list does not include some of the frameworks ... for instance, Categorial Grammar, Generalised Phrase Structure Grammar (GPSG), and Head-Driven Phrase Structure Grammar (HPSG)" (Matthews 1993:9). Hänen ehdotuksensa on käyttää PPT:tä (Principles and Parameters Theory (Chomsky 1986)) viitekehyksenä CALL-sovelluksissa perustuen kolmeen kriteeriin: laskennallinen tehokkuus, lingvistinen selkeys ja omaksumisen selkeys (Matthews 1993:9). Myöhemmin artikkelissaan Matthews vertaa sääntöpohjaisia ja periaatepohjaisia viitekehyksiä käyttäen DGS (Definite Clause Grammars) -kielioppeja esimerkkinä viimeksi mainituista. Hänen johtopäätöksensä on, että periaatepohjaiset viitekehykset (ja vastaavasti periaatepohjainen jäsentäminen) ovat kaikkein sopivimpia kieliopillisia viitekehyksiä siihen, mitä hän nimittää älykkääksi tietokoneavusteiseksi kielenopetukseksi.

Viimeaikoina on CALL-ohjelmissa käytetty myös sellaisia viitekehyksiä, joita ei löydy Matthewsin listalta. Esimerkiksi Hagen kuvaa "objektiorientoituneen, yhdenmukaistuspohjaisen jäsentimen nimeltä HANOI", joka käyttää hyväksi HPG (Head-Driven Phrase Structure Grammar) -kieliopissa kehitettyjä formaaleja kuvauksia (Hagen 1995). Hän siteeraa Zajacia:

"Combining object-oriented approaches to linguistic description with unification-based grammar formalisms ... is very attractive. On one hand, we gain the advantages of the object-oriented approach: abstraction and generalisation through the use of inheritance. On the other hand, we gain a fully declarative framework, with all the advantages of logical formalisms..."

Tämäkään lista ei tietenkään ole täydellinen - parhaimmillaan sen voidaan katsoa olevan osoitus siitä lingvististen lähestymistapojen moninaisuudesta, joita käytetään hyväksi jäsenninpohjaisessa tietokoneavusteisessa kielenopetuksessa ja erityisesti kieliopin tarkistamisen alueella. Tämän lyhyen formaalien kielioppien esittelyn lopuksi voidaan tehdä se johtopäätös, että mikä tahansa kieliopin tarkistimen komponentti tarvitsee perustakseen formaalin kieliopin, joka kuvaa niin kattavasti kuin mahdollista sitä tietoa, jota meillä on kohdekielen kieliopista. Tämä on se kielioppi, jota Helbig nimittää Kieliopiksi B1a. Mutta millainen rooli muilla kieliopeilla on CALL-ympäristössä?

Pysykäämme edelleen esimerkissämme kielenoppijoille tarkoitetusta kieliopin tarkistimesta. Jos tällaista tarkistinta verrataan kaupallisiin tarkistimiin, esiin tulee kaksi eroa: jäsenninpohjainen tarkistin yrittää antaa palautetta niistä virheistä, jotka ovat tyypillisiä vieraan kielen oppijoille, eikä se toimi tyylin tarkistimena, kuten monet kaupalliset kieliopin tarkistimet (eli ne ilmoittavat tekstin tuottajalle esimerkiksi passiivirakenteen liiallisesta käytöstä tai lauseista, jotka ovat liian pitkiä tai mutkikkaita). Tästä syystä riittävän palautteen antaminen oppijoiden tuottamien tekstien osien morfosyntaktisesta rakenteesta onkin jäsenninpohjaisten kieliopin tarkistimien keskeisin tehtävä. Tarkastelkaammekin siksi millainen rooli palautteen tarjoamisella on jäsenninkieliopissa.

Yleisesti ottaen voimme sanoa, että palaute ilmaisee suhteen tuotetun konstruktion V*-L:ssä ja aiotun konstruktion L:ssä välillä. Toisin sanoen - aivan kuten hyvä opettaja tekisi - kieliopin tarkistin antaisi neuvoja siitä, miten epäkieliopillinen rakenne muutetaan vastaavaksi kieliopillisesti oikeaksi rakenteeksi. Kuten aiemmin on mainittu, tällainen lähestymistapa perustuisi äärettömään määrään mahdollisia konstruktiota. Tästä syystä riittävän palautteen ja avun antaminen oppijalle näyttää vaikealta tai jopa mahdottomalta. Kuitenkin, kuten edellä on osoitettu, tällainen palaute voisi liittyä äärellisiin joukkoihin, joihin formaali kielioppi perustuu. Kuinka tämä sitten voidaan toteuttaa? Jokainen kolmen joukon jäsenistä on otettava tässä huomioon. Sellaiset non-terminaaliset symbolit kuten NP ja VP, sanat ja morfosyntaktiset säännöt omaavat tiettyjä piirteitä, jotka määräävät niiden käyttäytymisen lauseessa ja suhteen lauseen muihin merkkeihin. Esimerkiksi maskuliinisukuinen artikkeli liittyy ainoastaan maskuliinisukuiseen substantiiviin, substantirakenne nominatiivissa ilmaisee sen toimivan lauseen kieliopillisena subjektina, saksan pääverbien irrotettava prefiksi sijoittuu lauseen loppuun jne.

Tällaisia piirteitä, jotka rajoittavat sitä, mitä tekstin tuottajan voi tehdä tietyllä (terminaalisella tai non-terminaalisella) symbolilla lauseessa ja millaisten ehtojen mukaan tiettyä kieliopillista sääntöä voidaan soveltaa, kutsutaan rajoittimiksi.

Palatkaamme siis takaisin palautteen väliaikaiseen määritelmään, joka voidaan nyt formuloida paljon tarkemmin: Palaute ilmaisee sen suhteen, joka vallitsee

Ensinnäkin, parempi palautteen luonteen ymmärtäminen osoittaa, että Helbigin käsitys erilaisista kielioppisysteemeistä vieraiden kielten oppimisessa ja opettamisessa ei ainoastaan ole sovellettavissa (jäsenninpohjaiseen) tietokoneavusteiseen kielenopetukseen vaan se antaa lisäksi hyödyllistä tietoa ohjelmien suunnittelijoille, joiden tavoitteena on tukea kieliopin omaksumista. Toiseksi, edellä oleva kuvaus modifioituun jäsentimeen perustuvan kieliopin tarkistimen tarjoamasta palautteesta osoittaa, että on mahdollista konstruoida sellaisia tuökaluja, jotka tukevat keskittymistä muotoon tekstin tuottamisen prosessin reflektointivaiheen aikana. Vaikka kieliopin tarkistin pystyisi havaitsemaan ainoastaan pienen määrän morfosyntaktisia virheitä, tästä olisi oppijoille hyötyä, edellyttäen että he ovat tietoisia tämän CALL-työkalun rajoituksista. Toisaalta on myönnettävä, että palautteen kuvaus sisältää edelleen joitakin kysymysmerkkejä keskeisiin avainsanoihin liittyen - se, voidaanko kieliopin tarkistamisen aiotut tavoitteet saavuttaa, voidaan saada selville ainoastaan käyttämällä ja testaamalla tällaista työkalua. Parempi olisikin olla tekemättä oletuksia (tieteellisessä mielessä - tokihan me toivomme tällaisia parannuksia) ja odottaa, kunnes tällainen kieliopin tarkistin on kunnolla testattu sarjalla luotettavia oppimiskokeiluja.

Siirtykäämme nyt lingvististen kysymysten käsittelystä tarkastelemaan jäsenninpohjaisten sovellusten roolia kielenoppimisessa.


8. Jäsenninpohjainen tietokoneavusteinen kielenopetus

Luonnollisen kielen jäsentimien syötteenä on kirjoitettu kieli ja ne tuottavat formaaleja representaatioita tällaisen syötteen syntaktisesta ja joskus semanttisestakin rakenteesta. Niiden asema tietokoneavusteisessa opetuksessa on viime vuosikymmenen aikana ollut tarkan tutkimuksen kohteena (Matthews 1992a; Holland et al. 1993; Nagata 1996). Holland on kumppaneineen tarkastellut "jäsenninpohjaisten tutor-ohjelmien mahdollisuuksia ja rajoituksia" (1993:28). Vertailtuaan jäsenninpohjaista ja konventionaalisempaa tietokoneavusteista opetusta, he ovat tulleet siihen tulokseen, että:

"...in parser-based CALL the student has relatively free rein and can write a potentially huge variety of sentences. ICALL thus permits practice of production skills, which require recalling and constructing, not just recognising [as in conventional CALL], words and structures." (1993:31)

Samalla jäsentämisestä aiheutuu kuitenkin joitakin rajoituksia. Jäsentimet tapaavat keskittyä tekstisyötteen syntaksiin ja siten "älykäs CALL saattaa itse asiassa heikentää kielipedagogiikan perustavoitetta, joka on merkityksen kommunikoiminen eikä oikeiden muotojen tuottaminen" (1993:32). Tämä haittapuoli voidaan välttää "keskittymällä muotoon", mikä saavutetaan pääasiassa käyttämällä jäsennintä tai kieliopin tarkistinta relevanteissa, autenttisissa kommunikatiivisissa tehtävissä ja silloin kun se parhaiten sopii oppijalle tai tekstin tuottajalle.

Juozulynas (1994) on arvioinut syntaktisten jäsentimien potentiaalista hyötyä virheiden diagnosoinnissa. Hän analysoi virheitä korpuksessa, joka koostui 400 sivusta amerikkalaisten opiskelijoiden saksaksi kirjoittamia esseitä. Hänen tutkimuksensa osoitti, että:

"...syntax is the most problematic area, followed by morphology. These two categories make up 53% of errors... The study, a contribution to the error analysis element of a syntactic parser of German, indicates that most student errors (80%) are not of semantic origin, and therefore, are potentially recognisable by a syntactic parser." (1994:5)

Juozulynas sovelsi Hendricksonin taksonomista skeemaa, joka koostuu neljästä kategoriasta: syntaksi, morfologia, ortografia ja sanasto. Hänen ratkaisunsa jakaa ortografia oikeinkirjoitukseksi ja välimerkitykseksi on helposti perusteltavissa syntaktisen jäsennyksen kontekstissa. Osa välimerkkien käytöstä voidaan kuvata käyttämällä syntaktisia sääntöjä ja siten syntaktinen jäsennin voi käsitellä niiden käytössä esiintyneitä virheitä. Leksikaaliset ja kirjoitusvirheet muodostavat Juozulynasin mukaan melko pienen osan oppijoiden virheiden kokonaismäärästä. Jotkin näistä virheistä luonnollisesti havaitaan sanakirjahakujen yhteydessä, mutta jos sanakirjasta löytyviä sanoja käytetään väärässä merkityksessä, jäsennin ei pysty niitä havaitsemaan ilman spesifejä virhesääntöjä (esim. kahdessa kielessä esiintyvien samankaltaisen mutta erimerkityksisten sanojen kohdalla). Voidaan kuitenkin olettaa, että jäsennintä käytetään yhdessä oikeinkirjoituksen tarkistimen kanssa (jolloin suurin osa ortografisista virheistä voidaan eliminoida ennen jäsentämistä) ja että oppijoilla on selvä käsitys siitä, mitä he haluavat sanoa (jolloin vältetään monia semanttisluontoisia virheitä). Jäsenninpohjainen CALL-sovellus voi siis olla tärkeässä osassa niiden morfosyntaktisten virheiden havaitsemisessa, jotka muodostavat merkittävän osan kaikista oppijoiden tekemistä virheistä vapaasti tuotetussa tekstissä.

On kuitenkin otettava huomioon, että:

"A second limitation of ICALL is that parsers are not foolproof. Because no parser today can accurately analyse all the syntax of a language, false acceptance and false alarms are inevitable." (Holland et al. 1993:33)

Tämän asian juotuvat ottamaan huomioon niin jäsenninpohjaisen CALL-sovelluksen kehittelijät kuin sitä käyttävät kielenoppijat. Toisin sanoen, tämä jäsenninpohjaisen tietokoneavusteisen opetuksen rajoitus täytyy pitää mielessä suunnittelu- ja implementointivaiheessa ja silloin kun tällaista ohjelmistoa integroidaan oppimisprosessiin.

"A final limitation of ICALL is the cost of developing NLP systems. By comparison with simple CALL, NLP development depends on computational linguists and advanced programmers as well as on extensive resources for building and testing grammars. Beyond this, instructional shells and lessons must be built around NLP, incurring the same expense as developing shells and lessons for CALL." (Holland et al. 1993:33)

Pääasiassa juuri tämä jäsenninpohjaisen tietokoneavusteisen opetuksen ongelma selittää kieliteknologiaa hyödyntävien kaupallisten sovellusten puuttumisen (ja niiden heikon toteuttamiskelpoisuuden). Voimme kuitenkin toivoa, että tämäkin este ylitetään lähitulevaisuudessa, sillä tarvittavaa tietämystä alalla on kertynyt runsaasti viime vuosina. Yhä useammat tietokoneohjelmat hyödyntävät tällaista teknologiaa ja monet niistä ovat jo astuneet tietokoneavusteisen kielenopetuksen alueelle, kuten edellisessä jaksossa esitetyistä esimerkeistä käy ilmi.

Holland kumppaneineen (1993) vastaa esittämäänsä kysymykseen jäsentimien käyttökelpoisuudesta oman kokemuksensa perusteella, jota heillä on BRIDGE-ohjelmasta, joka on jäsenninpohjainen CALL-ohjelma saksaa opiskelevien Yhdysvaltain armeijan henkilöstön käyttöön, ja testattuaan sitä pienellä ryhmällä kokeneita saksan opiskelijoita. He esittävät seuraavaa:

Olettaen, että haluaisimme hyötyä jäsenninpohjaisen tietokoneavusteisen opetuksen eduista, miten meidän tulisi ottaa sen rajoitukset huomioon suunnitellessa ja implementoidessamme tällaista systeemiä? Millaisia implikaatioita jäsenninteknologian käyttämisellä on ihmisen ja tietokoneen vuorovaikutukseen?

"This limitation [that parsers are not foolproof] leads to a second disadvantage of ICALL: Because parsers give the illusion of certainty, their feedback may at best confuse students ... By contrast, in traditional CALL the very rigidity of the response requirement guarantees certainty. ... [I]n discourse analytic terms (Grice 1975), the nature of the contract between student and CALL tutor is straightforward, respecting the traditional assumption that the teacher is right, whereas the ICALL contract is less well defined." (Holland 1993:33f).

Traditionaalisen tietokoneavusteisen opetuksen, jossa ohjelma kontrolloi hyvin suuressa määrin oppijan kielellistä syötettä, jäykkyys on usein antanut aihetta kritiikkiin, jossa alan kehittäjiä ja sitä opetustyössään käyttäviä on syytetty tukeutumisesta behavioristiseen ohjelmoituun opetukseen. Jos oppijoille halutaan antaa kielellisen syötteensä täydellinen kontrolli esimerkiksi jäsenninteknologian avulla, millaisilla termeillä sitten voidaan määritellä tietokoneen (tietokoneohjelman) ja oppijan välinen vuorovaikutus? Erot koneiden ja ihmisten välillä täytyy luonnollisesti ottaa huomioon, jotta ymmärtäisimme sitä, millaista oppijoiden vuorovaikutus CALL-ohjelman kanssa on luonteeltaan:

Nämä erot koneiden ja ihmisten välillä voidaan tarkoitustamme varten, ts. ihmisen ja tietokoneen vuorovaikutuksen teoreettiseksi kuvaamiseksi, oikeutetusti pelkistää tekojen ja operaatioiden väliseksi eroksi, kuten toimintateoriassa tehdään. Teorian tärkein asia kannaltamme on, että kommunikatiiviset toiminnot voidaan jakaa tekoihin, jotka ovat intentionaalisia eli tavoitteellisia, ja jotka voidaan edelleen jakaa operaatioihin, jotka ovat ehdollisia. Tällaiset operaatiot opitaan tavallisesti tekoina. Esimerkissä, johon edellinen lainaus viittaa, auton vaihteiden käyttö opitaan tekoina. Autokoulun opettaja kehottaa oppilasta käyttämään pienempää tai suurempaa vaihdetta ja tästä tulee toiminnan tavoite. Kun oppilas on toistanut tämän riittävän monta kertaa, vaihtaminen automatistuu ja prosessi menettää yhä enemmän intentionaalisuuttaan. Ajotaidon oppineen henkilön tavoitteena voi olla kiihdyttäminen, mikä edellyttää vaihtamista isommalle vaihteelle, mutta nyt toiminnan laukaisijana toimivat ehdot (ero moottorin kierrosnopeuden ja auton nopeuden välillä). Täten voimme väittää, että ihmiset oppivat kompleksin toiminnon suorittamalla tiettyjä operaatioita tietyssä järjestyksessä. Koneet on toisaalta taas varta vasten tehty suorittamaan tiettyjä (joskus hyvin kompleksisia) operaatioita. Kehittyneet koneet, kuten tietokoneet, pystyvät suorittamaan sellaisien operaatioiden sarjoja hyvin nopeasti peräkkäin (tai tehokkaat tietokoneet rinnakaisesti), mutta jokaisen niistä panee alkuun jokin ehto (esim. hiiren klikkaaminen tai syöte näppäimistöltä) eivätkä ne intention alaisia, joten niitä ei voida kuvata tekoina (Schmitz 1992:169).

Tällä on yhteyttä siihen ihmisen ja tietokoneen interaktioon, jota tapahtuu kielenoppijan käyttäessä kielenoppimiseen tarkoitettua tietokoneohjelmaa. Kun esimerkiksi tekstinkäsittelyohjelmassa avataan oikeinkirjoituksen tarkistin, ohjelma ei sinänsä 'oikolue' oppijan dokumenttia. Tietokone vain reagoi tarkistimen menussa olevan osion klikkaamiseen ja suorittaa dokumentin merkkijonon tarkistamisen verraten sitä muistissa olevan sanakirjan hakusanoihin. Vertailun tulos laukaisee seuraavan operaation: jos sanakirjasta löytyy vastaava merkkijono, verrataan dokumentin seuraavaa merkkijonoa; jos taas vastaavaa merkkijonoa ei löydy, sanakirjasta valitaan valmiin algoritmin mukaisesti samankaltaisia merkkijonoja, joita sitten tarjotaan käyttäjälle vaihtoehtoina. Tietokoneen käyttäjästä (tässä tapauksessa kielenoppijasta) saattaa näyttää siltä, että tietokone oikolukee dokumenttia. Tavallisesti käyttäjä havaitsee sen, että mitään 'todellista' dokumentin tarkistamista ei tapahdukaan, silloin kun oikein kirjoitettua sanaa ei löydykään sanakirjasta tai kun yksinkertainen kirjoitusvirhe tuottaa järjettömiä korjausvaihtoehtoja.

Henkilö X on vuorovaikutuksessa henkilön Y kanssa silloin, kun hän havannoi henkilö Y:n toimintaa ja todennäköisiä syitä tähän toimintaan sekä reagoi olettamaansa intentioon. Vaikuttaa siltä, että monet oppijat siirtävät tämän lähestymistavan vuorovaikutukseen tietokoneen kanssa kielenoppimistilanteessa, ts. he tulkitsevat koneen suorittamien operaatioiden sarjan, tekevät päätelmiä tietokoneen "intentioista" ja reagoivat niitä vastaavalla tavalla. Tämä esimerkiksi selittää sen, miksi monet oppijat turhautuvat silloin, kun tietokone ei hyväksy heidän oikeaksi olettamaansa vastausta, aivan kuten he turhautuisivat opettajan toimiessa samalla tavalla.

Ideaalitapauksessa tietokoneavusteinen kielenoppimissysteemi pystyisi tietenkin välttämään salakuopat eikä tuomitsisi vääräksi oikeaa vastausta tai hyväksyisi virheellistä. Koska olemassa olevat systeemit voivat ainoastaan lähestyä tätä ideaalia, jäsenninpohjaisen tietokoneavusteisen kielenopetusohjelman tutkijat ja kehittäjät voivat vain yrittää rakentaa sellaisia systeemejä, jotka pystyvät suorittamaan kielellisten operaatioiden komplekseja jäsennettyjä toimintasarjoja siten, että oppijat voivat olla koneen kanssa mielekkäässä ja onnistuneessa vuorovaikutuksessa.


9. Korpuslingvistiikka

Korpuslingvistiikka on perinteisesti kuulunut kieliteknologian alaan, mutta se on niin valtavan laaja alue, että se ansaitsee oman moduulinsa: Moduuli 3.4.


Kirjallisuus ja viitteet

_(1985) Computergestützter Fremdsprachenunterricht. Ein Handbuch. (Herausgegeben von der Langenscheidt-Redaktion), Berlin: Langenscheidt.

_(1998) UCL Tutorials in Speech Communication Science. Available at: http://www.phon.ucl.ac.uk/home/wbt/ucltutor.htm

Abeillé A. (1992) "A lexicalised tree adjoining grammar for French and its relevance to language teaching". In Swartz M. & Yazdani M. (eds.) Intelligent tutoring systems for foreign language learning: the bridge to international communication, Berlin: Springer-Verlag.

Abney S. (1997) "Part-of-Speech Tagging and Partial Parsing". In Young s. & Bloothooft G. (eds.) Corpus-Based Methods in Language and Speech Processing, Dordrecht:Kluwer AcademicPublishers

Allen J. (1995) Natural language understanding, New York: Benjamins/Cummings Publishing Company.

Alwang G. (1999) "Speech Recognition". In: PC magazine 10/11/1999. Available at: http://www.zdnet.com/products/stories/reviews/0,4161,2385295,00.html

Antos G. (1982) Grundlagen einer Theorie des Formulierens. Textherstellung in geschriebener und gesprochener Sprache, Tübingen: Niemeyer.

Arnold D. et al. (1994) Machine Translation: an introductory guide, Manchester: NEC Blackwell.

Arnold D., Balkan L, Meijer S., Humphreys R.L. & Sadler, L. (1994) Machine Translation: an introductory guide: http://www.essex.ac.uk/linguistics/clmt/MTBook/HTML/book.html

Bennett P. (1997) Feature-based approaches to grammar, Manchester: UMIST, Unpublished Manuscript.

Bloothooft G. et al. (1997) (eds.) The landscape of future education in speech communication sciences: (1) analysis, Utrecht, Institute of Linguistics, University of Utrecht: OTS Publications.

Bloothooft G. et al. (1998) (eds.) The landscape of future education in speech communication sciences: (2) proposals, Utrecht, Institute of Linguistics, University of Utrecht: OTS Publications.

Bolt P. & Yazdani M. (1998) The evolution of a grammar-checking program: LINGER to ISCA

Borchardt F. (1995) "Language and computing at Duke University: or, Virtue Triumphant, for the time being", CALICO Journal 12, 4: 57-83.

Bowerman C. (1993) Intelligent computer-aided language lerning. LICE: a system to support undergraduates writing in German, Manchester: UMIST, Unpublished doctoral dissertation.

Brehony T. & Ryan K. (1994) "Francophone stylistic grammar checking (FSGC): using link grammars", CALL 7, 3: 257-269.

Bocklebank P. (1998). An experiment in developing a prototype intelligent teaching system from a parser written in Prolog, Manchester, UMIST, Unpublished MPhil dissertation.

Brown P.F., Della Pietra S.A., Della Pietra V.J. & Mercer R.L. (1993) "The Mathematics of Statistical Machine Translation: Parameter Estimation ", Computational Linguistics19:2,263-311

Buchmann B. (1987) "Early history of Machine Translation". In King M. (ed.) Machine Translation today: the state of the art,. Edinburgh: University Press.

Bull S. (1993) "Towards user/system collaboration in developing a student model for Intelligent Computer-Assisted Language Learning", ReCALL 8, 1: 3-8.

Bull S. (1994) "Learning Languages: implications for student modelling in ICALL", ReCALL 6, 1: 34-39.

Cameron K. (1989) (ed.) Computer-Assisted Language Learning, Oxford: intellect.

Carson-Berndsen J. (1998) "Computational autosegmental phonology in pronunciation teaching". In Jager S., Nerbonne J. & van Essen A. (eds.) Language teaching and language technology, Lisse: Swets & Zeitlinger.

Chanier D., Pengelly M., Twidale M. & Self J. (1992) "Conceptual modelling in error analysis in computer-assisted language learning". In Swartz M. & Yazdani M. (eds.) Intelligent tutoring systems for foreign language learning: the bridge to international communication, Berlin: Springer-Verlag.

Chen L. & Barry L. (1989) "XTRA-TE: Using natural language processing software to develop an ITS for language learning". In Fourth International Conference on Artificial Intelligence and Education: 54-70.

Chomsky N. (1986) Knowledge of language: ist nature, origin, and use, New York: Praeger.

Cole R. (1996) Foreword. In Cole R. (ed. in-chief) Survey of the state of the art in Human Language Technology. Available at: http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html

Curzon L.B. (1985) Teaching in further education: an outline of principles and practice. London: Holt, Rinehart & Winston, (3rd edition).

Davies G. (1988) "CALL software development". In Jung U. (ed.) Computers in applied linguistics and language learning: a CALL handbook,. Frankfurt: Peter Lang.

Davies G. (1996) Total-text reconstruction programs: a brief history, Maidenhead: Camsoft Monograph, Unpublished manuscript.

Davies S. & Poesio M. (1998) "The provision of corrective feedback in a spoken dialogue system". Paper presented at the conference on NLP in CALL, Manchester, UMIST.

Diaz de Ilarranza A., Maritxalar A., Maritxalar M. & Oronoz M. (1999) "IDAZKIDE: An intelligent computer-assisted language learning environment for Second Language Acquisition". In Schulze m., Hamel M-J. & Thompson J. (eds.) Language processing in Call, ReCALL Special Issue: 12-19.

Diaz de Ilarranza A., Maritxalar M. & Oronoz M. (1998) "Reusability of language technology in support of corpus studies in an ICALL environment". In Jager S., Nerbonne J. & Van Essen A. (eds.) Language teaching and language technology, Lisse: Swets & Zeitlinger.

Dillon G.L. (1999) Studying phonetics on the net. Available at: http://faculty.washington.edu/dillon/PhonResources/PhonResources.html

Dina L. and Malnati G. (1993) "Weak Constraints and Preference Rules". In Bennett P. & Paggio P. (eds.) Preference in Eurotra, Luxembourg: Commission of the European Communities

Dirksen A. & Coleman J. (1995) Introducing IPOX (speech synthesizer). Available at: http://www.phon.ox.ac.uk/~jcoleman/IPOX/ipox.html

Dokter D. & Nerbonne J. (1998) "A session with Glosser-RuG". In Jager S., Nerbonne J. & Van Essen A. (eds.), Language teaching and language technology, Lisse: Swets & Zeitlinger.

Dokter D., Nerbonne J., Schurcks-Grozeva L. &Smit P. (1998) "Glosser-RuG: a user study". In Jager S., Nerbonne J. & Van Essen A. (eds.) Language teaching and language technology, Lisse: Swets & Zeitlinger.

Ellis R. (1994) The Study of Second Language Acquisition, Oxford: OUP.

Feuerman K., Marshall C., Newman D. & Rypa M. (1987) "The CALLE project", CALICO Journal 4: 25-34

Foucou P-Y. & Kübler N. (1999) "A web-based language learning environment: general architecture". In Schulze M., Hamel M-J. & Thompson J. (eds.), Language processing in CALL, ReCALL Special Issue: 31-39.

Fum D., Pani B. & Tasso C. (1992) "Native vs. formal grammars: a case for integration in the design of o foreign language tutor". In Swartz M. & Yazdani M. (eds.) Intelligent tutoring systems for foreign language learning: the bridge to international communication, Berlin: Springer-Verlag

Goodfellow R. & Metcalfe P. "The challenge: Back to basics or brave new world?" ReCALL 9, 2: 4-7.

Hagen L.K. (1995) "Unification-based parsing applications for intelligent foreign language tutoring systems, CALICO Journal 12, 2-3: 5-31.

Hamilton S. (1998) "A CALL user study". In Jager S., Nerbonne J. & Van Essen A. (eds.) Language teaching and language technology, Lisse: Swets & Zeitlinger.

Handke J. (1992) "WIZDOM: a multiple-purpose language tutoring system based on AI techniques". In Swartz M. and Yazdani M. (eds.) Intelligent tutoring systems for foereign language learning: the bridge to international communication, Berlin: Springer-Verlag

Hart R. (1995) "The Illinois PLATO foreign languages project, CALICO Journal 12, 4: 15-37.

Helbig G. (1975) "Bemerkungen zum Problem von Grammatik und Fremdsprachenunterricht", Deutsch als Fremdsprache 6, 12: 325-332.

Holland V.M., Maisano R., Alderks C. & Martin J. (1993) "Parsers in tutors: What are they good for?" CALICO Journal 11, 1: 28-46.

Hutchins W.J. (1986