ict4logo.jpg (8822 byte)

ICT4LT Modulo 3.4

La linguistica dei corpora

________________________________________________________________________________

Indice

Obiettivi

Autori del modulo

1. La prima linguistica dei corpora

2. Rinascita della linguistica dei corpora

3. La moderna linguistica dei corpora

4. Conclusione

5. Argomenti di discussione

6. Compiti di apprendimento

Bibliografia e riferimenti

Feedback

__________________________________________________

Obiettivi

Obiettivo del modulo è introdurre lo studente alla linguistica dei corpora. I corpora vengono spesso usati dai linguisti come materiale grezzo su cui modellare la descrizione della lingua - il ruolo non è meno importante per i creatori di pacchetti CALL. I corpora possono fornire la base per osservazioni linguistiche accurate, giustificate empiricamente, sui cui fondare i materiali CALL. Inoltre, gli stessi corpora, di solito attraverso l'analisi delle concordanze, possono diventare il materiale grezzo per la didattica basata su CALL. Il corpus può essere considerato, in determinati contesti, come una banca dati. Gli usi dei corpora in CALL sono molteplici. La conoscenza, per i creatori di pacchetti CALL, del metodo del corpus è sempre più indispensabile.

Questo modulo amplia e fa da complemento alla sezione sulla linguistica dei corpora del Modulo 2.4, che è stata scritta da Marie-Noëlle Lamy e Hans Jørgen Klarskov Mortensen. La linguistica dei corpora fa anche parte del Natural Language Processing (elaborazione del linguaggio naturale) (NLP), trattato da Mathias Schulze e Piklu Gupta nel Modulo 3.5 sulle Tecnologie del Linguaggio Umano (HLT) - già conosciute come Ingegneria del Linguaggio.

_______________________________________________

Autori del modulo

Tony McEnery, Università di Newcastle, Regno Unito.

Andrew Wilson, Università di Wales Bangor, Regno Unito.

________________________________________________

1. La prima linguistica dei corpora

"La prima linguistica dei corpora" è una definizione che usiamo qui per descrivere la linguistica prima dell'avvento di Chomsky. I linguisti, come Boas (1940) che hanno studiato le lingue amerindiane, e in seguito i linguisti della tradizione strutturalista hanno usato tutti una metodologia basata sui corpora. Ciò non significa, tuttavia, che il termine "linguistica dei corpora" fosse usato nei testi e negli studi di questo periodo. Viene dato qui di seguito un breve panorama di alcuni interessanti studi basati sui corpora anteriori al 1950.

Indice della Sezione 1

1.1 Acquisizione della lingua

1.2 Convenzioni ortografiche

1.3 Dimensione educativa dell'insegnamento della lingua

1.4 Chomsky

1.5 Il valore dell'introspezione

1.6 Altre critiche alla linguistica dei corpora

1.7 Chomsky rivisitato

1.8 Critiche ai dati introspettivi

1.9 Vantaggi dei dati tratti dai corpora

_____________________________________________

1.1 Acquisizione della lingua

Gli studi sul linguaggio infantile nel periodo della ricerca sull'acquisizione della lingua, conosciuto come il periodo degli studi sui diari (approssimativamente 1876-1926), erano basati sui diari di genitori, tenuti scrupolosamente, in cui erano riportate le espressioni linguistiche del bambino. Questi corpora primitivi sono ancora usati come fonti di dati normativi nella ricerca attuale sull'acquisizione della lingua; si veda, per esempio, Ingram (1978). La raccolta di corpora continuò e si diversificò dopo il periodo degli studi sui diari: vasti studi campione coprirono il periodo che va all'incirca dal 1927 al 1957 - l'analisi veniva eseguita su un gran numero di bambini con il preciso scopo di stabilire norme di sviluppo. Dal 1957 ad oggi si è avuto il predominio di studi longitudinali - basati sempre sulla raccolta di espressioni linguistiche, ma questa volta con un campione più ridotto di bambini (circa 3), che vengono studiati per lunghi periodi di tempo [si vedano Brown (1973) e Bloom (1970)].

______________________________________________

1.2 Convenzioni ortografiche

Kading (1897) usò un corpus molto grande in tedesco - 11 milioni di parole - per analizzare la distribuzione della frequenza delle lettere e delle sequenze di lettere in tedesco. Il corpus, soltanto per le dimensioni, è notevole per l'epoca e non sfigura, in termini di ampiezza, dinanzi ai corpora moderni.

_______________________________________________

1.3 Dimensione educativa dell'insegnamento della lingua

Fries e Traver (1940) e Bongers (1947) sono esempi di linguisti che hanno usato i corpora nella ricerca sulla dimensione educativa dell'insegnamento della lingua straniera. In effetti, come nota Kennedy (1992), i corpora e l'insegnamento della seconda lingua hanno avuto un legame forte nella prima metà del XX secolo, in quanto le liste di vocaboli per gli studenti stranieri venivano spesso prese dai corpora. Il conteggio delle parole desunto da studi quali quelli di Thorndike (1921) e Palmer (1933) era importante per definire gli obiettivi del movimento di controllo del vocabolario nell'insegnamento della seconda lingua.

_____________________________________________

1.4 Chomsky

Chomsky ha cambiato la direzione della linguistica allontanandola dall'empirismo e orientandola verso il razionalismo in brevissimo tempo. Nel farlo, ha evidentemente invalidato il corpus come fonte di evidenza nella ricerca linguistica. Chomsky suggeriva che il corpus non potesse mai essere uno strumento utile per il linguista, in quanto quest'ultimo deve cercare di formare la competenza linguistica più che l'esecuzione.

La competenza è meglio descritta come la nostra conoscenza, tacita e interiorizzata, di una lingua.

L'esecuzione è il segno esterno della competenza linguistica ed è l'uso della lingua in particolari occasioni, quando fattori diversi dalla competenza linguistica possono decisamente incidere sulla sua forma.

La competenza spiega e caratterizza la conoscenza della lingua di un parlante. L'esecuzione, tuttavia, è uno specchio difettoso della competenza. Per esempio, fattori diversi quali limitazioni dovute alla memoria a breve termine o il fatto di aver bevuto possono alterare il nostro modo di parlare in alcune occasioni. Questo ci porta al nocciolo della critica iniziale di Chomsky: un corpus è, per sua stessa natura, una raccolta di manifestazioni linguistiche - è composto da dati di esecuzione e pertanto è una guida insufficiente per modellare la competenza linguistica.

E oltre a ciò, se non possiamo misurare la competenza linguistica, come determiniamo, da una espressione qualsiasi, quali sono i fenomeni di esecuzione rilevanti dal punto di vista linguistico? E' un punto cruciale, perché se non troviamo la risposta, non siamo sicuri che ciò che stiamo scoprendo è direttamente rilevante per la linguistica. Potremmo facilmente fare commenti sugli effetti del bere sulla produzione orale senza conoscerli.

Tuttavia, questa non era l'unica critica di Chomsky al primo approccio della linguistica dei corpora.

La natura non finita della lingua.

Tutto il lavoro della prima linguistica dei corpora si basava su due ipotesi fondamentali che tuttavia erano errate:

Le frasi di una lingua naturale sono finite.

Le frasi di una lingua naturale possono essere raccolte e numerate.

Il corpus era visto come l'unica fonte di prove nella formazione della teoria linguistica. - "Erano i tempi in cui i linguisti […] consideravano il corpus l'unico explicandum della linguistica" (Leech, 1991).

A rigore di giustizia, non tutti i linguisti del tempo fecero affermazioni così testarde - Harris (1951) è forse l'esponente più entusiasta di questo punto, mentre Hockett (1948) si schierò più debolmente a favore dei corpora, suggerendo che lo scopo del linguista che lavorava nel solco della tradizione strutturalista non fosse "semplicemente dar conto delle espressioni che formano il suo corpus" ma piuttosto "dar conto delle espressioni che non sono nel suo corpus in un dato periodo".

Il numero di frasi di una lingua naturale non è solo arbitrariamente grande - è potenzialmente infinito. Ciò avviene per il puro e semplice numero di scelte, sia lessicali che sintattiche, che si fanno quando si produce una frase. Inoltre, le frasi possono essere ripetitive. Prendete la frase "L'uomo che vide il gatto che mangiò il cane che conosceva l'uomo che…". Questo tipo di costrutto è detto incastonamento centrale e può dar luogo a un'infinità di frasi. (Questo argomento è discusso nei dettagli in McEnery & Wilson 1996:7-8).

L'unico modo di dar conto della grammatica di una lingua è descrivendone le regole - non enumerandone le frasi. Sono le regole sintattiche di una lingua che Chomsky considera finite. Queste regole, a loro volta, danno origine a serie infinite di frasi.

__________________________________________________

1.5 Il valore dell'introspezione

Anche se la lingua fosse un costrutto finito, la metodologia basata sui corpora sarebbe ancora il metodo migliore per studiare la lingua? Perché affannarsi ad aspettare che le frasi di una lingua si enumerino, quando attraverso il processo di introspezione possiamo scavare nella nostra mente ed esaminare la nostra competenza linguistica? A volte l'intuizione può farci risparmiare del tempo quando cerchiamo in un corpus.

Senza ricorrere a giudizi introspettivi, come si possono distinguere espressioni sgrammaticate da quelle che ancora non sono comparse? Se il nostro corpus finito non contiene la frase:

*He shines Tony books

come possiamo concludere che è sgrammaticata? In effetti, ci potrebbero essere prove convincenti nel corpus che la frase sia grammaticalmente corretta se vediamo esempi quali:

L'introspezione sembra uno strumento utile e valido in casi come questo. Ma la prima linguistica dei corpora ne rifiutava l'uso.

Anche le strutture ambigue possono essere identificate e risolte con un certo grado di giudizio introspettivo. L'osservazione della forma fisica da sola sembra inadeguata. Considerate le frasi: Tony and Fido sat down - he read a book of recipes.
Tony and Fido sat down - he ate a can of dog food.

E' solo con l'introspezione che si possono risolvere queste due frasi ambigue; sappiamo infatti che Fido è il nome di un cane, per cui era Fido che mangiava il cibo per cani e Tony che leggeva il libro.

_____________________________________________

1.6 Altre critiche alla linguistica dei corpora

A prescindere dalle critiche teoriche di Chomsky, esistevano problemi pratici con la linguistica dei corpora. Le critiche di Abercrombie (1963) alle "pseudo-procedure" possono, nel contesto dell'età del computer non ancora di massa, essere facilmente applicate alla linguistica dei corpora. Riuscite ad immaginare di effettuare una ricerca in un corpus di 11 milioni di parole come quello di Kading (1897) usando soltanto gli occhi? L'intera impresa diventa proibitivamente onerosa in termini di tempo nonché fallibile e costosa.

Qualsiasi fossero le critiche di Chomsky, le osservazioni di Abercrombie relative alla natura delle pseudo-procedure erano senza dubbio corrette. La prima linguistica dei corpora richiedeva abilità di elaborazione dei dati che a quel tempo semplicemente non erano disponibili. Le critiche mosse alla prima linguistica dei corpora negli anni 50 ebbero un impatto immediato e profondo. La linguistica dei corpora fu in gran parte abbandonata in questo periodo, ma non si estinse del tutto.

_______________________________________________

1.7 Chomsky rivisitato

Sebbene le critiche di Chomsky screditassero la linguistica dei corpora, non fermarono tutto il lavoro basato sui corpora. Per esempio, nel campo della fonetica, i dati osservati in natura rimasero la fonte dominante di prove mentre i giudizi introspettivi non ebbero mai lo stesso impatto come in altri settori della ricerca linguistica. Inoltre, nel campo dell'acquisizione della lingua, rimase dominante l'osservazione di quanto avviene in natura. I giudizi introspettivi non sono disponibili per il linguista/psicologo che studia l'acquisizione del linguaggio nel bambino - provate a chiedere a un bimbo di 18 mesi se la parola "moo-cow" è un sostantivo o un verbo! I giudizi introspettivi sono soltanto disponibili per noi quando si è sviluppata la nostra consapevolezza meta-linguistica, e non ci sono prove che un bambino, nella fase in cui pronuncia parole singole, abbia una consapevolezza meta-linguistica. Anche Chomsky (1964) metteva in guardia contro il rifiuto dei dati desunti dall'esecuzione quale fonte di prove per gli studi sull'acquisizione della lingua.

__________________________________________

1.8 Critiche ai dati introspettivi

1. I dati che compaiono in natura sono osservabili e verificabili da tutti. I giudizi introspettivi non si possono osservare e quindi sono molto più difficili da verificare.

2. I dati introspettivi sono artificiali. Sampson (1992) sostiene che il tipo di frase analizzata dal linguista introspettivo è ben distinta dal tipo di manifestazioni che tipicamente sono presenti in un corpus. Manipolando artificialmente l'informatore, manipoliamo artificialmente il dato stesso.

3. Gli esseri umani hanno soltanto una vaghissima nozione della frequenza di un costrutto o di una parola. I corpora sono fonti di informazioni quantitative oltre ogni paragone. Tuttavia, i dati basati sulla frequenza non sono disponibili attraverso mezzi introspettivi.

_______________________________________________

 

 

1.9 Vantaggi dei dati tratti dai corpora

Leech (1992) sostiene che l'uso dei corpora è una metodologia più potente dal punto di vista del metodo scientifico, in quanto è aperta a una verifica oggettiva dei risultati.

La produzione linguistica è davvero un riflesso povero della competenza linguistica, come ha sostenuto Chomsky? Labov (1969) ha dimostrato che "la maggior parte delle frasi in tutti i contesti è corretta grammaticalmente". Non stiamo dicendo che tutte le frasi di un corpus siano accettabili grammaticalmente, ma sembra probabile che la tesi di Chomsky (1968:88) che i dati desunti dall'esecuzione sono "degenerati" sia un'esagerazione (si veda Ingram 1989:223 per ulteriori critiche a questa opinione).

I dati quantitativi sono utili alla linguistica. Per esempio, lo studio di Svartvik (1966) sulla trasformazione in forma passiva ha usato dati quantitativi presi da un corpus. Altrove, tutti gli approcci efficaci all'analisi automatizzata delle parti del discorso si basano su dati quantitativi tratti da corpora. The proof of the pudding is in the eating.

Le osservazioni di Abercrombie che la ricerca su un corpus è una perdita di tempo costosa e fallibile non sono più valide grazie allo sviluppo di computer potenti e software che è in grado di eseguire calcoli complessi in secondi senza errori.

___________________________________________

2. La rinascita della linguistica dei corpora

Indice della sezione 2

2.1. Corpora leggibili dal computer

2.2. Procedure

_____________________________________________

E' opinione comune che la linguistica dei corpora sia stata completamente abbandonata negli anni 50 e quindi abbia goduto improvvisamente di un rinnovato favore all'inizio degli anni 80. Non è vero e non fa onore a quei linguisti che hanno continuato ad essere pionieri nel lavoro basato sui corpora durante questo interregno.

Per esempio, Quirk (1960) progettò e realizzò la costruzione dell'ambizioso Survey of English Usage (SEU), da lui iniziato nel 1961. Nello stesso anno Francis e Kucera cominciarono a lavorare sull'ormai famoso Brown Corpus, per completare il quale ci vollero due decenni. Questi ricercatori erano una minoranza, ma non erano da tutti considerati stravaganti e altri seguirono la loro guida. Nel 1975 Jan Svartvik cominciò a lavorare sul SEU e sul Brown Corpus per realizzare il London-Lund Corpus.

In questo periodo, lentamente, il computer si affermò come supporto principale alla linguistica dei corpora. Svartvik computerizzò il SEU, e di conseguenza produsse ciò che alcuni, compreso Leech (1991), ritengono ancora " a tutt'oggi una risorsa senza pari per lo studio dell'inglese parlato".

La disponibilità di corpora computerizzati e la disponibilità più ampia di servizi offerti dal computer, sia istituzionali che privati, sembrano aver rilanciato la linguistica dei corpora.

______________________________________________

2.1 Corpora leggibili dal computer

Il termine corpus è quasi sinonimo del termine corpus leggibile dal computer. Il linguista che si occupa di corpora prova interesse per il computer, perché questa macchina è in grado di attuare diverse procedure che, quando erano eseguite dagli esseri umani, potevano essere definite soltanto pseudo-tecniche. Il tipo di analisi che Kading eseguì nell'arco di vari anni può esser ora completato in pochi minuti con l'ausilio di un normale computer.

_____________________________________________

2.2. Procedure

Vista la buona riuscita del matrimonio tra computer e corpus, sembra utile esaminare un po' più nel dettaglio le procedure che consentono alla macchina di aiutare il linguista. Il computer è in grado di cercare in un testo una determinata parola, sequenza di parole, o anche una parte del discorso. Così se ci interessano, diciamo, gli usi della parola however, non dobbiamo far altro che chiedere alla macchina di cercarla nel testo. L'abilità del computer di recuperare tutti gli esempi di questa parola, di solito contestualizzati, è un aiuto ulteriore per il linguista.

Il computer può trovare il testo desiderato e mostrarlo all'utente. Può anche calcolare il numero di casi in cui compare una determinata parola, in modo da consentire la raccolta di informazioni sulla sua frequenza. Poi ci può interessare catalogare i dati in qualche modo - per esempio, in ordine alfabetico lavorando sulle parole che compaiono a destra o sinistra. Possiamo perfino ordinare la lista di parole cercando quelle che si ripetono più frequentemente nel contesto immediato della parola. Possiamo prendere la nostra lista iniziale di esempi di however presentati nel contesto (di solito definita concordanza - si veda il Modulo 2.4), ed ricavarne un'altra, diciamo di tutti gli esempi di however seguiti immediatamente dalla parola we o seguiti da un segno di punteggiatura.

Le procedure descritte sono spesso inserite in un programma per l'analisi delle concordanze, che è lo strumento usato più spesso nella linguistica dei corpora per analizzare appunto i corpora. In ultima analisi, qualunque sia il vantaggio filosofico che si abbia da un corpus, è il computer che ci consente di sfruttare ampiamente i corpora con velocità e precisione.

______________________________________________

3. La moderna linguistica dei corpora

Indice della Sezione 3

3.1. Definizione di corpus

3.2 Campionatura e rappresentatività

3.3. Dimensioni finite

3.4. Formato leggibile dal computer

3.5 Riferimento standard

3.6 Corpora multilingue

3.7 Codificazione di un testo e note

3.8 Tipi di note

3.9 Trascrizione fonetica

3.10 Problem-oriented tagging

3.11 I corpora negli studi sulla lingua

3.12 I corpora negli studi sul lessico

3.13 I corpora e la grammatica

3.14 I corpora e la sociolinguistica

____________________________________________________

3.1 Definizione di corpus

Non è solo la linguistica dei corpora che si occupa dello svolgimento di una ricerca su testi scritti o orali. In realtà, singoli testi sono spesso usati per vari tipi di analisi letteraria e linguistica - l'analisi stilistica di una poesia o l'analisi di una conversazione durante un talk show televisivo. Tuttavia, la nozione di corpus come base per una forma di linguistica empirica è diversa, sotto molti aspetti fondamentali, dall'esame di testi singoli.

In linea di principio, qualsiasi raccolta che contenga più di un testo può essere definita un corpus (la parola corpus viene dal latino e significa "corpo"; quindi un corpus si riferisce a qualsiasi corpo di testo). Ma il termine "corpus", usato nel contesto della linguistica moderna, tende sempre più frequentemente ad avere connotazioni più specifiche di questa semplice definizione.

_________________________________________________

3.2 Campionatura e rappresentatività

Spesso in linguistica non ci interessa solo un testo o un singolo autore, ma una varietà di lingua. In tali casi, abbiamo due possibilità per la raccolta dei dati:

Possiamo analizzare ogni singola espressione linguistica di quella varietà - questa opzione, tuttavia, non è praticabile se non in pochi casi, per esempio con una lingua morta che abbia solo alcuni testi. Di solito, però, l'analisi di tutte le espressioni sarebbe un compito infinito e impossibile.

Possiamo costruire un piccolo campione di quella varietà. E' un'opzione più realistica.

Come discusso nella sezione 1, una delle critiche di Chomsky all'approccio orientato verso un corpus era che la lingua è infinita - pertanto, qualunque corpus sarebbe sbilanciato. In altre parole, alcune espressioni ne sarebbero escluse perché sono rare, altre, pur molto più comuni, ne sarebbero escluse casualmente, e invece espressioni estremamente rare potrebbero esservi incluse parecchie volte. Sebbene oggigiorno la moderna tecnologia informatica ci consenta di costruire corpora più ampi di quelli a cui pensava Chomsky, le sue critiche devono essere ancora prese sul serio. Ciò non significa che dobbiamo abbandonare la linguistica dei corpora, ma invece dobbiamo cercare di trovare il modo in cui si possa costruire un corpus molto meno ingannevole e quindi rappresentativo.

Dobbiamo quindi creare un corpus che sia rappresentativo al massimo grado della varietà linguistica sotto analisi, che ci dia, cioè, un quadro il più accurato possibile delle tendenze di quella varietà e della loro proporzione. Siamo dunque alla ricerca di una vasta gamma di autori e generi che, presi tutti insieme, possano "costituire la media" e fornire un quadro ragionevolmente accurato di tutta la popolazione linguistica che ci interessa.

______________________________________________

3.3. Dimensioni finite

Il termine "corpus" definisce anche un corpo di testo di dimensioni finite, per esempio un milione di parole. Non è sempre così. Infatti, all'Università di Birmingham, il team COBUILD di John Sinclair è impegnato nella costruzione e analisi di un corpus di monitoraggio. Questa "raccolta di testi", come la squadra di Sinclair preferisce chiamarla, è un'entità aperta - l'aggiunta costante di nuovi testi ne fa continuamente aumentare le dimensioni. I corpora di monitoraggio sono interessanti per i lessicografi che possono esaminare un gruppo di nuovi testi alla ricerca di parole nuove o dei cambiamenti di significato di vecchie parole. I principali vantaggi sono:

Non sono statici - vi si possono sempre aggiungere nuovi testi, a differenza della "fotografia istantanea" sincronica fornita dai corpora finiti.

Il campo d'azione - danno una campione di lingua grande e ampio.

Lo svantaggio principale è il seguente:

Non sono una fonte affidabile di dati quantitativi (opposti ai dati qualitativi) perché cambiano continuamente di dimensioni e sono catalogati meno rigorosamente dei corpora finiti.

Con l'eccezione dei corpora di monitoraggio, si deve osservare che molto spesso i corpora constano di un numero finito di parole. Di solito la cifra viene determinata all'inizio di un progetto mirante alla costruzione di un corpus. Per esempio, il Brown Corpus contiene un milione di parole di uso corrente. A differenza del corpus di monitoraggio, quando un corpus raggiunge il totale di parole stabilito, la raccolta viene interrotta e il corpus non aumenta di dimensioni. (Fa eccezione il Corpus London-Lund, che è stato aumentato a metà degli anni 70 per coprire una più ampia varietà di generi).

_____________________________________________

3.4 Formato leggibile dal computer

Oggigiorno il termine "corpus" quasi sempre ha implicita la caratteristica aggiuntiva "leggibile dal computer". Non è stato sempre così, perché nel passato la parola "corpus" veniva usata soltanto in riferimento al testo stampato.

Oggi pochi corpora sono disponibili su carta - uno di questi è "A Corpus of English Conversation" (Svartvik e Quirk 1980), che rappresenta il London-Lund Corpus "originale". I dati di un corpus (incluse le liste di frequenza senza contesto) sono talvolta supportati da altri media. Per esempio, una concordanza completa con parole chiave contestualizzate del LOB Corpus è disponibile su microscheda, e per i corpora di lingua parlata qualche volta sono disponibili copie delle registrazioni - è il caso del Corpus di Inglese Parlato Lancaster/IBM ma non del London-Lund Corpus.

I corpora leggibili dal computer hanno i seguenti vantaggi rispetto ai formati scritti o parlati:

Possono essere esaminati e manipolati velocemente. (Ne abbiamo già parlato alla fine della prima parte).

Possono essere facilmente arricchiti di informazioni extra. (Esamineremo più oltre questo punto nel dettaglio.)

Se non l'avete già fatto, ora potete informarvi sulle altre caratteristiche dei corpora moderni.

________________________________________________________

3.5 Riferimento standard

C'è spesso un tacito accordo che un corpus costituisca un riferimento standard della varietà di lingua che rappresenta. Ciò presuppone che sia disponibile facilmente per altri ricercatori, come di fatto avviene con molti corpora - per esempio il Brown, il LOB e il London-Lund.

Un vantaggio di un corpus facilmente disponibile è che fornisce il parametro su cui misurare gli studi successivi. Purché la metodologia sia resa chiara, risultati nuovi su argomenti collegati possono essere confrontati direttamente con risultati già pubblicati senza bisogno di altri calcoli.

Inoltre un corpus standard significa anche che viene usata una base continua di dati. Ciò implica che qualsiasi variazione fra studi diversi è dovuta con minore probabilità a differenze nei dati e più verosimilmente all'adeguatezza delle ipotesi e della metodologia contenute nello studio.

______________________________________________

3.6 Corpora multilingue

Non tutti i corpora sono monolingue, e una quantità sempre maggiore di lavoro viene dedicata alla costruzione di corpora multilingue, che contengono testi appartenenti a lingue diverse.

In primo luogo, dobbiamo fare una distinzione tra due tipi di corpora multilingue: il primo in realtà può essere descritto come una serie di piccole raccolte di corpora monolingue singoli nel senso che le stesse procedure e categorie vengono usate per ciascuna lingua, ma ogni raccolta contiene testi completamente diversi nelle varie lingue. Per esempio, il corpus Aarthus delle leggi contrattuali in danese, francese e inglese è composto da una serie di tre corpora legislativi monolingue ma non comprende traduzioni degli stessi testi.

I corpora multilingue di secondo tipo (quello a cui viene dedicata maggiore attenzione) sono definiti corpora paralleli. Sono corpora che contengono gli stessi testi in più di una lingua. Il corpus parallelo risale al Medioevo quando venivano realizzate -"bibbie poliglotte" che contenevano i testi biblici in ebraico, latino, greco ecc. fianco a fianco.

Un corpus parallelo non è immediatamente amichevole per l'utente. Perché il corpus sia utile, è necessario individuare quali frasi nei sotto-corpora sono traduzioni reciproche e quali parole sono traduzioni reciproche. Un corpus che palesa queste identificazioni si chiama corpus allineato, in quanto stabilisce un legame esplicito tra gli elementi che sono traduzioni reciproche. Per esempio, in un corpus, le frasi "Das Buch ist auf dem Tisch" e "The book is on the table" possono essere allineate l'una con l'altra. Ad un livello ulteriore vi può essere l'allineamento di parole specifiche, per esempio "Das" con "The". Non si tratta sempre di un procedimento semplice, comunque, perché spesso una parola in una lingua può corrispondere a due in un'altra; per esempio la parola tedesca "raucht" potrebbe equivalere a "is smoking" in inglese.

Attualmente ci sono pochi casi di corpora paralleli con note e quelli esistenti tendono ad essere bilingui piuttosto che multilingue. Tuttavia, due progetti finanziati dall'Unione Europea (CRATER e MULTEXT) sono mirati a realizzare corpora paralleli veramente multilingue. Il corpus canadese Hansard ha delle note e contiene testi paralleli in francese e inglese, ma copre solo una gamma limitata di tipi di testo (procedure del Parlamento canadese). Tuttavia, ci troviamo di fronte a un settore in sviluppo e la situazione è destinata a cambiare drasticamente nel prossimo futuro.

________________________________________________

3.7 Codificazione di un testo e note

Se un corpus reca la dicitura senza note, appare allo stato originale di testo semplice, mentre il corpus con note è stato arricchito di vari tipi di informazioni linguistiche. Non sorprende che l'utilità del corpus aumenti quando reca delle note, poiché non è più un corpo di testo dove le informazioni linguistiche sono implicite, ma uno che può essere a ragione considerato una miniera di informazioni linguistiche. Le informazioni implicite sono state rese esplicite attraverso l'uso di note concrete.

Per esempio, la forma "gives" contiene l'informazione implicita sulla parte del discorso "verbo alla terza persona singolare del tempo presente", che però è recuperata durante la lettura normale soltanto facendo ricorso alla nostra conoscenza preesistente della grammatica inglese. Tuttavia, in un corpus con note la forma "gives" può apparire come "gives_VVZ". Il codice VVZ indica che si tratta di una terza persona singolare del tempo presente (Z) di un verbo lessicale (VV). Simili note rendono più veloce e facile il recupero e l'analisi delle informazioni sulla lingua contenuta nel corpus.

________________________________________________

3.8 Tipi di note

Alcuni tipi di note linguistiche, che implicano l'attribuzione di codici speciali alle parole per indicare particolari caratteristiche, sono spesso conosciute come "tagging" piuttosto che note, e i codici che sono attribuiti alle caratteristiche sono denominati "tags". Questi termini saranno usati nelle sezioni successive.

Si tratta del tipo base delle note ad un corpus linguistico - lo scopo è attribuire a ogni unità lessicale del testo un codice che indica di quale parte del discorso si tratta. Le note relative alle parti del discorso sono utili perché aumentano la specificità del recupero dei dati dai corpora, e inoltre fungono da base essenziale per ulteriori forme di analisi (come l'analisi sintattica e le note relative all'area semantica). Ci consentono poi di distinguere fra gli omografi.

Le note relative alle parti del discorso sono state tra i primi tipi aggiunti ai corpora e attualmente sono le più comuni, soprattutto perché possono essere eseguite da un computer con un alto grado di precisione. Greene e Rubin (1971) hanno ottenuto un tasso di precisione del 71% di note corrette con il loro primo programma di tagging delle parti del discorso (TAGGIT). All'inizio degli anni 80 il team Ucrel dell'Università di Lancaster ha affermato di aver ottenuto una percentuale di successo del 95% con l'uso del proprio programma CLAWS.

______________________________________________________

3.9 Trascrizione fonetica

I corpora di lingua parlata possono essere trascritti con un sistema di trascrizione fonetica. Al momento in cui scriviamo non esistono molti esempi di corpora trascritti foneticamente disponibili al pubblico. Forse perché la trascrizione fonetica deve essere eseguita da esseri umani più che dai computer. E queste persone, inoltre, devono essere molto abili nella percezione e trascrizione dei suoni del discorso. La trascrizione fonetica quindi è un lavoro che fa perdere molto tempo.

Un altro problema è che la trascrizione fonetica lavora sull'ipotesi che il discorso orale possa essere diviso in singoli "suoni" ben definiti, mentre di fatto questi suoni non hanno limiti così chiari. Quindi, quello che per la trascrizione fonetica è lo stesso suono, può variare a seconda del contesto.

Ciononostante, i corpora trascritti foneticamente sono estremamente utili per il linguista che manca degli strumenti tecnologici e della competenza per l'analisi in laboratorio della registrazione dei discorsi. Un esempio è costituito dal corpus MARSEC (che è tratto dal Corpus di Inglese Parlato Lancaster/IBM), che è stato integrato dalle Università di Lancaster e Leeds. Il corpus MARSEC includerà una trascrizione fonetica.

_________________________________________

3.10 Problem-oriented tagging

Il problem-oriented tagging (nella descrizione di de Haan (1984)) è il fenomeno per cui gli utenti prendono un corpus, con note o senza, e vi aggiungono le proprie, mirate in particolare all'obiettivo oggetto di ricerca. Questa modalità si differenzia dagli altri tipi di aggiunta di note, che abbiamo esaminato in questa sezione, per due aspetti.

Non è esauriente. Non tutte le parole (o frasi) sono provviste di note- solo quelle che sono direttamente rilevanti per la ricerca. E' una caratteristica che accomuna il problem-oriented tagging alle annotazioni anaforiche.

Gli schemi delle note vengono selezionati, non allo scopo di essere esaurienti e dare neutralità alla teoria, ma a seconda dell'importanza delle distinzioni oggetto delle domande specifiche a cui il ricercatore vuole dare risposta analizzando i dati in suo possesso.

Sebbene sia difficile generalizzare ulteriormente su questo modo di aggiungere note ai corpora, si tratta di un tipo importante da tenere in considerazione nel contesto della ricerca pratica eseguita usando i corpora.

_____________________________________________________

3.11 I corpora negli studi sulla lingua

In questa sezione esamineremo alcuni ruoli che i corpora possono avere nello studio della lingua. L'importanza dei corpora per lo studio della lingua va di pari passo con l'importanza dei dati empirici. I dati empirici consentono al linguista di fare affermazioni oggettive, piuttosto che soggettive o basate sulla percezione cognitiva della lingua interiorizzata dal singolo. I dati empirici ci consentono inoltre di studiare le varietà linguistiche, come i dialetti o le fasi iniziali di una lingua, per i quali non è possibile utilizzare un approccio razionalista.

E' importante osservare che sebbene molti linguisti usino il termine "corpus" per definire qualsiasi raccolta di testi, quando viene usato in questa sede si riferisce a un corpo di testo che è attentamente campionato per essere rappresentativo al massimo grado della lingua o della varietà linguistica oggetto di studio. La linguistica dei corpora dovrebbe essere vista come un sotto-insieme dell'attività che viene svolta all'interno di un approccio empirico alla linguistica. Sebbene la linguistica dei corpora preveda un approccio empirico, la linguistica empirica non sempre prevede l'uso di un corpus.

Nelle pagine seguenti analizzeremo il ruolo che l'uso dei corpora può avere in diversi ambiti di studio afferenti alla lingua. Ci concentreremo sulle questioni concettuali, illustrando, con l'ausilio di esempi concreti, perché i dati di un corpus sono importanti per tutti questi ambiti e come possono contribuire al progresso della conoscenza in ciascuno di essi.

____________________________________________________

3.12 I corpora negli studi sul lessico

I dati empirici sono stati usati in lessicografia molto prima che la disciplina della linguistica dei corpora fosse inventata. Per esempio, Samuel Johnson arricchì il suo dizionario con esempi tratti dalla letteratura, e nel XIX secolo l'Oxford Dictionary usò brevi citazioni per studiare ed illustrare l'uso delle parole. I corpora, tuttavia, hanno cambiato il modo in cui i linguisti possono guardare alla lingua.

Un linguista che ha accesso ad un corpus, o ad un'altra raccolta (non rappresentativa) di testi leggibili dal computer, può recuperare tutti gli esempi di una parola o espressione linguistica all'interno di un testo contenente molti milioni di parole in pochi secondi. Si possono produrre e rivedere dizionari più velocemente, fornendo così informazioni aggiornate sulla lingua. Inoltre, le definizioni possono essere più complete e precise in quanto vengono analizzati molti più esempi di lingua autentica.

Gli esempi tratti dai corpora possono essere facilmente organizzati in gruppi più significativi per l'analisi. Si possono, così, classificare in ordine alfabetico le parole che compaiono nel contesto a destra della parola chiave in modo che sia possibile vedere insieme tutti i casi di un particolare costrutto. Inoltre, poiché i dati di un corpus contengono una gran quantità di informazioni testuali - varietà regionale, autore, data, genere, parte del discorso ecc. -, è più facile collegare l'uso di determinate parole o espressioni linguistiche a particolari varietà regionali, generi e così via.

Un corpus di monitoraggio aperto (che cresce costantemente) ha un ruolo molto importante nella costruzione di un dizionario, in quanto consente ai lessicografi di essere sempre al corrente delle nuove parole che entrano nella lingua, o delle parole esistenti che cambiano significato oppure della variazione nell'uso a seconda del genere ecc. Tuttavia, anche i corpora finiti hanno un ruolo importante negli studi sul lessico - nell'ambito della quantificazione. E' possibile realizzare rapidamente conteggi di frequenza affidabili e suddividerli in senso verticale, orizzontale o altro, secondo le varietà di lingua in cui una parola viene usata.

Infine, la possibilità di richiamare combinazioni di parole piuttosto che singole parole e l'esistenza di strumenti di informazione reciproca che stabiliscono relazioni tra parole che compaiono congiuntamente (si veda la Sezione 3) significano che possiamo analizzare le espressioni e le costruzioni linguistiche in modo più sistematico di quanto fosse possibile in precedenza.

________________________________________________

3.13 I corpora e la grammatica

Gli studi sulla grammatica (o sulla sintassi) sono, insieme agli studi sul lessico, i tipi più frequenti di ricerca che si sono serviti dei corpora. I corpora sono uno strumento utile per la ricerca sintattica in quanto hanno:

un notevole potenziale per la quantificazione rappresentativa di una completa varietà linguistica.

il ruolo di dati empirici per testare le ipotesi tratte dalla teoria grammaticale.

Molti studi di grammatica su piccola scala, svolti con l'uso dei corpora, hanno incluso l'analisi quantitativa dei dati (per esempio, lo studio di Schmied del 1993 sulle frasi relative). Attualmente suscita maggiore interesse lo studio sistematico della frequenza grammaticale - per esempio, Oostdijk e de Haan (1994a) intendono analizzare la frequenza dei diversi tipi di frasi inglesi.

Dagli anni 50 la divisione tra la linguistica basata sulla teoria razionalistica e la linguistica empirico-descrittiva (si veda la Sezione uno) ha spesso significato che questi due approcci sono stati visti come separati e in competizione fra loro. Tuttavia, c'è un gruppo di ricercatori che ha usato i corpora per testare la teoria grammaticale razionalistica piuttosto che per la semplice descrizione della lingua o per favorire l'induzione della teoria.

Per esempio, all'Università di Nijmegen, le grammatiche formali essenzialmente razionalistiche vengono testate sulla lingua viva contenuta nei corpora computerizzati (Aarts 1991). La grammatica formale viene prima costruita facendo riferimento alle tecniche introspettive e ai resoconti esistenti della grammatica della lingua. La grammatica viene poi caricata in un analizzatore computerizzato (si veda il Modulo 3.5) ed è passata su un corpus per vedere quanto giustifica i dati in esso contenuti. La grammatica viene poi modificata per tenere conto delle analisi mancate o errate.

______________________________________________________

3.14 I corpora e la sociolinguistica

Sebbene la sociolinguistica sia un campo empirico di ricerca, finora si è basata principalmente sulla raccolta di dati specifici per la ricerca che spesso non sono mirati ad uno studio quantitativo e quindi non sono catalogati rigorosamente. Talvolta i dati vengono desunti al posto di quelli autentici. Un corpus può fornire quello che questi tipi di data non possono - un campione rappresentativo di dati autentici che possono essere quantificati. Sebbene i corpora non siano stati finora usati molto in sociolinguistica, vi sono prove che si tratta di un settore in espansione.

La maggior parte degli studi in questo settore ha riguardato il lessico nell'area linguistica e di genere. Kjellmer (1986), per esempio, ha usato i corpora Brown e LOB per esaminare il pregiudizio maschilista nell'inglese britannico e americano. Ha osservato quando comparivano i pronomi maschili e quelli femminili e le voci man/men e woman/women. Come del resto ci si potrebbe aspettare, la frequenza dei termini femminili era molto più bassa di quelli maschili in entrambi i corpora. E' interessante, comunque, notare che i termini femminili erano più comuni nell'inglese britannico che in quello americano. Un'altra ipotesi di Kjellmer non ha trovato riscontro nei corpora, quella che la donna fosse meno "attiva", vale a dire che fosse più spesso l'oggetto piuttosto che il soggetto dei verbi. Di fatto, uomini e donne avevano la stessa proporzione soggetto/oggetto.

Holmes (1994) individua due punti importanti relativi alla metodologia di questo tipo di studio, che vale la pena ricordare. In primo luogo, quando si classificano e si contano le volte in cui compaiono determinati termini, deve essere preso in considerazione il contesto dell'item lessicale analizzato. Per esempio, mentre esiste un'alternativa che non segnala il genere per policeman/policewoman, cioè police officer, non c'è una alternativa simile per la forma in -ess in Duchess of York. Quest'ultima forma deve essere perciò esclusa dai conteggi dei suffissi "sessisti" quando si esamina il pregiudizio di genere nei testi scritti. In secondo luogo, Holmes fa notare la difficoltà di classificare una forma quando sta subendo attivamente un cambiamento semantico. La parola man, ad esempio, può riferirsi sia a un individuo di sesso maschile (come nella frase A 35 year old man was killed) o può avere un significato generico che si riferisce all'umanità (come in Man has engaged in warfare for centuries). In frasi quali we need the right man for the job è difficile decidere se man ha connotazione di genere o potrebbe essere sostituito da person. Questi semplici punti dovrebbero favorire un approccio più critico alla classificazione dei dati nel lavoro in campo sociolinguistico con l'uso dei corpora, sia all'interno che al di fuori dell'ambito degli studi di genere.

____________________________________________________

4. Conclusione

In questa sezione abbiamo visto quanto lo studio della lingua abbia tratto vantaggio dall'uso di dati tratti da corpora. In conclusione, i vantaggi più importanti dei corpora sono i seguenti:

Campionatura e quantificazione: poiché un corpus è un campione rappresentativo al massimo grado della popolazione, qualsiasi elemento tratto dal corpus può essere esteso a quasi tutta la popolazione. Di qui la quantificazione nella linguistica dei corpora è più significativa di altre forme di quantificazione linguistica perché è rivelatrice di una varietà della lingua, non soltanto di quella che viene analizzata.

Facilità di accesso: poiché tutta la raccolta dei dati è stata fatta da qualcun altro, il ricercatore non deve passare attraverso le fasi di campionatura, raccolta e codificazione. La maggior parte dei corpora sono prontamente disponibili, gratuitamente o a basso prezzo. Una volta in possesso dei corpora, è di solito facile accedere ai dati contenuti, per esempio usando un programma per l'analisi delle concordanze.

Dati arricchiti: molti corpora sono già stati arricchiti di informazioni linguistiche aggiuntive come note relative alle parti del discorso, analisi e trascrizioni prosodiche. Di qui il recupero dei dati dai corpora provvisti di note può essere più facile e più specifico di quando non ci sono le note.

Dati autentici: i dati dei corpora non sempre sono totalmente spontanei, nel senso che le persone che producono i testi scritti o orali non sanno di star partecipando alla costruzione di un corpus. Ma per la maggior parte i dati sono reali, non controllati e sono il prodotto di contesti sociali autentici. In questo modo il corpus fornisce una delle fonti più affidabili per esaminare dati che si verificano realmente.

________________________________________________

5. Argomenti di discussione

Come potrebbero la linguistica basata sull'intuizione e la linguistica basata sui corpora unirsi in modo efficace per modellare la creazione di un pacchetto CALL?

In che misura possiamo considerare le note ai corpora "corrette" oggettivamente? Se non possiamo considerarle tali, che implicazioni ciò potrebbe avere per i pacchetti CALL che si basano proprio sulle note ai corpora?

_________________________________________________

6. Compiti di apprendimento

Immaginate di dover creare un corpus di microlingua come parte della realizzazione di un programma CALL per le microlingue. Scegliete un'area per il vostro compito e cercate di trovare in rete testi adatti per costruire il vostro corpus.

Dopo aver raccolto i testi, quali altre elaborazioni potreste eseguire? Usate un browser per cercare di trovare siti nella rete dove possiate effettuare tagging automatizzato relativo alle parti del discorso.

Immaginate ora di voler confrontare il vostro corpus di microlingua con un corpus di inglese generale. Usando il browser, scoprite quanti corpora di inglese generale sono disponibili. Qual è la proporzione tra corpora di inglese britannico disponibili e corpora di altre varietà di inglese?

________________________________________________

 

Bibliografia e riferimenti

Pubblicazioni scritte

Siti web

Pubblicazioni scritte

Abercrombie D. (1963) Studies in phonetics and linguistics, London: Oxford University Press.

Beale A. (1987) "Towards a distributional lexicon". In Garside R., Leech G. & Sampson G. (eds.) The computational analysis of English: a corpus based approach. London: Longman.

Bloom L. (1970) Language development: form and function in emerging grammars, Cambridge, MA: MIT Press.

Boas F. (1940) Race, language and culture, New York; Macmillan.

Bongers H. (1947) The history and principles of vocabulary control, Worden: Wocopi.

Brown R. (1973) A first language: the early stages, Cambridge, MA: Harvard University Press.

Chomsky N. (1964) "Formal Discussion". In Bellugi U. & Brown R. (eds.) The acquisition of language. Monographs of the Society for Research in Child Development 29: 37-39.

Chomsky N. (1965) Aspects of the theory of syntax, Cambridge, MA: MIT Press.

Chomsky N. (1968) Language and mind, New York: Harcourt Brace.

De Haan P. (1984) "Problem-oriented tagging of English corpus data". In Aarts J. & Meijs W. (eds.) Corpus linguistics, Amsterdam: Rodopi.

Fries C. & Traver A. (1940) English word lists: a study of their adaptability and instruction, Washington, DC: American Council of Education.

Greene B. & Rubin G. (1971) Automatic grammatical tagging of English. Technical Report, Department of Linguistics, Brown University, RI.

Halliday M. & Hasan R. (1976) Cohesion in English, London: Longman.

Harris Z. (1951) Methods in structural linguistics, Chicago: University of Chicago Press.

Hockett C. (1948) "A note on structure", International Journal of American Linguistics 14: 269-71.

Ingram D. (1978) "Sensori-motor development and language acquisition". In Lock A (ed.) Action, gesture and symbol: the emergence of language, London: Academic Press.

Ingram D. (1989) First language acquisition, Cambridge University Press, Cambridge.

Johansson S. (1991) "Times change and so do corpora". In Aijmer & Altenburg (eds.) English corpus linguistics: studies in honour of Jan Svartvik, London: Longman.

Kading J. (1879) Häufigkeitswörterbuch der deutschen Sprache, Steglitz: privately published.

Karlsson F., Voutilainen A., Heikkilä J. & Anttila A. (eds.) (1995) Constraint grammar: a language-independent system for parsing unrestricted text, Berlin: Mouton de Gruyter.

Kennedy G. (1992) "Preferred ways of putting things". In Svartvik J. (ed) Directions in corpus linguistics, Berlin: Mouton de Gruyter.

Labov V. (1969) "The logic of non-standard English", Georgetown Monographs on Language and Linguistics 22.

Leech G. (1991) "The state of the art in corpus linguistics". In Aijmer K. & Altenberg B. (eds.) English corpus linguistics: studies in honour of Jan Svartvik, London: Longman.

Leech G. (1992) "Corpora and theories of linguistic performance". In Svartvik, J. (ed.) Directions in corpus linguistics, Berlin: Mouton de Gruyter.

Leech G. (1993) "Corpus annotation schemes", Literary and Linguistic Computing 8, 4: 275-81.

McEnery T. & Wilson A. (1996) Corpus linguistics, Edinburgh: Edinburgh University Press.

O'Connor J. & Arnold G. (1961) Intonation of colloquial English, London: Longman.

Palmer H. (1933) Second interim report on English collocations, Tokyo: Institute for Research in English Teaching.

Quirk R. (1960) "Towards a description of English usage", Transactions of the Philological Society: 40-61.

Sampson G. (1992) "Probablistic parsing". In Svartvik, J. (ed.) Directions in corpus linguistics, Berlin: Mouton de Gruyter.

Schmidt K. M. (1993) Begriffsglossar und Index zu Ulrichs von Zatzikhoven Lanzelet, Tübingen: Niemeyer.

Sedelow S & Sedelow W. (1969) "Categories and procedures for content analysis in the humanities". In Gerbner G., Holsti O. R., Krippendorff K., Paisley W.J. & Stone P. J. (eds.) The analysis of communication Ccontent, New York: John Wiley.

Souter C. (1993) "Towards a standard format for parsed corpora". In Aarts J., De Haan P. & Oostdijk N. (eds.) English language corpora: design, analysis and exploitation, Amsterdam: Rodopi.

Sperberg-McQueen C.M. & Burnard L. (1994) Guidelines for electronic text encoding and interchange (P3), Chicago and Oxford: Text Encoding Initiative.

Stenström A-B. (1984) "Discourse tags". In Aarts J. & Meijs W. (eds.) Corpus linguistics, Amsterdam: Rodopi.

Svartvik J. (1966) On voice in the English verb, The Hague: Mouton.

Svartvik J. & Quirk R. (1980) A corpus of English conversation, Lund: C.W.K. Gleerup.

Thorndike E. (1921) A teacher's wordbook, New York: Columbia Teachers College.

Siti web

University Centre for Computer Corpus Research on Language (UCREL), University of Lancaster. Molti link utili e una funzione di tagging relativo alle parti del discorso che si basa sulla rete: http://www.comp.lancs.ac.uk/computing/research/ucrel

The Electronic Text Centre, University of Virginia. Un'ampia raccolta di testi umanistici in 12 lingue. Una fonte utile per testi da inserire nei corpora:
http://etext.lib.virginia.edu/

The Corpora List Archive in Hypermail. Una lista di discussione per chi è interessato alla linguistica dei corpora - un sostanzioso archivio di messaggi:

http://www.hd.uib.no/corpora/archive.html

The Corpus Research Group, University of Birmingham. Molti link utili, compreso l'accesso a una funzione di tagging relativo alle parti del discorso basata su e-mail.

http://www-clg.bham.ac.uk/

University of Louvain, Belgium. Una lista completa di pubblicazioni sui corpora:
http://www.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/publications.html

University of Lancaster. Un sito web completo sulla linguistica dei corpora, in aggiunta al libro di McEnery & Wilson (1996):
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm

Michael Barlow: il suo sito sulla linguistica dei corpora. Molti utili link e fonti di informazione. Copre un'ampia varietà di lingue:

http://www.ruf.rice.edu/~barlow/corpus.html

Feedback

Il feedback può essere inviato e-mail al Coordinatore del Progetto ICT4LT, Hamid Momtahan, Thames Valley University. In alternativa, si può riempire il modulo on-line cliccando sul link: Feedback form for English modules

____________________________________________________

Ultimo aggiornamento del documento 1 maggio 2000.

© ICT4LTProgetto 2000. I materiali contenuti in questo sito web sono soggetti a copyright. Possono essere scaricati, stampati e usati per scopi non commerciali in un ambiente di insegnamento o formazione. Se vengono riprodotti in qualsiasi forma per intero o in parte la fonte del materiale e gli autori devono essere citati.

Ritorna alla Home Page ICL4LT italiana