Benvenuto sul sito del progetto CLIPSVersione italianaVersione inglese

CLIPS

Homepage

Cosa è CLIPS ?

CLIPS, ovvero Corpora e Lessici dell'Italiano Parlato e Scritto, è uno degli otto progetti (Progetto n. 2) del Cluster C18 "LINGUISTICA COMPUTAZIONALE: RICERCHE MONOLINGUI E MULTILINGUI" (Legge 488), finanziato dal Ministero dell'Istruzione, dell'Università e della Ricerca (MIUR).

Il Sito Web che state per visitare contiene esclusivamente le pagine relative alla sezione "Corpora di Parlato".

Per la sezione Lessici e Scritto, di cui è responsabile l' ILC di Pisa, cliccare qui

Presentazione del progetto CLIPS

Presentazione a cura di Federico Albano Leoni

Il corpus di italiano parlato che qui si presenta e si rende integralmente pubblico, è parte di un progetto finanziato da MURST, poi MIUR, partito il 5 febbraio 1999 e concluso nel 2004. Il progetto, come mostra il suo acronimo (Corpora e Lessici di Italiano Parlato e Scritto – CLIPS), era finalizzato alla messa a punto di strumenti per lo studio generale e per il trattamento automatico dell’italiano, tanto nella sua forma scritta quanto nella sua forma parlata.
Per quanto riguarda la sezione relativa al parlato, il progetto ha consentito di colmare una lacuna negli strumenti per lo studio dell’italiano dal punto di vista linguistico e da quello applicativo, in un momento in cui, da ambedue i punti di vista, l’interesse per la comunicazione parlata è in forte crescita.
La necessità di disporre di strumenti di base per lo studio delle lingue, e in particolare per la loro dimensione parlata, è ormai largamente nota (McEnery, Wilson 1996). Tra questi strumenti, i corpora di parlato, acquisiti in varie condizioni, sono di fondamentale importanza da due punti di vista: a) per la descrizione e la conoscenza del funzionamento della lingua parlata in tutte le condizioni di impiego; b) per la predisposizione di strumenti applicativi che servano come base per la realizzazione di sistemi di riconoscimento del parlato e di produzione di voce sintetica di buona qualità, con particolare riferimento all’intonazione.
Questi due obiettivi sono connessi tra di loro molto più strettamente di quanto si potrebbe pensare, e il secondo dipende dal primo. Infatti, l’esperienza di molti paesi, e in primo luogo degli USA, mostra che tanto da un punto di vista operativo, quanto da quello economico, è sbagliato procedere solo alla predisposizione di strumenti di ambito circoscritto, immediatamente ed esclusivamente finalizzati ad una determinata applicazione. Infatti le caratteristiche di funzionamento di una lingua sono generali ed è antieconomico, oltre che metodologicamente scorretto, tentare di descriverle solo su piccoli sottoinsiemi specifici. Inoltre, la somma di questi strumenti settoriali non sarà mai pari alla struttura nel suo complesso.
Ne consegue che una strategia efficace di predisposizione di strumenti, in grado di soddisfare tanto le esigenze di conoscenza generale della lingua, quanto quelle della produzione di applicazioni di buona qualità, è una strategia che intreccia strettamente gli aspetti generali con quelli particolari.
Il primo strumento per l’attuazione di questa strategia integrata è la costituzione di corpora stratificati e calibrati. Le lingue naturali sono infatti caratterizzate da una fortissima variabilità in tutte le loro manifestazioni (Sobrero 1993; Berruto 1995), ed è noto da tempo che questa caratteristica si manifesta in modo drammatico proprio nel parlato (Brown 1990). Questa constatazione, di per sé banale, non affiora sempre al nostro senso comune perché la percezione del fenomeno è offuscata da due fattori: il filtro della rappresentazione scritta, che dà una impressione di stabilità e facile segmentabilità alla lingua; il tipo di atteggiamento normativo nei confronti della lingua a cui siamo addestrati dalla scuola. Ma le cose non stanno così, perché in realtà ogni nostro atto comunicativo si colloca in una determinata posizione rispetto alle seguenti variabili:

A) variabile regionale: il modo in cui parliamo dipende anche dalla nostra regione di provenienza.
B) variabile sociale: il modo in cui parliamo dipende anche dal nostro grado di istruzione, dal nostro mestiere, dall’ambiente sociale a cui apparteniamo.
C) variabile stilistica: il modo in cui parliamo dipende anche dalla situazione in cui ci troviamo di volta in volta;
D) variabile individuale: il modo in cui parliamo dipende anche da caratteristiche anatomiche e idiosincratiche di ciascuno di noi.

Continua...


free counters