Corpus
Accesso al Corpus
Per accedere al corpus bisogna effettuare una semplice registrazione al seguente link:
Struttura Corpus
Sottocorpora:
Il corpus archiviato, disponibile attraverso la pagina “accesso al corpus”, è suddiviso in 5 sottocorpora, cui corrispondono altrettante cartelle (1° livello):
RADIOTELEVISIVO
DIALOGICO
LETTO
TELEFONICO
ORTOFONICO
Località:
Ciascun sottocorpus è a sua volta suddiviso in 15 cartelle (2° livello) corrispondenti a ciascuna delle località di raccolta:
BARI
BERGAMO
CAGLIARI
CATANZARO
FIRENZE
GENOVA
LECCE
MILANO
NAPOLI
PALERMO
PARMA
PERUGIA
ROMA
TORINO
VENEZIA
Per il corpus RADIOTELEVISIVO è presente anche una cartella NAZIONALE, per le registrazioni delle trasmissioni da reti a diffusione nazionale.
Per il corpus ORTOFONICO è presente solo la cartella NAZIONALE.
Materiali
Per ciascuna località i dati sono suddivisi in 2 cartelle di materiali (3° livello) a seconda del trattamento ricevuto^:
corpus: comprende i materiali registrati (file in formato Wave*) e le relative trascrizioni (file in formato Txt).
etichettato: comprende i materiali etichettati (file in formato Wave*) e i relativi file di etichettatura (formati Ascii: wrd, wr_, std, st_, add, phn, acs)**.
* Per l’apertura dei file audio è sufficiente un qualsiasi programma di riproduzione audio.
** Per la visualizzazione dei materiali etichettati è possibile utilizzare il programma Wavesurfer per Clips disponibile nell’area “programmi”.
^ Per le specifiche di trascrizione ed etichettatura si veda la documentazione relativa nell’area “documenti”.
Tipo
Per ciascuna cartella di materiali i dati sono suddivisi per tipologia in diverse sottocartelle (4° livello). Le tipologie sono differenziate a seconda del corpus:
RADIOTELEVISIVO: è suddiviso in RD (radiofonico) e TV (televisivo)
DIALOGICO: è suddiviso in mt (map-task) e td (test differenze)
LETTO è suddiviso in LF (lista frasi), LM (lista oggetti map-task) e LT (lista oggetti test differenze)
TELEFONICO è suddiviso in auto (automatico) e woz (Wizard of Oz)
ORTOFONICO: è suddiviso in LP (liste frasi) e LB (liste frasi bilanciate)
Per i dettagli sul contenuto dei vari tipi di materiali si vedano i documenti descrittivi nell’area “documenti”.
Sottotipo
Ciascun tipo può prevedere la suddivisione in più sottotipi, corrispondenti a diverse cartelle (5° livello), specifiche per ciascun corpus:
a) RADIOTELEVISIVO prevede i seguenti sottotipi di RD e TV:
dc (divulgazione e cultura)
it (intrattenimento)
is (informazione e servizio)
pb (pubblicità)
d) TELEFONICO prevede i seguenti sottotipi di auto e woz:
M (maschi)
F (femmine)
e) ORTOFONICO prevede i seguenti sottotipi per LP, LB:
M (maschi)
F (femmine)
Codice
I corpora TELEFONICO e ORTOFONICO prevedono un’ulteriore suddivisione in cartelle (6° livello) corrispondenti a codici specifici utilizzati per la schedatura, rispettivamente, di ciascuno scenario e di ciascun parlante.
Per i dettagli sulla legenda dei codici si vedano i documenti descrittivi nell’area “documenti”.