Corpus

Accesso al Corpus


Per accedere al corpus bisogna effettuare una semplice registrazione al seguente link:

La registrazione verrà riattivata quanto prima
Una volta effettuata la registrazione si avrà accesso, previa autenticazione, ai corpora ed agli strumenti messi a disposizione all'interno dell'area privata raggiungibile tramite il menù in alto od attraverso il seguente link:

Il corpus verrà riattivato quanto prima

Struttura Corpus

Sottocorpora:

Il corpus archiviato, disponibile attraverso la pagina “accesso al corpus”, è suddiviso in 5 sottocorpora, cui corrispondono altrettante cartelle (1° livello):

CartellaRADIOTELEVISIVO
CartellaDIALOGICO
CartellaLETTO
CartellaTELEFONICO
CartellaORTOFONICO

Località:

Ciascun sottocorpus è a sua volta suddiviso in 15 cartelle (2° livello) corrispondenti a ciascuna delle località di raccolta:

CartellaBARI
CartellaBERGAMO
CartellaCAGLIARI
CartellaCATANZARO
CartellaFIRENZE
CartellaGENOVA
CartellaLECCE
CartellaMILANO
CartellaNAPOLI
CartellaPALERMO
CartellaPARMA
CartellaPERUGIA
CartellaROMA
CartellaTORINO
CartellaVENEZIA


Per il corpus RADIOTELEVISIVO è presente anche una cartella NAZIONALE, per le registrazioni delle trasmissioni da reti a diffusione nazionale.

Per il corpus ORTOFONICO è presente solo la cartella NAZIONALE.

Materiali

Per ciascuna località i dati sono suddivisi in 2 cartelle di materiali (3° livello) a seconda del trattamento ricevuto^:

Cartellacorpus: comprende i materiali registrati (file in formato Wave*) e le relative trascrizioni (file in formato Txt).
Cartellaetichettato: comprende i materiali etichettati (file in formato Wave*) e i relativi file di etichettatura (formati Ascii: wrd, wr_, std, st_, add, phn, acs)**.


* Per l’apertura dei file audio è sufficiente un qualsiasi programma di riproduzione audio.

** Per la visualizzazione dei materiali etichettati è possibile utilizzare il programma Wavesurfer per Clips disponibile nell’area “programmi”.

^ Per le specifiche di trascrizione ed etichettatura si veda la documentazione relativa nell’area “documenti”.

Tipo

Per ciascuna cartella di materiali i dati sono suddivisi per tipologia in diverse sottocartelle (4° livello). Le tipologie sono differenziate a seconda del corpus:

CartellaRADIOTELEVISIVO: è suddiviso in RD (radiofonico) e TV (televisivo)
CartellaDIALOGICO: è suddiviso in mt (map-task) e td (test differenze)
CartellaLETTO è suddiviso in LF (lista frasi), LM (lista oggetti map-task) e LT (lista oggetti test differenze)
CartellaTELEFONICO è suddiviso in auto (automatico) e woz (Wizard of Oz)
CartellaORTOFONICO: è suddiviso in LP (liste frasi) e LB (liste frasi bilanciate)


Per i dettagli sul contenuto dei vari tipi di materiali si vedano i documenti descrittivi nell’area “documenti”.

Sottotipo

Ciascun tipo può prevedere la suddivisione in più sottotipi, corrispondenti a diverse cartelle (5° livello), specifiche per ciascun corpus:

a) RADIOTELEVISIVO prevede i seguenti sottotipi di RD e TV:

Cartelladc (divulgazione e cultura)
Cartellait (intrattenimento)
Cartellais (informazione e servizio)
Cartellapb (pubblicità)


d) TELEFONICO prevede i seguenti sottotipi di auto e woz:

CartellaM (maschi)
CartellaF (femmine)


e) ORTOFONICO prevede i seguenti sottotipi per LP, LB:

CartellaM (maschi)
CartellaF (femmine)

Codice

I corpora TELEFONICO e ORTOFONICO prevedono un’ulteriore suddivisione in cartelle (6° livello) corrispondenti a codici specifici utilizzati per la schedatura, rispettivamente, di ciascuno scenario e di ciascun parlante.

Per i dettagli sulla legenda dei codici si vedano i documenti descrittivi nell’area “documenti”.