Slajdy jsou k dispozici na adrese https://trnka.korpus.cz/~lukes/slides/slovko2017.
korpus | # slov | roky sběru |
---|---|---|
ORTOFON | 1 mil. | 2012–2017 |
ORAL | 5,4 mil. | 2002–2011 |
↳ ORAL2013 | 2,8 mil. | 2008–2011 |
↳ ORAL2008 | 1 mil. | 2002–2007 |
↳ ORAL2006 | 1 mil. | 2002–2006 |
BMK | 490 tis. | 1994–1999 |
PMK | 675 tis. | 1988–1996 |
korpus | # slov | roky sběru |
---|---|---|
DIALEKT | 100 tis. | 1957–2015 |
LINDSEI_CZ | 120 tis. | 2012–2015 |
SCHOLA2010 | 790 tis. | 2005–2008 |
ORAL = ORAL2006 + ORAL2008 + ORAL2013 + dříve nezveřejněná data
Na úrovni dokumentů (strukturní jednotky <doc/>
).
doc.situation
: 12 předdefinovaných typů situacídoc.year
, doc.month
, doc.location
: čas a místo nahrávkydoc.relationship
: vztahy mezi mluvčími v nahrávcedoc.genders
: zastoupení pohlaví mezi mluvčími v nahrávcedoc.generations
: počet generací zastoupených v nahrávceNa úrovni mluvčích (strukturní jednotky <sp/>
).
sp.gender
: pohlavísp.age
: věksp.edu_level
, sp.edu_field
: úroveň a oblast nejvyššího dosaženého vzdělánísp.occupation
: zaměstnánísp.{reg,loc,locsize}_{childhood,longest,current}
: {nářeční oblast, místo, velikost místa} pobytu {v dětství, nejdelšího, současného}sp.proportion
: podíl replik mluvčího na celkové konverzaciHlavní inovace oproti sérii korpusů ORAL: víceúrovňový přepis. Historie nástrojů pro přepis:
Segmenty o max. délce 25 tokenů (usnadňuje revizi a práci s korpusem).
Překryvy značené pomocí [...]
v rámci segmentů.
Transkripční vrstvy:
Anotační vrstvy:
První fáze přepisu, spolu s anotačními vrstvami.
Kompromis mezi dvěma protichůdnými požadavky:
Prozodicky motivovaná interpunkce:
.
= prozodický předěl (případně s pauzou do 120 ms)..
= pauza 120 ms – 2 smeta
Průvodní jevy: např. <SM nápady>
= se smíchem
vokno
, hulica
mlýn
– mlejn
– mlén
, louka
– lúka
– lóka
s malejma nákladama
, mají
– maj
– majú
– majó
moh
, spad
, řek
… většinu foneticky motivované variability (× korpusy řady ORAL)
mam > mám
dycky > vždycky
, šesnáz > šestnáct
prže > protože
Druhá fáze přepisu (až po kontrole vrstvy ort).
Kategorie pro vyvažování:
Výsledný počet kategorií: \(2 \times 2 \times 2 \times 2 \times 10 = 80\)
Ideál: rovnoměrné zastoupení těchto 80 kategorií, alespoň 5 mluvčích na kategorii.
→ Cílový počet slov na kategorii: \(\frac{1\ 000\ 000}{80} = 12\ 500\)
S použitím známých optimalizačních algoritmů (lineární programování aj.)?
Ale:
Víc zaměřená na specifikaci nářečního původu mluvčího. Tradiční tříúrovňové dělení:
Cíleno na starší mluvčí (nad 60 let), bez VŠ vzdělání, dlouhodobě pobývající ve stejné venkovské lokalitě.
Transkripční vrstvy:
Anotační vrstvy:
Vychází ze standardních Pravidel pro vědecký přepis dialektologických zápisů českých a slovenských.
Užívá specifické symboly pro zachycení nářečních hlásek, např.: vǝrch
, býł
, won
, řezňičił
.
Hranice slov a interpunkce naopak odpovídají psanému jazyku.
Větší lexikální, morfologická a fonologická variabilita si někdy vyžaduje agresivnější standardizaci než u ORTOFONu.
Hlavní rozdíly dial > ort
:
herteple > erteple
kúřilo sa > kouřilo se
, sejtko > sítko
svareb > svateb
, skoval > schoval
, kameň > kámen
Mluvený jazyk: substandardní, útržkovitý, kontextově vázaný, multilineární → problémy pro automatické nástroje
Dvě komplementární linie řešení:
Útržkovitost, vázanost na kontext, multilinearita…
Jejich řešení by vyžadovalo změny v:
Tento příspěvek vznikl při realizaci projektu Český národní korpus (LM2015044) financovaného Ministerstvem školství, mládeže a tělovýchovy v rámci aktivity Projekty velkých infrastruktur pro VaVaI.
Slajdy jsou k dispozici na adrese https://trnka.korpus.cz/~lukes/slides/slovko2017.