Tento datový balíček sestává z frekvenčních seznamů lemmat v beletristických textech korpusů řady SYN a souvisejících metadat k textům. Adresář syn2015
obsahuje data z nejnovějšího synchronního korpusu psané češtiny SYN2015, adresář syn_v3
pak data ze souhrnného korpusu SYN ve verzi 3, který zahrnuje pročištěné a přeznačkované beletristické texty (jak z hlediska morfologického tagování, tak metadat) ze starších korpusů SYN2000, SYN2005 a SYN2010.
Oba adresáře jsou strukturovány následovně (přípona *.tsv
značí soubor ve formátu tab-separated values):
<id>.tsv
a obsahují samotné frekvenční seznamy lemmat, vždy pro text s daným id
(až do frekvence 5 výskytů na text včetně). Každý soubor odpovídá jedné beletristické publikaci, tj. struktuře typu <doc/>
(v korpusu SYN2015) nebo <opus/>
(v korpusu SYN), jejíž atribut @txtype_group
má hodnotu beletrie
. Seznam souborů je vyčerpávající (obsahuje veškeré texty z daného korpusu odpovídající této podmínce).__meta__.tsv
obsahuje metadata (autor, vydavatel, rok vydání, jazyk originálu…) ke každému textu v adresáři (propojitelná s příslušným frekvenčním seznamem přes sloupec id
).Další informace jsou dostupné na wiki ÚČNK; ve výše zmíněných korpusech, z nichž data pocházejí, lze interaktivně vyhledávat prostřednictvím rozhraní KonText.
Případné dotazy rád zodpoví David Lukeš.
Data obsažená v tomto balíčku zpracovaném Ústavem Českého národního korpusu podléhají licenci CC BY 4.0.