Frekvence lemmat v české ne/překladové beletrii

Popis balíčku

Tento datový balíček sestává z frekvenčních seznamů lemmat v beletristických textech korpusů řady SYN a souvisejících metadat k textům. Adresář syn2015 obsahuje data z nejnovějšího synchronního korpusu psané češtiny SYN2015, adresář syn_v3 pak data ze souhrnného korpusu SYN ve verzi 3, který zahrnuje pročištěné a přeznačkované beletristické texty (jak z hlediska morfologického tagování, tak metadat) ze starších korpusů SYN2000, SYN2005 a SYN2010.

Oba adresáře jsou strukturovány následovně (přípona *.tsv značí soubor ve formátu tab-separated values):

  1. Většina souborů je pojmenovaná podle vzoru <id>.tsv a obsahují samotné frekvenční seznamy lemmat, vždy pro text s daným id (až do frekvence 5 výskytů na text včetně). Každý soubor odpovídá jedné beletristické publikaci, tj. struktuře typu <doc/> (v korpusu SYN2015) nebo <opus/> (v korpusu SYN), jejíž atribut @txtype_group má hodnotu beletrie. Seznam souborů je vyčerpávající (obsahuje veškeré texty z daného korpusu odpovídající této podmínce).
  2. Speciální soubor __meta__.tsv obsahuje metadata (autor, vydavatel, rok vydání, jazyk originálu…) ke každému textu v adresáři (propojitelná s příslušným frekvenčním seznamem přes sloupec id).

Další informace jsou dostupné na wiki ÚČNK; ve výše zmíněných korpusech, z nichž data pocházejí, lze interaktivně vyhledávat prostřednictvím rozhraní KonText.

Případné dotazy rád zodpoví David Lukeš.

Licence

Data obsažená v tomto balíčku zpracovaném Ústavem Českého národního korpusu podléhají licenci CC BY 4.0.

licence