Registry v češtině

Václav Cvrček

Zuzana Laubeová

David Lukeš

Petra Poukarová

Anna Řehořková

Adrian Jan Zasina

22. října 2020

Úvod

Cíl přednášky

Náčrt empirického popisu funkční variability textů

  • nejde o úlohu novou: funkční styly, stylotvorné faktory…
  • postup (bottom–up):
    • identifikovat (dílčí) jazykové rysy, které mají potenciál funkční diferenciace
    • jejich analýzou (MDA) najít dimenze variability
    • zjistit pozici textů v korpusu na dimenzích variability
    • vytvořit shluky textů s podobnými charakteristikami
    • interpretací shluků dospět k ustavení registrů

Motivace

Výzkum funkční (registrové) variability textů

  • implikace pro jazykový popis (register matters!)
    • charakteristika jevů (srov. Longman Grammar)
  • implikace pro korpusový výzkum (know your data!)
    • memoáry – epické, faktografické, kontemplativní…
    • publicistika – fakta, úvahy, rozhovory
  • implikace pro design korpusů
    • reprezentativní = zachycující celou šíři variability

MDA v češtině

obalka

(Cvrček et al. 2020)

Předpoklady analýzy

Tým MDA

team

Principy multidimenzionální analýzy (MDA)

  • systematická & funkční variabilita (× náhodná, sociolingvistická…)
  • podmíněná kontextem & situací
  • vnitrotextová × vnětextová perspektiva
    • těsto a forma, rejstřík a skladba, slohový postup a útvar…
  • postup od jazykových rysů přes dimenze variability k charakteristikám textů
    • při koncipování textů dochází k rozhodnutím, která jsou vzájemně propojená → korelace jazykových rysů → dimenze → multidimenzionální přístup (Biber 1995; Biber & Conrad 2009)

Popis postupu při utváření dimenzí variability

  1. Vytvoření korpusu (Koditex)
  2. Jazykové rysy (a jejich operacionalizace)
  3. Statistické vyhodnocení (faktorová analýza)
  4. Interpretace dimenzí variability
  5. Shluky podobných textů (registry)

Data: korpus Koditex

diverzifikovaný korpus současného jazyka složený z cca 3300 textových vzorků srovnatelné délky (Zasina et al. 2019)

slozeni

Rysy a jejich operacionalizace

Původně 140+ rysů, zredukováno na 122, mj.:

  • fonologie – úžení é > í, diftongizace ý > ej, průměrná délka slova…
  • morfologie – frekvence pádů, čísel, způsobů, časů…
  • slovotvorba – adjektiva podobnosti, verbální substantiva, deminutiva…
  • lexikon – neurčitá zájmena, verba dicendi, sémanticky vyprázdněná (nevyhraněná) substantiva …
  • pragmatika – kontaktové výrazy, hezitace, intenzifikátory, downtoners…
  • syntax – typy atributů, klastry slov (N, A), druhy vedlejších vět…
  • text/diskurz – otázky, frazeologie, opakování slov…

Zdroje: dřívější popisy, Biber, intuice…

Statistické vyhodnocení: faktorová analýza

Výchozí data: 122 rysů × 3292 textů (chunks)

  • exploratorní faktorová analýza (EFA)
    • redukce dimenzí v datech, zjištění vztahů mezi rysy

8 faktorů/dimenzí:

  1. dynamický (+) vs. statický (-)
  2. spontánní (+) vs. připravený (-)
  3. vyšší (+) vs. nižší (-) míra koheze
  4. polytematický (+) vs. monotematický (-)
  5. vyšší (+) vs. nižší (-) stupeň adresnosti
  6. obecný (+) vs. konkrétní (-)
  7. prospektivní (+) vs. retrospektivní (-)
  8. postojový (+) vs. faktuální (-)

(Cvrček et al. 2018a, 2018b)

Dimenze 1: dynamický (+) × statický (-)

Dimenze 2: spontánní (+) × připravený (-)

2D-plot: dimenze 1 a dimenze 2

Ustavení registrů

Vytvoření klastrů textů

Zadání: v rámci strukturní anotace textů ČNK vytvořit novou klasifikační kategorii, která bude odrážet vnitrotextovou lingvistickou charakteristiku textů a která bude komplementem ke stávající klasifikaci vnětextové (txtype, genre)

  • každý text je na základě rysů, které využívá, charakterizován pozicí v 8D prostoru
  • vzdálenosti mezi texty → klastry textů (s podobnou pozicí) → registry (skupiny textů podle podobnosti užitých rysů)
  • optimální počet klastrů: 10 (na základě shody 30 statistických metod v NbClust)

Definice:

  • registr: varieta, kterou definujeme na základě podobnosti skupin použitých jazykových prostředků, které se podílejí na funkční variabilitě jazyka
  • jazyková varieta, jejíž “podoba a užití jsou podmíněny komunikační situací, resp. typem komunikační situace. (…) V č. kontextu odpovídají způsobu užívání tohoto pojmu nejčastěji pojmy funkční styl n. objektivní styl.” (K. Mrázková in NESČ online 2017)

Registry v češtině

Finální návrh registrové klasifikace

Registr: varieta, kterou definujeme na základě podobnosti skupin použitých jazykových prostředků, které se podílejí na funkční variabilitě jazyka (v širokém smyslu).

Statické registry:

  • analýza: statický monotematický registr
  • popularizace: statický polytematický obecný registr
  • žurnalistika: statický nevyhraněný registr
  • fakta: statický polytematický konkrétní registr
  • argumentace: statický kohezní registr

Dynamické registry:

  • anketa: dynamický neadresný registr
  • konverzace: dynamický spontánní registr
  • komentář: dynamický postojový registr
  • scénář: dynamický adresný registr
  • narace: dynamický retrospektivní registr

Narace: dynamický retrospektivní registr

Průměrná pozice textů v klastru na hlavních dimenzích

Narace: dynamický retrospektivní registr

2D graf: dynamičnost (GLS1+) a retrospektivnost (GLS7-)

Narace: dynamický retrospektivní registr

Korespondence s vnětextovou/žánrovou charakteristikou

Textová kategorie Počet textů Podíl z klastru Podíl z kategorie v klastru
wri-fic-nov-fan 66 14.10% 95.652%
wri-fic–col 65 13.89% 92.857%
wri-fic-nov-crm 63 13.46% 92.647%
wri-fic-nov-scf 63 13.46% 92.647%
wri-fic-nov-lov 61 13.03% 87.143%
wri-fic-nov-gen 53 11.32% 79.104%
wri-fic–ver 42 8.97% 55.263%
wri-nfc–mem 21 4.49% 29.577%
web-uni–blo 6 1.28% 8.108%
web-mul–fcb 5 1.07% 5.495%
wri-nfc-pop-hum 5 1.07% 6.757%
wri-nfc-pop-ssc 4 0.85% 5.882%
wri-nfc-pop-fts 3 0.64% 4.412%
wri-pri–cor 2 0.43% 2.941%
spo-int–bru 1 0.21% 1.111%

Narace: Rysy v textu

Tasila zbraň. Ostří Vlaštovky tiše zazpívalo. Znala dobře ten zpěv. Ustupovala širokou síní a on šel za ní, třímaje meč oběma rukama před sebou. Po ostří ještě stékala krev a kapala v hustých kapkách z rukojeti. “Mrtvá,” shledal, když překračovala ležící Angoulęme. “Dobře. Ten mládenec už taky hryže zem.” Ciri pocítila, jak ji ovládá zoufalství. Prsty svíraly jílec až k bolesti. Ustupovala. “Oklamalas mě,” syčel Bonhart, kráčeje za ní. “Neměl medailon. Ale něco mi napovídá, že někde tady najdu někoho, kdo medailon nosí. Vsadím se, že ho najdu někde poblíž té vědmy Yennefer. Ale po pořadí, zmije. Nejdříve my dva, ty a já. A naše zásnuby.” Ciri se rozhodla. Zatočila Vlaštovkou a zaujala postoj. Vykročila v půlkruhu, v celém kruhu, stále zrychlujíc, nutila lovce, aby se táčel na místě. “Naposledy,” ucedil, “ti tenhle trik nebyl k ničemu. Copak se neumíš učit na vlastních chybách?” Ciri ještě zrychlila. Plynulými pohyby meče klamala a mýlila a mámila a hypnotizovala. Bonhart zatočil svým mečem.
(A. Sapkowski: Paní jezera)

Legenda:

Verbum, Préteritum, Adresnost

Narace: shrnutí

  • dynamický
  • vyšší míra explicitní adresnosti
  • retrospektivní
  • z většiny (88.5 %) tvořen beletrií wri-fic
  • většina (73.4 %) beletrie z korpusu patří do tohoto klastru

Komentář: dynamický postojový registr (5)

  • dynamický (GLS1)
  • prospektivní, tj. pres. + fut. (GLS7)
  • postojový (GLS8)
  • z poloviny (53.8 %) tvořen webovými žánry, zejm. web-mul (dále soukromá korespondence)
  • většina (74.1 %) webových “diskusních” platforem web-mul je v tomto klastru

Interaktivní registry (anketa, konverzace, scénář)

  • dynamické (GLS1), spontánní (GLS2)

  • anketa: dynamický neadresný registr

    • monologický (resp. s nízkou mírou explicitní adresnosti, GLS5)
    • prospektivní (GLS7)
    • postojový (argumentativní, GLS8)
    • klastr tvořen téměř výhradně (97.8 %) interaktivními mluvenými texty (spo-int--eli, spo-int--bru)
    • téměř všechny texty (92.7 %) spo-int--eli patří do tohoto klastru
  • konverzace: dynamický spontánní

    • neformální (GLS2)
    • nekohezní (GLS3)
    • přes 70 % klastru tvoří neformální mluvené texty spo-int--inf
    • téměř 99 % kategorie spo-int--inf spadá do tohoto klastru
  • scénář: dynamický adresný

    • inscenovaný
    • dialogický (resp. s vysokou mírou explicitní adresnosti, GLS5)
    • TV a divadelní scénáře tvoří přes 82 % tohoto klastru a z většiny (92.1 %) sem také spadají

Analýza: statický monotematický (1)

  • faktuální (GLS8)
  • většina (86.6 %) administrativních textů spadá do tohoto klastru
  • silné zastoupení textů formálních a technických věd

Analýza: statický monotematický

Velmi zajímavé užití grafických a analytických programových produktů existuje při zobrazování a analýze Phillipsovy křivky. U nás se analýza pomocí modelu modifikované Phillipsovy křivky prováděla za období VI/1990-VIII/1991. Z analýzy vyplynulo, že průběh Phillipsovy křivky měl typický průběh, charakterizovaný záporným koeficientem korelace mezi mírou inflace a mírou nezaměstnanosti: Liberalizační šok v lednu 1991, který se projevil na růstu cenové hladiny, sleduje dále vývoj nezaměstnanosti. Krátkodobý odhad stabilizace cenové hladiny se ukázal jako reálný. Bylo dosaženo i velmi malé odchylky oproti později zaznamenaným empirickým údajům, pokud jde o objem příspěvků v nezaměstnanosti čerpaných ze státního rozpočtu.
(Užití výpočetní techniky v ekonomii; wri-nfc-sci-fts)

Legenda:

jmenné a adnominální struktury, předložkové vazby, neosobní konstrukce

Výkladové registry (analýza, popularizace, argumentace)

  • statický (GLS1), připravený (nespontánní, GLS2)

  • klastry s pestrým složením

  • analýza: statický monotematický (viz výše)

  • popularizace: statický polytematický obecný

    • encyklopedické texty (z 79.5 %), publicistické texty lei-hou a lei-lif spadají do tohoto klastru
  • argumentace: statický kohezní

    • postojový (GLS8)
    • drtivá většina (95.8 %) připravených projevů (spo-nin--wbs) spadá do tohoto klastru

Informativní registry (žurnalistika, fakta)

  • statický (GLS1), polytematický (GLS4)
  • přes 76 % publicistiky patří do jednoho z těchto klastrů

  • fakta: statický polytematický konkrétní
    • faktuální (nepostojový, GLS8)
    • konkrétní (GLS6)
    • faktograficky hutné texty
Kategorie Textů % z klastru % z kategorie
wri-nmg-lei-spo 41 14.24% 58.571%
wri-nmg-lei-sct 33 11.46% 45.205%
wri-nmg-new-cul 32 11.11% 47.059%
wri-nmg-new-eco 31 10.76% 44.286%
web-uni–wik 29 10.07% 34.524%

  • žurnalistika: statický nevyhraněný
    • politické zpravodajství
Kategorie Textů % z klastru % z kategorie
wri-nmg-new-pol 62 8.48% 88.571%
wri-nmg-lei-int 55 7.52% 79.710%
wri-nmg-new-rep 55 7.52% 78.571%
wri-nmg-new-com 54 7.39% 79.412%
wri-nmg-new-fre 42 5.75% 59.155%

Závěr

Shrnutí

  • registry založené na MDA představují empirický (bottom-up) přístup k funkční variabilitě
  • alternativní/komplementární pohled k funkčním stylům
  • vedle dimenzí variability (hlavních trendů) vymezujeme i prototypy (registry)
  • komplementární způsob klasifikace textů v korpusech ČNK
  • register matters!

Bibliografie

  • Biber, D. 1995. Dimensions of Register Variation: A Cross-Linguistic Comparison. Cambridge, England: Cambridge University Press.
  • Biber, D. and S. Conrad. 2009. Register, Genre, and Style. Cambridge, England: Cambridge University Press.
  • Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková, A., Zasina, A. J.: Variabilita češtiny: multidimenzionální analýza. Slovo a slovesnost 79, s. 293–321.
  • Cvrček, V., Z. Komrsková, D. Lukeš, P. Poukarová, A. Řehořková and A. J. Zasina. 2018. ‘From Extra- to Intratextual Characteristics: Charting the Space of Variation in Czech through MDA’. Corpus Linguistics and Linguistic Theory. doi:10.1515/cllt-2018-0020.
  • Cvrček, V., Komrsková, Z., Lukeš, D., Poukarová, P., Řehořková A., Zasina, A. J. 2020. Registry v češtině. Praha: Nakladatelství Lidové Noviny.
  • Mrázková, K. ‘Rejstřík’. In Karlík, P., M. Nekula and J. Pleskalová (eds), CzechEncy - Nový encyklopedický slovník češtiny, 2017.
  • Zasina, A. J. and Z. Komrsková. 2019. ‘Koditex – korpus diverzifikovaných textů’. Studie z aplikované lingvistiky 10.1: 127–132.
  • Zasina, A. J., Lukeš, D., Komrsková, Z., Poukarová, P., Řehořková, A.: Koditex: korpus diverzifikovaných textů. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz