Multidimenzionální analýza češtiny

KSM & Václav Cvrček
interní seminář ÚČNK, 16. února 2016

Historie

  • otec zakladatel: Douglas Biber
    • dizertace A model of textual relations within the written and spoken modes (1984)
    • monografie Variation across speech and writing (1988)
  • motivace
    • původně: postihnout rozdíly mezi psaným a mluveným jazykem
    • posléze: usouvztažnění mluvených a psaných žánrů na základě vnitrotextových kritérií

Příklad (I): texty a rysy

plot of chunk unnamed-chunk-1

Příklad (II): F(part.) a F(subst.)

plot of chunk unnamed-chunk-3

kovariace ✅

(negativní korelace)

Příklad (II): F(part.) a F(3.pers.)

plot of chunk unnamed-chunk-4

kovariace ❌

Příklad (II): F(part.) a F(v.pret.)

plot of chunk unnamed-chunk-5

kovariace ❌

Příklad (II): F(subst.) a F(3.pers.)

plot of chunk unnamed-chunk-6

kovariace ❌

Příklad (II): F(subst.) a F(v.pret.)

plot of chunk unnamed-chunk-7

kovariace ❌

Příklad (II): F(3.pers.) a F(v.pret.)

plot of chunk unnamed-chunk-8

kovariace ✅

(pozitivní korelace)

Příklad (III): odvozené dimenze

  • dimenze jsou matematicky odvozené na základě rysů, které spolu kovariují
  • DimA : ↓ F(part.), ↑ F(subst.)
  • DimB: ↑ F(3.pers.), ↑ F(v.pret.)
  • interpretace dimenzí na základě svazku rysů, které je tvoří:
    • DimA ~ “informační hustota”?
    • DimB ~ “narativita”?

Příklad (IV): vizualizace dimenzí

plot of chunk unnamed-chunk-9

Shrnutí metodologie

  1. textová rozmanitost
    • úzké žánrové zaměření → rozporuplné výsledky v porovnání psaného vs. mluveného
  2. jazykové rysy
    • co největší počet potenciálně relevantních rysů
    • \( \sim5\times \) víc textů než rysů
  3. matematika: faktorová analýza
    • = shluknutí rysů do dimenzí (faktorů)
    • “loading”: míra korelace rysu s danou dimenzí (\( \in [-1;1] \))
    • “rotace”: faktory s min. počtem rysů s max. |korelací|

Kodýtkova nepublikovaná analýza

  1. korpus
    • PMK, BMK: formální i neformální
    • KSK-dopisy (osobní korespondence)
    • bel., odb. a pub. ze SYNů 2000, 2005 a 2006pub
  2. 43 → 28 rysů (po vyřazení irelevantních)
  3. dimenze (bez FA, jen exploratorní sonda)
    1. “formalita” (konverzace < monolog < pub. < odb.)
    2. “postoj” (mluvený > ostatní registry)
    3. “narativita” (bel. > ostatní registry)

Díky za pozornost!

A teď už ke korpusu a samotným rysům.

Tato část prezentace je dostupná na https://trnka.korpus.cz/~lukes/slides/mda.