K prozodii mluvené češtiny metodami korpusové lingvistiky

Obhajoba dizertační práce

2. 2. 2023

Mgr. David Lukeš

1. Úvod

1.1. Korpusy a prozodie

Arnulf Depperman (spoluautor transkripčních pravidel GAT-2) má ve sborníku Prosody in interaction (2010) příspěvek nazvaný “Future prospects of research on prosody: The need for publicly available corpora

1.2. Co myslíme prozodií?

Suprasegmentální variace…

… ve frekvenční doméně (intonace; akusticky F0 neboli základní frekvence)

… v temporální doméně (tempo, rytmus)

1.3. Int. ve spont. češtině: často monotónní

1.4. … ale může být i barvitá

1.5. Srovnání s angličtinou

Rozpětí intonace u rozhlasových mluvčích v půltónech (10.–90. percentil) dle Volína et al. (2015), “Speech melody properties in English, Czech and Czech English: Reference and interference”:

pohlaví ↓ zdroj → čtená čeština čtená angličtina
ženy 5.2 7.1
muži 6.1 8.1

Též nižší medián.

1.6. Role přízvuku

Fixní přízvuk, bez nápadných akustických korelátů (Skarnitzl 2018, “Fonetická realizace slovního přízvuku u delších slov v češtině”)

1.7. Role slovosledu

  1. Alice dala jablko Bobovi.
  2. Alice dala Bobovi jablko.
  3. Jablko dala Bobovi Alice.
  1. Alice gave the apple to Bob.
  2. Alice gave the apple to Bob.
  3. Alice gave the apple to Bob.

1.8. Systémy popisu / transkripce intonace

U nás:

  • funkční pojetí: melodémy a kadence (Daneš, Romportl, Palková)
  • lexikografické pojetí: systém 17 intonačních typů ve Slovníku české frazeologie a idiomatiky

Mezinárodně:

  • autosegmentálně-metrický popis – ToBI (Beckmanová, Pierrehumbertová a další)
  • INTSINT, Momel (Hirst a di Cristo)
  • percepční stylizace (IPO v Eindhovenu)
  • Prosogram, Polytonia, ToPPos (Mertens)

2. Data

2.1. Korpusy

Čeština (ORTOFON = “dialog”, ORATOR = “monolog”):

korpus # tokenů # nahrávek # mluvčích celková délka
ORTOFON v1 1,2 mil. 332 624 103 h
👉 ORTOFON v2 2,6 mil. 615 960 210 h
ORATOR v1 736 tis. 318 332 72 h
👉 ORATOR v2 1,5 mil. 489 468 149 h

Angličtina v přípravě: AudioBNC http://www.phon.ox.ac.uk/AudioBNC

2.2. Nástroje

2.3. Vlastní knihovna: https://corpy.rtfd.io/

2.4. Vynucení konkrétní výslovnosti při alignaci

ort
protože
fon
protoʒɛprotože_protoʒɛ
ort
protože
fon
bʒɛprotože_bʒɛ

2.5. Aplikace Prosogramu

  • normalizace intenzity
    • Praat zamlžuje rozdíl mezi dBFS a dB SPL
  • manuálně stanovené rozpětí pro detekci F0
    • ženy: 75–500 Hz
    • muži: 60–400 Hz

3. Výsledky

3.1. Čištění výstupu Prosogramu I

3.2. Čištění výstupu Prosogramu II

3.3. Sanity check I: F0 podle věku (dialog)

3.4. Sanity check II: Medián F0 před stylizací (dialog i monolog)

3.5. Glissanda I

3.6. Glissanda II

kontext pohlaví proporce glissand
dialog ženy 0.0387
  muži 0.0401
monolog ženy 0.0454
  muži 0.0488

3.7. Intonační rozpětí: dialog × monolog I

3.8. Intonační rozpětí: dialog × monolog II

                            OLS Regression Results
==============================================================================
Dep. Variable:                  range   R-squared:                       0.003
Model:                            OLS   Adj. R-squared:                  0.003
No. Observations:              275358   F-statistic:                     316.4
Covariance Type:            nonrobust   Prob (F-statistic):          4.09e-205
====================================================================================================
                                       coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------------
Intercept                            5.2111      0.015    341.629      0.000       5.181       5.241
kind[T.monologue]                   -0.6169      0.024    -25.926      0.000      -0.664      -0.570
gender[T.male]                      -0.4560      0.022    -20.904      0.000      -0.499      -0.413
kind[T.monologue]:gender[T.male]     0.9367      0.031     30.623      0.000       0.877       0.997
====================================================================================================

3.9. Intonační rozpětí: dialog × monolog III

Porovnání s již zmiňovanými daty od Volína et al. (2015); údaje opět v půltónech.

pohlaví ↓ kontext → český dialog český monolog čeština čtená angličtina čtená
ženy 5.21 4.59 5.2 7.1
muži 4.76 5.07 6.1 8.1

3.10. Intonační rozpětí: nářeční oblasti

                    Mixed Linear Model Regression Results
==============================================================================
Model:                    MixedLM       Dependent Variable:       range
No. Observations:         119693        Method:                   REML
No. Groups:               926           Scale:                    14.4776
Min. group size:          1             Log-Likelihood:           -330769.0909
Max. group size:          1147          Converged:                Yes
Mean group size:          129.3
------------------------------------------------------------------------------
                                    Coef.  Std.Err.   z    P>|z| [0.025 0.975]
------------------------------------------------------------------------------
Intercept                            4.841    0.169 28.717 0.000  4.511  5.172
gender[T.male]                      -0.902    0.195 -4.630 0.000 -1.285 -0.520
reg_childhood[T.pohraničí moravské]  0.242    0.181  1.337 0.181 -0.113  0.597
reg_childhood[T.pohraničí české]     0.318    0.172  1.852 0.064 -0.019  0.654
reg_childhood[T.severovýchodočeská]  0.471    0.177  2.656 0.008  0.123  0.818
reg_childhood[T.slezská]             0.405    0.167  2.421 0.015  0.077  0.733
reg_childhood[T.středomoravská]      0.189    0.162  1.165 0.244 -0.129  0.507
reg_childhood[T.středočeská]         0.187    0.160  1.173 0.241 -0.126  0.501
reg_childhood[T.východomoravská]     0.354    0.171  2.069 0.039  0.019  0.690
reg_childhood[T.západočeská]         0.207    0.169  1.221 0.222 -0.125  0.538
reg_childhood[T.česko-moravská]      0.390    0.173  2.251 0.024  0.050  0.729
age                                  0.002    0.003  0.533 0.594 -0.004  0.008
gender[T.male]:age                   0.014    0.005  3.015 0.003  0.005  0.023
Group Var                            1.177    0.017
==============================================================================

3.11. Kam dál?

  • zveřejnění anotace v korpusu (léto 2023)
    • tradiční korpusové metody obohacené o prozodické informace
  • angličtina (AudioBNC)
  • temporální charakteristiky

4. K diskusi

4.1. Praat / Lua

https://github.com/praat/praat/issues/1470

4.2. Dugald Stewart

[T]he function of language is not so much to convey knowledge (according to the common phrase) from one mind to another, as to bring two minds into the same train of thinking; and to confine them as nearly as possible, to the same track.

– Dugald Stewart (1810), Philosophical Essays

4.3. Průvodkyně