K prozodii mluvené češtiny metodami korpusové lingvistiky

Obhajoba dizertační práce

2. 2. 2023

Mgr. David Lukeš

Arnulf Depperman (spoluautor transkripčních pravidel GAT-2) má ve sborníku Prosody in interaction (2010) příspěvek nazvaný “Future prospects of research on prosody: The need for publicly available corpora”

1.2. Co myslíme prozodií?

Suprasegmentální variace…

… ve frekvenční doméně (intonace; akusticky F0 neboli základní frekvence)

… v temporální doméně (tempo, rytmus)

1.3. Int. ve spont. češtině: často monotónní

1.4. … ale může být i barvitá

1.5. Srovnání s angličtinou

Rozpětí intonace u rozhlasových mluvčích v půltónech (10.–90. percentil) dle Volína et al. (2015), “Speech melody properties in English, Czech and Czech English: Reference and interference”:

pohlaví ↓ zdroj →	čtená čeština	čtená angličtina
ženy	5.2	7.1
muži	6.1	8.1

Též nižší medián.

1.6. Role přízvuku

Fixní přízvuk, bez nápadných akustických korelátů (Skarnitzl 2018, “Fonetická realizace slovního přízvuku u delších slov v češtině”)

1.7. Role slovosledu

Alice dala jablko Bobovi.
Alice dala Bobovi jablko.
Jablko dala Bobovi Alice.

Alice gave the apple to Bob.
Alice gave the apple to Bob.
Alice gave the apple to Bob.

1.8. Systémy popisu / transkripce intonace

U nás:

funkční pojetí: melodémy a kadence (Daneš, Romportl, Palková)
lexikografické pojetí: systém 17 intonačních typů ve Slovníku české frazeologie a idiomatiky

Mezinárodně:

autosegmentálně-metrický popis – ToBI (Beckmanová, Pierrehumbertová a další)
INTSINT, Momel (Hirst a di Cristo)
percepční stylizace (IPO v Eindhovenu)
Prosogram, Polytonia, ToPPos (Mertens)

2. Data

2.1. Korpusy

Čeština (ORTOFON = “dialog”, ORATOR = “monolog”):

korpus	# tokenů	# nahrávek	# mluvčích	celková délka
ORTOFON v1	1,2 mil.	332	624	103 h
👉 ORTOFON v2	2,6 mil.	615	960	210 h
ORATOR v1	736 tis.	318	332	72 h
👉 ORATOR v2	1,5 mil.	489	468	149 h

Angličtina v přípravě: AudioBNC http://www.phon.ox.ac.uk/AudioBNC

2.2. Nástroje

Montreal Forced Aligner https://montreal-forced-aligner.rtfd.io
- alternativy: BAS Web Services, Prak https://github.com/vaclavhanzl/prak (horká novinka pro češtinu)
Prosogram & Polytonia https://sites.google.com/site/prosogram/
- Praat https://www.fon.hum.uva.nl/praat/
pospojované a doplněné pomocí Pythonu, jeho standardní knihovny (zejména modul multiprocessing kvůli paralelizaci) a knihoven Pydub, Pandas, Matplotlib…

2.3. Vlastní knihovna: https://corpy.rtfd.io/

2.4. Vynucení konkrétní výslovnosti při alignaci

ort: protože
fon: protoʒɛ → protože_protoʒɛ

ort: protože
fon: bʒɛ → protože_bʒɛ

2.5. Aplikace Prosogramu

normalizace intenzity
- Praat zamlžuje rozdíl mezi dBFS a dB SPL
manuálně stanovené rozpětí pro detekci F0
- ženy: 75–500 Hz
- muži: 60–400 Hz

3. Výsledky

3.5. Glissanda I

3.6. Glissanda II

kontext	pohlaví	proporce glissand
dialog	ženy	0.0387
	muži	0.0401
monolog	ženy	0.0454
	muži	0.0488

3.7. Intonační rozpětí: dialog × monolog I

3.8. Intonační rozpětí: dialog × monolog II

                            OLS Regression Results
==============================================================================
Dep. Variable:                  range   R-squared:                       0.003
Model:                            OLS   Adj. R-squared:                  0.003
No. Observations:              275358   F-statistic:                     316.4
Covariance Type:            nonrobust   Prob (F-statistic):          4.09e-205
====================================================================================================
                                       coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------------------
Intercept                            5.2111      0.015    341.629      0.000       5.181       5.241
kind[T.monologue]                   -0.6169      0.024    -25.926      0.000      -0.664      -0.570
gender[T.male]                      -0.4560      0.022    -20.904      0.000      -0.499      -0.413
kind[T.monologue]:gender[T.male]     0.9367      0.031     30.623      0.000       0.877       0.997
====================================================================================================

3.9. Intonační rozpětí: dialog × monolog III

Porovnání s již zmiňovanými daty od Volína et al. (2015); údaje opět v půltónech.

pohlaví ↓ kontext →	český dialog	český monolog	čeština čtená	angličtina čtená
ženy	5.21	4.59	5.2	7.1
muži	4.76	5.07	6.1	8.1

3.10. Intonační rozpětí: nářeční oblasti

                    Mixed Linear Model Regression Results
==============================================================================
Model:                    MixedLM       Dependent Variable:       range
No. Observations:         119693        Method:                   REML
No. Groups:               926           Scale:                    14.4776
Min. group size:          1             Log-Likelihood:           -330769.0909
Max. group size:          1147          Converged:                Yes
Mean group size:          129.3
------------------------------------------------------------------------------
                                    Coef.  Std.Err.   z    P>|z| [0.025 0.975]
------------------------------------------------------------------------------
Intercept                            4.841    0.169 28.717 0.000  4.511  5.172
gender[T.male]                      -0.902    0.195 -4.630 0.000 -1.285 -0.520
reg_childhood[T.pohraničí moravské]  0.242    0.181  1.337 0.181 -0.113  0.597
reg_childhood[T.pohraničí české]     0.318    0.172  1.852 0.064 -0.019  0.654
reg_childhood[T.severovýchodočeská]  0.471    0.177  2.656 0.008  0.123  0.818
reg_childhood[T.slezská]             0.405    0.167  2.421 0.015  0.077  0.733
reg_childhood[T.středomoravská]      0.189    0.162  1.165 0.244 -0.129  0.507
reg_childhood[T.středočeská]         0.187    0.160  1.173 0.241 -0.126  0.501
reg_childhood[T.východomoravská]     0.354    0.171  2.069 0.039  0.019  0.690
reg_childhood[T.západočeská]         0.207    0.169  1.221 0.222 -0.125  0.538
reg_childhood[T.česko-moravská]      0.390    0.173  2.251 0.024  0.050  0.729
age                                  0.002    0.003  0.533 0.594 -0.004  0.008
gender[T.male]:age                   0.014    0.005  3.015 0.003  0.005  0.023
Group Var                            1.177    0.017
==============================================================================

3.11. Kam dál?

zveřejnění anotace v korpusu (léto 2023)
- tradiční korpusové metody obohacené o prozodické informace
angličtina (AudioBNC)
temporální charakteristiky

4. K diskusi

4.1. Praat / Lua

https://github.com/praat/praat/issues/1470

4.2. Dugald Stewart

[T]he function of language is not so much to convey knowledge (according to the common phrase) from one mind to another, as to bring two minds into the same train of thinking; and to confine them as nearly as possible, to the same track.

– Dugald Stewart (1810), Philosophical Essays