- neshody mezi zájmenem a částicí
- neshody v pádu (ale spíš prostě omyly, někdy se to blbě určuje, resp. je to
repetitivní a člověk ztratí pozornost)
- projít a rozhodnout, jestli chceme vůbec variantu TT připustit v rámci
značkování
- případně informaci o vyprázdněném / částicovém "to" doplnit až druhotně
nějakým označením frazémů
- viz Zuzka: spojení "to určitě" bych celé dávala jako částici
- to by šlo udělat *pravidlově na základě nějakého seznamu* → dát seznam
dohromady? jak značit? jako poziční atributy? pospojovat třeba
podtržítkem? jako struktury? pak by bylo potřeba ORAL zveřejnit ve
formátu RUPRECHTA, aby nedocházelo potenciálně ke křížení struktur
(frazém přes hranice sp kvůli překryvu) -- jenže to se pak zas bude blbě
číst v konkordanci, nebude jasné střídání mluvčích...
- nebo ještě pravidlově -- v okolí hezitací, pauz, reduplikací → TT
- další možné pravidlo -- shoda se slovesem či substantivem → P
- pořadí "sou to" vs. "to sou" -- má vliv na zájmenovost / částicovost?
- viz můj komentář k "sou to voba inženýři"
tak
: 112 ✗
- v SYNu2010 nějak divně -- "tak ne" jako TT??
- "tak" jako součást dvojčlenné spojky (typ "když ... tak") -- co je to? J^,
J,?
- viz David: spojka "nadřadící" -- naznačuje, že k téhle hlavní větě patří ta
předchozí vedlejší
- tady je rozdíl relativně jasný (byť hranice mezi spojkou a diskurzním
konektorem-částicí je vlastně docela tenká), ale zvládně ho statistika?
- "udělal to tak, aby" → Db
- "tak jo, tak ne" → TT
- "když ... tak" → J,
- "jak ... tak" → J^
ty
: 107 ✗
- ve slovníku chybí některé interpretace vzniklé neutralizací → *dohodnout se
na tagu a doplnit*
- "ty lidi"
- "ty políčka", "ty auta"
- Zuzka: ani v SYNu2013pub to není v otázce rodu jednotně - možná bychom
mohli uvažovat o bezrodém tagu
- Petra: stylový příznak
- podobně jako u "to" jsou některé sekvence kandidáty na frazémy
- "ty vole" atp.
- "ty jo"
- ale často zohledňujeme fatickou funkci celku a hezky svorně to značíme jako
vokativ -- možná bychom takovou vzácnou shodu neměli podceňovat ;) )
jako
: 51 ✗
- co je vlastně Db? v opozici k "doopravdy" vs. "jenom jako"?
- hrozně často je to vycpávka → možné plošně značit vycpávku?
prostě
: 32 ✓
- většinou vycpávka nebo diskurzní konektor, každopádně v mluveném jazyce bude
asi nejlepší *dát natvrdo TT*
co
: 30 ✗
- rozhodování mezi vztažným/tázacím zájmenem (PQ) a univerzálním relativem (J,)
- "co děti", "co Karel", "no [a] co" -- TT? nebo jsou to elidované otázky a
zaslouží si to být P?
si
: 28 ✓
- jen chyby z nepozornosti
jak
: 27 ✗
- přesný rozdíl mezi Db a J, -- někdy se mi zdá, že to může být docela matoucí,
projít pár příkladů a zamyslet se nad tím
že
: 27 ✓
- tady je to asi celkem jasné, jen možná nebude sranda automaticky rozlišovat
J, vs. TT → *vyprdnout se na tenhle rozdíl*?
sme
: 25 ✓
- akorát neshody ve stylovém příznaku → dohodnout se jak tohle sjednotit
- co třeba SYNy? používají 6 i 7?
no
: 24 ✓
- je to někdy II? i kdyby jo, tak to nemůžeme po statistice chtít, aby tohle
poznala, zvlášť ne bez mluvených trénovacích dat
- ale i pro člověka vlastně těžko říct, *co by měla být kritéria pro rozlišení
"no" jako TT vs II*
vole
: 23 ✓
- co chceme, aby to bylo? TT nebo vokativ?
- jestli TT, tak asi rovnou vyhodit vokativ ze slovníku
je
: 21 ✓
- jen překlepy + chybí samostatný tag s rodem M (jen X)
dobrý
: 20 ✗
- rod?
jí
: 19 ✓
- Maruška: x lemma ona
a
: 19 ✓
- ve výjimečných případech název písmene, ale to asi zanedbejmež...?
- případně pravidlově "za" + písmeno → název písmene
- podobně v SYNech je to taky pravidlo, zřejmě "a" + interpunkce → NN, jinak
spojka
třeba
: 15 ✗
- TT nebo Db? podívat se do SYNu, ale nakonec asi nejlépe nechat jen jedno?
až
: 14 ✗
- znovu -- co všechno to může být? podle čeho (jakých kontextů) se ty různé
varianty dají rozlišit? nešlo by některé z nich vyhodit, zvlášť jestli se
určují blbě i lidským hodnotitelům?
- za jakých podmínek je to TT? proč ne Db?
v
: 13 ✓
- akorát neshody (překlepy / nepozornosti) v pádech -- tady se musíme
spolehnout na statistiku, resp. říct si, že nám jde hlavně o slovnědruhovou
příslušnost
- možná vyhodit tím pádem značky jiné než RR, případně omezit jejich udílení na
pár pravidel?
- + frazémy typu "v pohodě"
my
: 12 ✓
- Maruška: doplnit lemma my
už
: 12 ✗
- nějaká přesná pravidla pro rozdíl TT vs. Db? jestli ne, tak jedno z toho
klidně vyhodit
vona
: 11 ✓
- Maruška: lemma ona
- přidat stylový příznak (ty obecně musíme vyřešit nějak systematicky, viz
výše)
t
: 11 ✓
- nedořečená slova by měla mít hvězdičku, pak automaticky dostanou tag Z
- podobně i meta tokeny typu "(smích)" atp.
- chceme to takhle, nebo vymyslíme nějakou speciální značku? nemusí to být ani
klasický tag, může to být třeba "FRAG" a "META"
nehóři
: 11 ✓
- šlo by nějak systematicky vyřešit variabilitu v délkách? třeba pomocí
softwaru na oháčkování/očárkování slov? nebo nezbývá než to doplňovat ad hoc
do slovníku (= vybodnout se na to pod určitou frekvenční hladinu)?
kočoure
: 11 ✓
- podobně jako výše, akorát s háčkama, a tohle navíc není ani nic nářečního,
jen slovní hra -- má to vůbec smysl řešit?
zas
: 11 ✗
- lemma "zase"?
- TT nebo Db? rozlišovat?
domu
: 10
ten
: 10
víc
: 10
teďka
: 10
sporty
: 10
tadyhlen
: 10
sú
: 10
vobjevjej
: 10
fakt
: 10
ňáký
: 10
zvlástní
: 9
složitejší
: 9
tmavo
: 9
tuž
: 9
Tatranskej
: 9
Honzi
: 9
jen
: 9
vy
: 9
zme
: 9
tudlety
: 9
nekolik
: 9
takový
: 9
tadytudle
: 9
postřikala
: 8
ani
: 8
montaži
: 8
teďko
: 8
spíš
: 8
pár
: 8
tydlety
: 8
umyvala
: 8
jedno
: 8
kaštaní
: 7
su
: 7
takovejdle
: 7
počitej
: 7
šest
: 7
kerý
: 7
nelibilo
: 7
možná
: 6
hodně
: 6
vobludu
: 6
pani
: 6
vopláchli
: 6
plesove
: 6
sem
: 6
ale
: 6
možný
: 6
voni
: 6
hodí
: 6
sedum
: 6
max
: 6
maturitni
: 6
tě
: 6
ste
: 6
nic
: 6
máti
: 6
Míra
: 6
všechny
: 6
náhodou
: 6
čoveče
: 6
akorát
: 5
lepší
: 5
jednoduchý
: 5
tydlencty
: 5
bí
: 5
třicet
: 5
jedna
: 5
potřeba
: 5
pravda
: 4
půl
: 4
jistě
: 4
ti
: 4
po
: 4
štyřicet
: 4
pozor
: 4
vo
: 4
džípíesko
: 4
černý
: 4
jeden
: 4
tý
: 4
vlastně
: 4
NM
: 4
štyry
: 4
kvantitativní
: 4
z
: 4
nevim
: 4
voba
: 4
jinýho
: 4
Komína
: 4
zase
: 4
uplně
: 4
ej
: 4
stejně
: 4
takovýho
: 4
ze
: 4
týdle
: 4
taky
: 4
tříštvrťový
: 4
nám
: 4
první
: 4
s
: 3
zbořky
: 3
nás
: 3
roztroušený
: 3
ní
: 3
hromady
: 3
nánynka
: 3
Hydrocephalem
: 3
starý
: 3
ve
: 3
nevidí
: 3
takovej
: 3
tej
: 3
divný
: 3
ja
: 3
rozlitaný
: 3
tako
: 3
Ellipsocephalem
: 3
dyž
: 3
některý
: 3
štyři
: 3
toho
: 3
řady
: 3
aby
: 3
dvacet
: 3
mínus
: 3
páďo
: 3
kolik
: 3
tenhlecten
: 3
třicetštyřka
: 3
moje
: 3
intru
: 3
vod
: 3
rok
: 3
vzit
: 3
mit
: 3
soukromý
: 2
nejsem
: 2
neco
: 2
ať
: 2
páč
: 2
vysírače
: 2
happy
: 2
pronajatý
: 2
milý
: 2
se
: 2
na
: 2
podstatě
: 2
pletení
: 2
stánku
: 2
von
: 2
nejlepší
: 2
třešně
: 2
všecky
: 2
aspoň
: 2
k
: 2
vejš
: 2
úvahovejch
: 2
vymejšlí
: 2
chodim
: 2
druhej
: 2
vokno
: 2
chvilu
: 2
nejste
: 2
dyť
: 2
mysím
: 2
zrovna
: 2
tatry
: 2
viď
: 2
dva
: 2
který
: 2
řikáš
: 2
záda
: 2
tu
: 2
slovo
: 2
ona
: 2
svoji
: 2
jakoby
: 2
něco
: 2
míň
: 2
vopravdu
: 2
chvílu
: 2
nalitej
: 2
velký
: 2
teda
: 2
mrtvoly
: 2
auta
: 2
vodkuď
: 2
takovejch
: 2
mě
: 2
povidal
: 2
u
: 2
*s
: 2
políček
: 2
pohodě
: 2
osmý
: 2
vyděržať
: 2
o
: 2
přírodě
: 2
ostatních
: 2
né
: 2
spolubydlící
: 2
sprcháče
: 2
všechno
: 2
vidiš
: 2
jinym
: 2
bejt
: 2
červený
: 2
měli
: 2
vlasně
: 2
řikala
: 2
vedoucí
: 2
nalét
: 2
vobjednaly
: 2
hrad
: 2
chceš
: 2
deme
: 2
tim
: 2
brďo
: 2
stejný
: 2
hlavní
: 2
hádej
: 2
věcí
: 2
hranatý
: 2
Žabin
: 2
chcete
: 2
bradla
: 2
třetim
: 2
neřek
: 2
myslim
: 2
dál
: 2
ví
: 2
přes
: 2
moc
: 2
nezkoroduje
: 2
Heliades
: 2
Mladé
: 2
každym
: 2
eště
: 2
život
: 1
aj
: 1
vítězný
: 1
nosí
: 1
domluvený
: 1
jazyku
: 1
únosy
: 1
pláně
: 1
ostatní
: 1
vtipný
: 1
počítačový
: 1
systémy
: 1
čárky
: 1
takovou
: 1
chcavec
: 1
typ
: 1
blíží
: 1
ožralý
: 1
největší
: 1
mladší
: 1
řiká
: 1
všecko
: 1
jiné
: 1
neúhledné
: 1
čtrnáct
: 1
zlobivý
: 1
blbýho
: 1
nepříjemný
: 1
srdce
: 1
díl
: 1
stanu
: 1
novej
: 1
ho
: 1
celnice
: 1
takle
: 1
celý
: 1
bezvadný
: 1
nějakej
: 1
starších
: 1
devadesát
: 1
obelisk
: 1
todle
: 1
další
: 1
svý
: 1
užívání
: 1
každýho
: 1
ústřední
: 1
každý
: 1
ráno
: 1
votevřený
: 1
Radkovi
: 1
ž
: 1
vtip
: 1
pátý
: 1
stavěj
: 1
řikám
: 1
třetího
: 1
technický
: 1
sprchovýho
: 1
strčim
: 1
takové
: 1
prostředí
: 1
zelenej
: 1
starejch
: 1
dobíjení
: 1
patnáct
: 1
hrozný
: 1
ekonomickej
: 1
radnice
: 1
kancionály
: 1
blbosti
: 1
vono
: 1
jezdí
: 1
blbý
: 1
svuj
: 1
plánuje
: 1
stovky
: 1
muže
: 1
nádherné
: 1
zhulený
: 1
nádraží
: 1
druhym
: 1
zejtra
: 1
československejch
: 1
stoupačky
: 1
bakalářský
: 1
příští
: 1
idiotský
: 1
vaří
: 1
manželství
: 1
několik
: 1
kila
: 1
mrňavý
: 1
c
: 1
tento
: 1
tmavovlasej
: 1
za
: 1
štipec
: 1
červenýho
: 1
nějaký
: 1
začla
: 1
boty
: 1
praxe
: 1
set
: 1
d
: 1
těch
: 1
tohlencto
: 1
tvrdšího
: 1
třešní
: 1
čtvereček
: 1
komerčních
: 1
auto
: 1
sloupeček
: 1
dřevěnou
: 1
den
: 1
každej
: 1
velkej
: 1
dobrou
: 1