postřikala lakem na vlasy
user | lemma | tag | flag | note |
---|---|---|---|---|
poukarova |
postřikat
|
VpQW---XR-AA---
|
True | není odpovídající lemma |
komrskova |
postřikat
|
VpQW---XR-AA---
|
True | chybí lemma "postříkat" a odtud i tag |
kopriva |
postřikat
|
VpQW---XR-AA---
|
True | X lemma postříkat |
lukes |
postřikat
|
VpQW---XR-AA---
|
True | správné lemma je "postříkat"; nešlo by ta krácení řešit nějak systematicky? třeba vygenerovat ke všem položkám ve slovníku variantu s krátkými samohláskami? (pak je samozřejmě blbý, když je jich tam dlouhých víc a krácené jsou jen některé...) asi by bylo lepší tohle řešit na úrovni nějakého pre-processingu, i z hlediska data sparsity v rámci trénovacích dat. třeba by na tohle šel použít software na doplňování háčků a čárek? |