Konverze:

jupyter nbconvert --to slides index.ipynb

Randall Munroe, XKCD, https://xkcd.com/353/:

Python XKCD

O předmětu¶

  1. úvod do programovacího jazyka Python
  2. práce s předpřipravenými jazykovými daty v NLTK
  3. zpracování surových textových dat (formát "čistého textu", kódování)
  4. strukturovaný čistý text
  5. morfologické značkování
  6. kvantitativní analýza textových dat (např. kolokace, klíčová slova)
  7. pokročilejší Python

... + co vás bude zajímat :)

Požadavky k atestaci¶

  1. pravidelná a aktivní účast na seminářích (max. 3 absence)
  2. průběžné plnění drobných týdenních úkolů
  3. vypracování většího zápočtového úkolu

O mně¶

  • David Lukeš, Ústav Českého národního korpusu (http://korpus.cz)
  • lingvistické zájmy: fonetika, korpusová lingvistika, význam v komunikaci; vznik, vývoj a osvojování jazyka
  • s programováním jsem sám začal až na VŠ, takže nikdy není pozdě
  • asi nejužitečnější dovednost, jakou jsem se v posledních letech naučil

O vás¶

  • jméno, příjmení?
  • podařilo se vám vytvořit účet na https://jupyter.korpus.cz?
  • oblast vašeho akademického zájmu v lingvistice a přilehlých disciplínách?
  • případné předchozí zkušenosti s programováním (v Pythonu i jiných jazycích)?

A hlavně: co vás motivovalo k zapsání na tento předmět, co od něj očekáváte? Konkrétní důvody (bakalářka, diplomka, dizertace)?

Python

  • jednoduchý a přístupný programovací jazyk
  • FLOSS (Free, Libre, Open-Source Software) × např. Microsoft Word
  • vznik: 1991, Guido van Rossum
  • proč se jmenuje Python?
  • Python 2 vs. Python 3

NLTK Book: https://www.nltk.org/book/¶

NLTK Book

Základní pilíře kvantitativní analýzy textu¶

Frekvence jevu¶

Jak častý je daný jev? Je v některých kontextech častější než v jiných?

(Kontext = okolní slova, žánr textu, sociolingvistická charakteristika mluvčího...)

Disperze jevu¶

Jaký je vztah mezi jednotlivými výskyty jevu? Jsou v textech rozmístěné rovnoměrně, nebo mají naopak tendenci se shlukovat?

Jazyk a počítače¶

  • počítačová lingvistika
  • zpracování přirozeného jazyka (Natural Language Processing, NLP)

Jazyk a počítače¶

  • počítačová lingvistika → výzkum jazyka s pomocí počítače
  • zpracování přirozeného jazyka (Natural Language Processing, NLP) → řešení praktických inženýrských úkolů, které zahrnují jazyková data

Příklad: různé přístupy k morfologickému značkování -- pravidlový (ÚTKL FF UK) vs. statistický (ÚFAL MFF UK).

Úkoly NLP¶

NLP

(převzato z NLTK Book)