Detail předmětu

Zpracování přirozeného jazyka

FIT-ZPDAk. rok: 2020/2021

Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.

Okruhy otázek k SDZ:

  1. Distribuční sémantika slov, modely Word2Vec, Glove a FastText
  2. Jazykové modelování
  3. Strojový překlad
  4. Modely typu seq2seq a mechanismus pozornosti (attention)
  5. Odpovídání na otázky v přirozeném jazyce
  6. Konvoluční neuronové sítě pro klasifikaci vět
  7. Modelování kontextů použití: kontextuální reprezentace a předtrénování
  8. Sítě typu transformer a self-attention pro generativní modely
  9. Generování přirozeného jazyka
  10. Koreference a její automatické zpracování

Výsledky učení předmětu

Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Doporučená nebo povinná literatura

Géron, Aurélien. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. " O'Reilly Media, Inc.", 2017.
Raaijmakers, Stephan. Deep Learning for Natural Language Processing. Manning, 2019.
Goldberg, Yoav. "Neural network methods for natural language processing." Synthesis Lectures on Human Language Technologies 10, no. 1 (2017): 1-309.
Deng, Li, and Yang Liu, eds. Deep Learning in Natural Language Processing. Springer, 2018.

Způsob a kritéria hodnocení

Diskuse v rámci přednášek či individuálních konzultací, kontrola zpracování tématické práce.

Jazyk výuky

čeština, angličtina

Cíl

Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích. Pochopit základní principy reprezentace znalostí a inference s využitím neuronových modelů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Přednášky a zpracování projektu.

Zařazení předmětu ve studijních plánech

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

  • Program VTI-DR-4 doktorský

    obor DVI4 , libovolný ročník, zimní semestr, 0 kreditů, volitelný

Typ (způsob) výuky

 

Přednáška

39 hod., nepovinná

Vyučující / Lektor

Osnova


  1. Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
  2. Významy slov a jejich vektorová reprezentace
  3. Závislostní syntaxe
  4. Jazykové modely
  5. Strojový překlad
  6. Modely typu seq2seq a pozornost (attention)
  7. Odpovídání na otázky v přirozeném jazyce
  8. Konvoluční neuronové sítě pro klasifikaci vět
  9. Informace z částí slov: modely typu subword
  10. Modelování kontextů použití: kontextuální reprezentace a předtrénování
  11. Sítě typu transformer a self-attention pro generativní modely
  12. Generování přirozeného jazyka
  13. Koreference a její automatické zpracování

Konzultace v kombinovaném studiu

26 hod., nepovinná

Vyučující / Lektor

eLearning