diplomová práce

Algoritmy pro rozpoznávání pojmenovaných entit

Text práce 3.25 MB Příloha 115.03 kB

Autor práce: Ing. Luca Winter

Ak. rok: 2016/2017

Vedoucí: prof. RNDr. Ing. Jiří Šťastný, CSc.

Oponent: Ing. Pavel Heriban, Ph.D.

Abstrakt:

Cieľom práce je zistiť, ktorý algoritmus je schopný najlepšie rozpoznávať pomenované entity v emailových správach. V teoretickej časti práce sú popísané existujúce nástroje v tejto oblasti. Praktická časť obsahuje návrh dvoch nástrojov špeciálne určených na učenie nových modelov schopných rozpoznávať pomenované entity v emailových správach. Prvý nástroj je implementáciou neurónovej siete, druhý nástroj využíva CRF grafový model. Úspešnosť a schopnosť existujúcich i navrhnutých nástrojov generalizovať je porovnaná na časti emailových správ poskytnutých firmou Kiwi.com.

Klíčová slova:

rozpoznávanie pomenovaných entít, spracovanie prirodzeného jazyka, rekurentné neurónové siete, podmienené náhodné polia

Termín obhajoby

15.6.2017

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znakmkaAznamka

Klasifikace

A

Průběh obhajoby

Student obeznámil komisi s výsledky své DP, představil cíle své práce. Oponent měl na studenta dva dotazy. Doc. Švarc měl dotaz na konkrétní příklad s letenkami. Doc. Matoušek se tázal, zda student navštívil společnost Kiwi.

Jazyk práce

slovenština

Fakulta

Ústav

Studijní obor

Aplikovaná informatika a řízení (M-AIŘ)

Složení komise

prof. Ing. Miluše Vítečková, CSc. (předseda)
RNDr. Martin Kuba, Ph.D. (místopředseda)
prof. RNDr. Ing. Jiří Šťastný, CSc. (člen)
doc. Ing. Radomil Matoušek, Ph.D. (člen)
doc. Ing. Ivan Švarc, CSc. (člen)
doc. Ing. Václav Jirsík, CSc. (člen)

Požadavky a cíle zadání této diplomové práce byly kvalitně splněny.
Výsledkem práce je návrh, implementace a následná analýza algoritmů pro identifikaci stanovených klíčových údajů v emailových zprávách.
Práce je přínosem pro vývoj automatizovaného systému zpracování e-mailových zpráv ve firmě Kiwi.com.
Kritérium hodnocení Známka
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosažené vysledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis B
Práce s literaturou včetně citací A
Samostatnost studenta při zpracování tématu A

Známka navržená vedoucím: A

Posudek oponenta
Ing. Pavel Heriban, Ph.D.

Předložená práce si dala za cíl porovnat nástroje pro vyhledávání pojmenovaných entit v emailových zprávách a doporučit nejvhodnjší. Porovnává dva nástroje, které autor v rámci práce implementoval. Jeden je založen na neuronových sítích, druhý používá CRF grafový model. Oba nástroje byly testovány ve dvou režimech zpracování textu, a to "slovo po slově" a "znak po znaku". Dosažený výsledek je v textu práce mírně zastřen. Objasnění jistě přinese odpověď na druhou doplňující otazku.
Teoretickým základům každé testované metody je v práci věnována jedna kapitola. Zde se objevuji drobné nepřesnosti, např. jiné značení stejné veličiny na obrázku a v rovnici (obr. 2 a rovnice 9) nebo nejasnost ve významu veličiny (první doplňující otázka).
Grafická úprava je velmi dobrá. Některé obrázky mají velmi malé popisy (obr. 5). Pro odlišení vložených částí kódu mohlo být použito neproporcionální písmo. Na několika místech je autorova slovenština ovlivněna češtinou, např. "z tohoto" místo "z tohto". Opakuje se vynechání intrpunkční čárky za vloženou vedlejší větou uvozenou spojkou "který".
Předložená závěrečná práce splňuje zadání.
Kritérium hodnocení Známka
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosaž. vysledky a vyvozovat z nich závěry B
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis B
Práce s literaturou včetně citací A

Známka navržená oponentem: A