Master's Thesis

Algorithms for named entities recognition

Final Thesis 3.25 MB Appendix 115.03 kB

Author of thesis: Ing. Luca Winter

Acad. year: 2016/2017

Supervisor: prof. RNDr. Ing. Jiří Šťastný, CSc.

Reviewer: Ing. Pavel Heriban, Ph.D.

Abstract:

The aim of this work is to find out which algorithm is the best at recognizing named entities in e-mail messages. The theoretical part explains the existing tools in this field. The practical part describes the design of two tools specifically designed to create new models capable of recognizing named entities in e-mail messages. The first tool is based on a neural network and the second tool uses a CRF graph model. The existing and newly created tools and their ability to generalize are compared on a subset of e-mail messages provided by Kiwi.com.

Keywords:

named entity recognition, natural language processing, recurrent neural networks, conditional random fields

Date of defence

15.6.2017

Result of the defence

Defended (thesis was successfully defended)

znakmkaAznamka

Grade

A

Process of defence

Student obeznámil komisi s výsledky své DP, představil cíle své práce. Oponent měl na studenta dva dotazy. Doc. Švarc měl dotaz na konkrétní příklad s letenkami. Doc. Matoušek se tázal, zda student navštívil společnost Kiwi.

Language of thesis

Slovak

Faculty

Department

Study field

Applied Computer Science and Control

Composition of Committee

prof. Ing. Miluše Vítečková, CSc. (předseda)
RNDr. Martin Kuba, Ph.D. (místopředseda)
prof. RNDr. Ing. Jiří Šťastný, CSc. (člen)
doc. Ing. Radomil Matoušek, Ph.D. (člen)
doc. Ing. Ivan Švarc, CSc. (člen)
doc. Ing. Václav Jirsík, CSc. (člen)

Požadavky a cíle zadání této diplomové práce byly kvalitně splněny.
Výsledkem práce je návrh, implementace a následná analýza algoritmů pro identifikaci stanovených klíčových údajů v emailových zprávách.
Práce je přínosem pro vývoj automatizovaného systému zpracování e-mailových zpráv ve firmě Kiwi.com.
Evaluation criteria Mark
Fulfilment of requirements and objectives of assignment A
Working process, extent and suitability of applied methods A
Scholarly contribution and originality A
Ability to interpret achieved results and draw conclusions A
Applicability of results in practice or theory A
Logical arrangement of thesis and its layout A
Grafic layout, used style and language level B
Work with used sources including quotations A
Student's independence when working on the topic A

Grade proposed by supervisor: A

Reviewer’s report
Ing. Pavel Heriban, Ph.D.

Předložená práce si dala za cíl porovnat nástroje pro vyhledávání pojmenovaných entit v emailových zprávách a doporučit nejvhodnjší. Porovnává dva nástroje, které autor v rámci práce implementoval. Jeden je založen na neuronových sítích, druhý používá CRF grafový model. Oba nástroje byly testovány ve dvou režimech zpracování textu, a to "slovo po slově" a "znak po znaku". Dosažený výsledek je v textu práce mírně zastřen. Objasnění jistě přinese odpověď na druhou doplňující otazku.
Teoretickým základům každé testované metody je v práci věnována jedna kapitola. Zde se objevuji drobné nepřesnosti, např. jiné značení stejné veličiny na obrázku a v rovnici (obr. 2 a rovnice 9) nebo nejasnost ve významu veličiny (první doplňující otázka).
Grafická úprava je velmi dobrá. Některé obrázky mají velmi malé popisy (obr. 5). Pro odlišení vložených částí kódu mohlo být použito neproporcionální písmo. Na několika místech je autorova slovenština ovlivněna češtinou, např. "z tohoto" místo "z tohto". Opakuje se vynechání intrpunkční čárky za vloženou vedlejší větou uvozenou spojkou "který".
Předložená závěrečná práce splňuje zadání.
Evaluation criteria Mark
Fulfilment of requirements and objectives of assignment A
Working process, extent and suitability of applied methods A
Scholarly contribution and originality A
Ability to interpret achieved results and draw conclusions B
Applicability of results in practice or theory A
Logical arrangement of thesis and its layout A
Grafic layout, used style and language level B
Work with used sources including quotations A

Grade proposed by reviewer: A