Publication detail
Strojové učení základem pro hybridní lemmatizační algoritmus
KARÁSEK, J. ŠANDA, P. BURGET, R. MORSKÝ, O.
Original Title
Strojové učení základem pro hybridní lemmatizační algoritmus
Czech Title
Strojové učení základem pro hybridní lemmatizační algoritmus
Language
cs
Original Abstract
Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desambiguaci.
Czech abstract
Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desambiguaci.
Documents
BibTex
@article{BUT92901,
author="Jan {Karásek} and Pavel {Šanda} and Radim {Burget} and Ondřej {Morský}",
title="Strojové učení základem pro hybridní lemmatizační algoritmus",
annote="Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desambiguaci.",
chapter="92901",
number="57",
volume="2012",
year="2012",
month="september",
pages="1--10",
type="journal article - other"
}