Detail publikace

Strojové učení základem pro hybridní lemmatizační algoritmus

KARÁSEK, J. ŠANDA, P. BURGET, R. MORSKÝ, O.

Originální název

Strojové učení základem pro hybridní lemmatizační algoritmus

Český název

Strojové učení základem pro hybridní lemmatizační algoritmus

Typ

článek v časopise - ostatní, Jost

Jazyk

cs

Originální abstrakt

Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desambiguaci.

Český abstrakt

Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desambiguaci.

Klíčová slova

Lemmatizace, Strojové učení, RDR

Rok RIV

2012

Vydáno

07.09.2012

Místo

Brno

Strany od

1

Strany do

10

Strany počet

10

BibTex


@article{BUT92901,
  author="Jan {Karásek} and Pavel {Šanda} and Radim {Burget} and Ondřej {Morský}",
  title="Strojové učení základem pro hybridní lemmatizační algoritmus",
  annote="Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desambiguaci.",
  chapter="92901",
  number="57",
  volume="2012",
  year="2012",
  month="september",
  pages="1--10",
  type="journal article - other"
}