Detail projektu

Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti

Období řešení: 01.03.2018 — 31.12.2022

O projektu

Cílem projektu je vytvoření nástrojů a technologií pro zpřístupnění obsahu digitalizovaných historických dokumentů, které budou využívat aktuální vývoj v oblasti počítačového vidění, strojového učení a jazykového modelování a které v symbióze se součanými postupy a systémy vyhledávání, prezentace a zveřejňování digitalizátů umožní snažší vyhledávání a využití obsahu digitalizátů v případech, kde to dnes není technicky možné. V rámci projektu budou vytvořeny nástroje pro dosažení co nejvyšší úroveně automatizace v celém řetězci digitalizace a pro rošíření automatické analýzy obsahu i na dokumenty, které nyní není možné automaticky zpracovat. Nástroje, které v projektu vzniknou, umožní automatickou kontrolu a zlepšování kvality digitalizátů, automatický přepis tištěných textů s kvalitou nedostatečnou pro aktuálně dostupné nástroje, polo-automatický přepis ručně psaných dokumentů a automatickou extrakci semantické informace z polo-strukturovaných dokumentů (např. evidenční štíky a matriky). Tyto nástroje a postupy budou ověřeny zpracováním vybraných sad digitalizátů také v rámci poloprovozu ve spolupráci s MZK.

Popis anglicky
The project aims to create technology and tools which would improve accessibility of digitized historic documents. These tools, based on state of the art methods from computer vision, machine learning and language modeling, will enable existing digital archives and libraries to provide full-text search and content extraction for low quality historic printed and all hand written documents - which can not be automatically processed by the currently available tools. The project extends automation and capabilities of digitization pipeline by providing tools for automated quality assessment and control, quality improvement, automated text transcription of historic printed documents, semi-automated hand written text transcription, and automatic extraction of semantic information from semi-structured documents (e.g. library catalogs and birth records). The created tools and techniques will be validated by processing selected collections of digitized materials and by a pilot operation by cooperation with Moravian Library.

Klíčová slova
pokročilé metody extrakce, rozpoznávání obsahu, digitalizáty, zvýšení využitelnosti

Klíčová slova anglicky
Optical character recognition, handwriting recognition, natural language processing, quality enhancement, language model, convolutional neural networks recurrent neural networks

Označení

DG18P02OVV055

Originální jazyk

čeština

Řešitelé

Smrž Pavel, doc. RNDr., Ph.D.
- hlavní řešitel (01.03.2018 - 31.12.2022)
Beneš Karel, Ing.
- spoluřešitel (01.03.2018 - 31.12.2022)
Kodym Oldřich, Ing.
- spoluřešitel (01.03.2018 - 31.12.2022)

Útvary

Ústav počítačové grafiky a multimédií
- příjemce (24.04.2017 - 31.12.2022)
Moravská zemská knihovna v Brně
- spolupříjemce (24.04.2017 - 31.12.2022)

Zdroje financování

Ministerstvo kultury ČR - Program na podporu aplikovaného výzkumu a experimentálního vývoje národní a kulturní identity na léta 2016 až 2022 (NAKI II)
- plně financující (2018-03-01 - 2022-12-31)

Výsledky

KIŠŠ, M.; HRADIŠ, M.; KODYM, O. Brno Mobile OCR Dataset. In International Conference on Document Analysis and Recognition. Sydney: Institute of Electrical and Electronics Engineers, 2020. p. 1352-1357. ISBN: 978-1-7281-3014-9.
Detail

BAKO, M.; BUCHAL, P.; HRADIŠ, M.: PERO-QUALITY; Automatic document quality assessment software module. https://github.com/DCGM/pero-quality. URL: https://github.com/DCGM/pero-quality. (software)
Detail

HRADIŠ, M.; KODYM, O.: PERO-ENHANCE; Software module for automatic enhancement of digitized documents. github.com/DCGM/pero-enhance. URL: https://www.fit.vut.cz/research/product/630/. (software)
Detail