MorphCon :: dokumentace

Vývoj aplikace byl motivován současnou situací české korpusové lingvistiky v souvislosti s morfologickou anotací jazykových korpusů. Existuje již několik morfologických značkovacích sad, z nichž nejdominantnější a nejužívanější je doposud systém navržený J. Hajičem (dále pražský tagset) a užitý např. v psané složce Českého národního korpusu (ČNK) nebo v Pražském závislostním korpusu. Neméně důležitý je i brněnský systém morfologických značek, se kterým pracuje morfologický analyzátor (tagger) AJKA (© R. Sedláček & NLP FI MU Brno), užívaný v korpusech NLP FI MU Brno. Dále existuje morfologický tagset V. Petkeviče užitý v mezinárodním projektu MULTEXT-EAST (korpus Orwell 1984) nebo nejnověji tzv. kódovník, jímž byl označkován Pražský mluvený korpus. 
Program MorphCon umožňuje zkonvertovat již anotovaný korpus jedním tagsetem do tagsetu jiného. Software je možno díky jeho struktuře doplňovat o další tagsety, moduly a rysy (více v sekci Dokumentace).
MorphCon je vyvíjen v programovacím jazyku Perl (v5.10.0) a koncipován na základě konverzních tabulek tagsetů. S ohledem na potenciální uživatele-lingvisty je pamatováno na grafické uživatelské rozhraní, tzv. GUI (Graphical User Interface). Program je distribuován pod licencí GNU General Public Licence v3.

 

Sekce