MorphCon :: struktura
- aktuální verze: v0.2beta
- aktualizace: 25/02/2012
Dokumentace
V současnosti MorphCon umožňuje konverzi mezi třemi českými morfologickými tagsety: pražským pozičním systémem (J. Hajič) - dále PT, brněnským atributivním systémem (K. Osolsobě - K. Pala - R. Sedláček) - dále BT a tagsetem projektu MULTEXT-EAST (V. Petkevič) - dále TME. PT užívá již řada aplikací pro (polo)automatickou lingvistickou anotaci češtiny: Feature-based Tager, HMM Tagger a Morče (nástroje ÚFAL MFF UK). BT užívají programy Lemma a Ajka (nástroje NLP FI MU). Nově byl do aktuální verze MorphConu v0.2beta přidán český tagset projektu MULTEXT-EAST (V. Petkevič), jímž je morfologicky označkován např. korpus ORWELL (verze "orwe-mte") v ČNK.
Princip konverze a I/O formát
Konverze mezi tagsety neprobíhá přímo, tj. např. PT <-> BT, ale prostřednictvím převodníku, univerzální sady Interset: PT <-> IT <-> BT. Zásadní je rovněž Input/Output (I/O) formát. MorphCon nabízí v současnosti pět typů I/O formátu (WPL-Format ve dvou variantách):
- SimpleTag: např. tagset PT <-> interset <-> BT tagset
- WPL-Format: word-lemma-tag nebo word-tag-lemma
- KWIC/tag-Format: kontext | KWIC/tag | kontext
- Ajka Format (blíže viz ajka.pdf - příloha B, s. 82–83)
- CSTS Format (blíže viz csts)
MorphCon je složen z několika komponentů/modulů (všechny jsou napsány v programovacím jazyce Perl).
Moduly
- GUI: grafické uživatelské rozhraní – MorphCon.pl
- Input/Output moduly: MorphCon::{simple,kwic,wpl}
-
Drivers: implementované morfologické tagsety
- tagset::cs::{attributive-ajka,positional-15,positional-16,multext}
- Universal library: modifikovaná knihovna DZ Interset
Modularita softwaru kromě univerzality (s možností rozšiřovat MorphCon o další tagsety) nabízí i variabilitu při procesu konverze, tj. různé/odlišné možnosti nastavení vstupních a výstupních dat. MorphCon je postaven na univerzálním tagsetu Interset (blíže viz Interset (c) Dan Zeman), který při konverzi z jednoho tagsetu do druhého funguje jako převodník. Každý tagset je implementován do programu jako "driver" s dvojí funkcí, buď jako výchozí, nebo cílový tagset:
- encode-funkce: source-tagset → Interset
- decode-funkce: Interset → target-tagset
Interset funguje jako "feature-projekce", tj. je strukturován jako "feature --> value" systém, kdy rysem je gramatická, morfosyntaktická kategorie. Musí zároveň obsahovat všechny rysy (gramatické kategorie) s jejich hodnotami ze všech implementovaných tagsetů. Jejich přehled lze nalézt na webových stránkách projektu (viz Features and Values). Při konverzi se tagy z tagsetu A převádějí do Intersetu, z nějž se následně konvertují do cílových tagů v rámci tagsetu B. Kvalita konverze tedy závisí na kvalitě algoritmů, jež převádějí jednotlivé kategorie s hodnotami daných tagsetů do "feature --> value" systému Intersetu.
Input/Output moduly MorphConu výrazně rozšiřují možnosti DZ Intersetu, neboť kromě samotného procesu konverze umožňují variabilně nastavit vstupní a výstupní data. Vstupní a výstupní formát dat tak nemusí být totožný.
Závažnými fakty pro konverzi, tj. převodní algoritmy, je otázka rozdílné koncepce tagsetů a jejich vzájemné převoditelnosti, potenciální ztráta informace během konverze ad. aspekty.