Tvorba korpusů a vytěžování jazykových dat: metody, modely, nástroje

 

Autor: PETR POŘÍZKA

Vydavatel: Vydavatelství Filozofické fakulty Univerzity Palackého v Olomouci
Místo vydání: Olomouc
Rok vydání: 2014

 

DOPLŇKOVÉ MATERIÁLY K MONOGRAFII

OBSAH

kapitola 1: dotazy, slovniky
kapitola 2: dotazy, nastroje, texty
kapitola 3: dotazy, nastroje, texty, korpusy
kapitola 4: dotazy, prikazy, nastroje, skripty, texty
kapitola 5: Manatee/Bonito - testovaci korpusy, software

 

ANOTACE

Kniha nabízí systematický vhled do problematiky technického zpracování jazykových dat, efektivního vytěžování dat a prezentuje možnosti a prostředky, jak sestavit vlastní textovou databázi (jazykový korpus).

Nejprve se věnujeme základům dotazovacího jazyka CQL a vysvětlujeme elementární principy vytěžování korpusových dat. Prostor je věnován i základním metodám kvantitativního vyhodnocování korpusových dat, mezi něž nesporně patří vytváření frekvenčních seznamů či zkoumání kolokací (a koligací) prostřednictvím nejznámějších statistických testů, zejm. MI-score, t-score, Log-Likelihood, Chi-squared.

Mezi nejdůležitější části textu patří pasáže zaměřené na anotaci a technické aspekty tvorby korpusů, jmenovitě zejm. na formát dat a kódování znaků, segmentaci textu, využití značkovacího jazyka XML pro korpusovou anotaci atd. Tato témata, jimž se věnujeme jak z teoretického pohledu, tak na praktických ukázkách, patří mezi klíčová, pokud jde o přípravu a zpracování korpusové databáze. Zároveň představují nejen fundament pro tvorbu korpusů, ale i pro pokročilejší práci s regulárními výrazy a jazykem CQL, především pokud jde o komplexní využití prostředků CQL a vytváření složitějších vyhledávacích masek. V této souvislosti ilustrujeme na konkrétních příkladech i možnou variantnost zápisu CQL dotazů, tedy jev, kdy jeden dotaz lze v CQL zapsat více způsoby, a tematizujeme možné přegenerovávání (overgeneration) komplexních strukturovaných vzorů. Prezentujeme ale i alternativní možnosti a prostředky tvorby korpusových dotazů – např. použití rozšířených sad regulárních výrazů (PCRE a POSIX metavýrazů).

Zásadní je pasáž o korpusových formátech a značkovacím jazyce XML (Extensible Markup Language), jenž v současnosti představuje nejrozšířenější mezinárodní standard pro anotaci korpusových databází. Představeny jsou prostředky a pravidla tvorby (základy syntaxe) XML dokumentů i možnosti pro anotaci korpusových textů v různých formátech. Snažíme se ukázat principiální souvislosti XML a CQL, tedy souvislost mezi XML formátem, způsobem anotace databáze a formátem vyhledávacích masek CQL, vč. užití tzv. proximitních operátorů.

Prezentujeme rovněž vybrané softwarové nástroje pro vytěžování korpusových dat, od nejjednodušších aplikací určených pro dílčí či základní korpusové operace až po komplexní korpusové nástroje. Zaměřujeme se zde převážně na práci s lingvisticky neanotovanými texty a ukazujeme možnosti relativně jednoduché tvorby malých korpusů i způsobů jejich vytěžování. Podáváme přitom vždy stručnou charakteristiku nástroje, jeho funkcí, příp. implementovaného dotazovacího jazyka. Popisujeme též rozšířené funkce některých konkordančních nástrojů, zejm. AntConc a Xaira, např. možnost tvorby seznamu lemmat (lemma listů), zobrazení disperze výrazů v textech, použití statistických testů k vyhledávání kolokátů či koligací, detekce tematických slov apod.

Technicky nejnáročnějšími pasážemi monografie jsou kapitoly, jež se věnují možnostem automatického zpracování textu do strukturované databáze prostřednictvím softwarových nástrojů a počítačových skriptů a zabývají se rovněž tvorbou korpusu v systému Manatee/Bonito. Postupně jsou představeny všechny fáze počítačového zpracování dat: nastavení či konverze kódování znaků, konců řádků i souborového formátu, segmentace či tokenizace textu, jeho zpracování do některého z korpusových formátů (např. do tzv. vertikály), proces anotace různého typu a rozsahu (zejm. lemmatizace a taggování). Součástí těchto technických pasáží jsou i základy práce s příkazovým řádkem, neboť počítačové skripty je nutno kvůli absenci grafického uživatelského rozhraní spouštět právě zápisem (příkazem s různými parametry) z příkazového řádku operačního systému. Zároveň demonstrujeme i využití příkazového řádku pro některé základní korpusové operace jako je vyhledávání klíčových slov, tj. generování konkordancí, tvorba frekvenčních či abecedních seznamů ad. možností, a to vše přímo ze zdrojových textů bez nutnosti importu textů do korpusových softwarových nástrojů.

Doplňkem této monografie je webové úložiště (http://corpus.upol.cz/tvorba-korpusu), kde uživatelé tohoto textu naleznou celou řadu materiálů: instalační soubory softwarových nástrojů či počítačové skripty, s nimiž v textu pracujeme, ale i úryvky zdrojových textů či příkladů z textu.

 

Pořízka, Petr: Tvorba korpusů a vytěžování jazykových dat: metody, modely, nástroje. Vydavatelství Filozofické fakulty Univerzity Palackého, Olomouc 2014. (288 s.) ISBN 978-80-87895-17-7 (tisk); ISBN 978-80-87895-16-0 (iPDF)

 

DOWNLOAD