Obsah
Korpusový manažer
Korpusové manažery či prohlížeče (angl. corpus manager, corpus browser, corpus query system) jsou speciální aplikace, které umožňují efektivní vyhledávání v korpusových datech. Korpusovým manažerem či prohlížečem se obvykle rozumí komplexní nástroj k vyhledávání jazykových forem (či jejich sekvencí), vymezených případně konkrétním kontextem či s ohledem na jejich další lingvistickou a metatextovou anotaci, kterou bývají texty v korpusu opatřeny (např. v podobě pozičních atributů: lemmatizace, kategorizace morfologická či vzácněji i syntaktická, sémantická či stylistická; nebo vyhledávání v určitých specifických typech textů na základě strukturních atributů). Dotaz se pokládá ve speciálním dotazovacím jazyce. Vedle vyhledávání konkrétních konkordancí nabízejí korpusové manažery i další funkce, jako například vyhledávání kolokací, vyhodnocení základních frekvenčních či distribučních statistik a případně i složitějších statistických analýz.
V užším pojetí lze pod označením „korpusový manažer“ chápat pouze serverovou část vyhledávající v datech (angl. též corpus query engine), zatímco klientská část se pak nazývá prostě „prohlížečem“ či „rozhraním“ (angl. user interface) (viz rozdělení níže).
Typy manažerů
Manažer pracuje buď lokálně, nebo častěji na principu klient-server. V prvním případě musí být na počítači, který pracuje s korpusem, zároveň i celý textový korpus. Takovéto programy se používaly zejména v začátcích korpusové lingvistiky. V druhém případě je na uživatelově počítači pouze klientská část, která zajišťuje především uživatelské rozhraní (napomáhá s tvorbou dotazů a zobrazuje výsledky) a vlastní vyhledávání probíhá na vzdáleném serveru, kde je také uložen korpus. Tento způsob je vhodný pro velké korpusy. Jeho další výhodou je, že všem uživatelům jsou k dispozici stejná a aktuální data.
Klientský program může být buď lokálně nainstalován na uživatelově počítači, nebo může jít o webovou aplikaci. S použitím konkrétního dotazovacího jazyka lze v příslušném korpusu vyhledávat slova a jejich kombinace v kontextu. Jednotlivé výskyty jsou většinou zobrazovány formou konkordančních řádků (KWIC). V závislosti na konkrétním manažeru lze pak používat i další funkce (jako například třídění konkordančních řádků a počítání frekvencí, statistické funkce a asociační míry).
Serverové aplikace
CWB
Corpus Workbench (CWB) je soubor volně dostupných nástrojů pro spravování a dotazování jazykových korpusů. Jeho jádrem je korpusový manažer CQP (Corpus Query Processor), používající dotazovací jazyk CQL (Corpus Query Language). V současnosti je paralelně s ním vyvíjeno webové uživatelské rozhraní cqp-web. Hlavními vývojáři manažeru jsou v současné době Stefan Evert a Andrew Hardie.
Manatee
Manatee je modernější reimplementací korpusového manažeru inspirovanou CWB, využívající jen mírně upravenou verzi dotazovacího jazyka CQL. Jedná se pouze o serverovou část korpusového manažeru. Jejím autorem je Pavel Rychlý. Slouží k vyhodnocování dotazů zadaných pomocí klientské části, jako je např. starší Bonito, nověji komerčně nabízený Sketch Engine nebo jeho otevřená alternativa NoSketch Engine.
Klientské aplikace
Bonito
Bonito je uživatelské rozhraní ke korpusovému manažeru Manatee, kterou si uživatel lokálně instaluje. Bonito může běžet na různých operačních systémech bez větších nároků na výkon počítače. Jeho autorem je Pavel Rychlý. Tento korpusový klient byl používán pro vyhledávání v korpusech Českého národního korpusu i pro vyhledávání v korpusech jiných jazyků, v současné době již není dál vyvíjen a byl vzhledem ke své technické zastaralosti nahrazen novějšími rozhraními (zejm. KonText).
Sketch Engine
Sketch Engine je novější verze uživatelského rozhraní k serveru Manatee. Sketch Engine má podobu webové aplikace, která umožňuje kromě běžných funkcí (viz NoSketch Engine) navíc také zobrazovat tzv. Word Sketches, tedy tzv. slovní profily hledaného výrazu, a dále srovnávat rozdíly mezi kolokačními profily dvou různých výrazů. Word Sketches jsou jednou z populárních technik vyhledávání kolokací. Sketch Engine také integruje nástroje umožňující vytváření vlastních webových korpusů. Vlastníkem aplikace je společnost Lexical Computing Ltd. založená Adamem Kilgarriffem. Sketch Engine vyvíjí od roku 2003 Pavel Rychlý se svým týmem spolu s novou, komerční verzí Manatee podporující Word sketches.
Word sketches jsou představovány seznamem kolokací pro jednotlivé gramatické vztahy, který je pro hledaný výraz vytvořen automaticky na základě příslušného korpusu a souboru jazykově závislých pravidel. Tato pravidla jsou předem definována na základě morfologické kategorizace a přípustných slovosledných omezení daného jazyka v tzv. sketch grammar, vycházející z dotazovacího jazyka CQL (např. pro sloveso v češtině jsou v seznamu uvedeny nejčastější kolokáty pro subjekt, objekt atd., založené na vyhledávání substantivních kolokátů v odpovídajícím pádu). Word sketches byly poprvé systematicky použity pro Macmillan English Dictionary for Advanced Learners (2002).
NoSketch Engine
NoSketch Engine (NoSkE) je omezená, nekomerční a otevřená verze rozhraní SketchEngine, která nepodporuje funkci Word sketches. Jako otevřený projekt (open-source software) umožňující další modifikace byla část tohoto korpusového manažeru v ÚČNK použita jako základ pro nové rozhraní KonText. Rozhraní NoSkE v rámci ČNK už není podporováno.
Park
Park bylo uživatelské rozhraní s nadstavbou nad serverem Manatee, umožňující vyhledávání v paralelních korpusech. Bylo vyvinuto Michalem Štouračem pro projekt InterCorp v době, kdy Manatee nepodporovalo paralelní korpusy přímo. Od integrace této podpory do novějších verzí Manatee se Park dále nevyvíjí, neboť nativní podpora paralelních korpusů v Manatee je nepoměrně efektivnější a rychlejší a vyhledávání v paralelních korpusech bylo současně integrováno i do rozhraní KonText.
Rozhraní KonText
Rozhraní KonText je rozšířenou a graficky upravenou verzí původního rozhraní NoSketch Engine, vyvíjenou v ÚČNK Tomášem Machálkem. Doplňuje řadu nových funkcí (např. podporu mluvených korpusů) a usiluje také o větší uživatelskou přívětivost (např. integrací podpory pro snazší vyhledávání pomocí morfologických kategorií), viz též přehled verzí.
Další specializované nástroje
Vedle těchto více méně univerzálních nástrojů existuje a stále vzniká řada nástrojů specializovaných. Pro účely vytěžování korpusů ČNK tak vznikly nástroje SyD, Morfio, KWords a Treq. Na této stránce naleznete přehled dalších specializovaných nástrojů.