Toto je starší verze dokumentu!
Korpusové nástroje
V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách www.korpus.cz nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK (Morfio, SyD apod.), zde je k nalezení stručný přehled vybraných nástrojů vytvářených napříč světadíly. Přednostně upozorňujeme na ty nástroje, které jsou zdarma a které byly vytvořeny nedávno. Přehled v žádném případě není vyčerpávající, doufáme ale v jeho inspirativnost. PS: Nezapomínejme, že korpusovými nástroji jsou i samotné korpusové manažery.
nástroj | využití | dostupnost | odkaz | poznámka |
AntConc | vyhledávání n-gramů | zdarma | AntConc | autor: Laurence Anthony |
Colibri | vyhledávání n-gramů i skipgramů | zdarma | Colibri | autor: Maarten van Gompel |
ConLexis | elektronický korpusově založený slovník pro výuku finštiny | zdarma | ConLexis | autor: Jarmo Jantunen |
depecheMood | emocionální analýza textů | zdarma | depecheMood | využívá WordNet |
Gunstick | diachronní rýmovník | zdarma | Gunstick | založeno na Korpusu českého verše |
kfNGram | vyhledávání n-gramů v rozsáhlých textech | zdarma | kfNGram | autor: William H. Fletcher |
Pedagoški slovnični portal | slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí | zdarma | PSP | uživatelsky vstřícné |
SentiWordNet | přiřazuje hodnocení: pozitivní, negativní, objektivní výraz | zdarma | SentiWords | využívá WordNet |
Sketchengine | de facto korpusový manažer | zčásti zdarma | Sketchengine | vytváří tým kolem A. Kilgariffa |
Variant Detector | sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English | zdarma | VARD | další využití: jazyk dětí, cizinců (learner language) |
WordNet | lexikální databáze angličtiny ukazující významovou propojenost slov | zdarma | ke stažení zde | data z WordNetu využívá řada dalších nástrojů |
Wordnik | hyponyma a hyperonyma hledaného výrazu | zdarma | Wordnik | využívá WordNet |
Wortschatz | německý korpusově založený slovníkový portál pro 230 jazyků či variant | zdarma | Wortschatz | uživatelsky vstřícné |
Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná např. zde. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. v tomto článku.
O nových nástrojích dále informuje e-mailový rozesílač corpora list, k jehož odběru se můžete přihlásit zde.