AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpusové nástroje

V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách www.korpus.cz nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK (Morfio, SyD apod.), zde je k nalezení stručný přehled vybraných nástrojů vytvářených napříč světadíly. Přednostně upozorňujeme na ty nástroje, které jsou zdarma a které byly vytvořeny nedávno. Přehled v žádném případě není vyčerpávající, doufáme ale v jeho inspirativnost. PS: Nezapomínejme, že korpusovými nástroji jsou i samotné korpusové manažery.

nástroj využití dostupnost odkaz poznámka
AntConc vyhledávání n-gramů zdarma AntConc autor: Laurence Anthony
Colibri vyhledávání n-gramů i skipgramů zdarma Colibri autor: Maarten van Gompel
ConLexis elektronický korpusově založený slovník pro výuku finštiny zdarma ConLexis autor: Jarmo Jantunen
depecheMood emocionální analýza textů zdarma depecheMood využívá WordNet
Gunstick diachronní rýmovník zdarma Gunstick založeno na Korpusu českého verše
kfNGram vyhledávání n-gramů v rozsáhlých textech zdarma kfNGram autor: William H. Fletcher
Pedagoški slovnični portal slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí zdarma PSP uživatelsky vstřícné
SentiWordNet přiřazuje hodnocení: pozitivní, negativní, objektivní výraz zdarma SentiWords využívá WordNet
Sketchengine de facto korpusový manažer zčásti zdarma Sketchengine vytváří tým kolem A. Kilgariffa
Variant Detector sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English zdarma VARD další využití: jazyk dětí, cizinců (learner language)
WordNet lexikální databáze angličtiny ukazující významovou propojenost slov zdarma ke stažení zde data z WordNetu využívá řada dalších nástrojů
Wordnik hyponyma a hyperonyma hledaného výrazu zdarma Wordnik využívá WordNet
Wortschatz německý korpusově založený slovníkový portál pro 230 jazyků či variant zdarma Wortschatz uživatelsky vstřícné

Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná např. zde. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. v tomto článku.

O nových nástrojích dále informuje e-mailový rozesílač corpora list, k jehož odběru se můžete přihlásit zde.