AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpusové nástroje

V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách www.korpus.cz nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK (Morfio, SyD apod.), zde je k nalezení stručný přehled vybraných nástrojů vytvářených napříč světadíly. Přednostně upozorňujeme na ty nástroje, které jsou zdarma a které byly vytvořeny nedávno. Přehled v žádném případě není vyčerpávající, doufáme ale v jeho inspirativnost. PS: Nezapomínejme, že korpusovými nástroji jsou i samotné korpusové manažery.

nástroj využití dostupnost poznámka
ADW měření sémantické podobnosti zdarma využívá WordNet
AntConc vyhledávání n-gramů zdarma autor: Laurence Anthony
Colibri vyhledávání n-gramů i skipgramů zdarma autor: Maarten van Gompel
ConLexis elektronický korpusově založený slovník pro výuku finštiny zdarma autor: Jarmo Jantunen
depecheMood emocionální analýza textů zdarma využívá WordNet
Gunstick diachronní rýmovník zdarma založeno na Korpusu českého verše
kfNGram vyhledávání n-gramů v rozsáhlých textech zdarma autor: William H. Fletcher
Pedagoški slovnični portal slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí zdarma uživatelsky vstřícné
SentiWords přiřazuje hodnocení: pozitivní, negativní, objektivní výraz zdarma využívá WordNet
Sketchengine de facto korpusový manažer zčásti zdarma vytváří tým kolem A. Kilgariffa
Variant Detector sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English zdarma další využití: jazyk dětí, cizinců (learner language)
WordNet lexikální databáze angličtiny ukazující významovou propojenost slov zdarma data z WordNetu využívá řada dalších nástrojů
Wordnik hyponyma a hyperonyma hledaného výrazu zdarma využívá WordNet
Wortschatz německý korpusově založený slovníkový portál pro 230 jazyků či variant zdarma uživatelsky vstřícné

Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná např. zde. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. v tomto článku.

O nových nástrojích dále informuje e-mailový rozesílač corpora list, k jehož odběru se můžete přihlásit zde. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme poradnu, subfórum týkající se wiki.

Související odkazy