AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpusové nástroje

V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách www.korpus.cz nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK (SyD, Morfio, KWords apod.), zde je k nalezení stručný přehled vybraných nástrojů z celého světa. Přednostně upozorňujeme na ty, které jsou zdarma a které byly vytvořeny nedávno. Přehled v žádném případě není vyčerpávající, záměrně v něm nejsou uvedeny korpusové manažery, doufáme ale v jeho inspirativnost.

nástroj využití dostupnost poznámka
ADW měří míru sémantické podobnosti zdarma využívá WordNet
AntConc vyhledávání n-gramů zdarma autor: Laurence Anthony
BabelNet sémanticky provázaná encyklopedie, 271 jazyků zdarma vytváří autorský tým kolem R. Navigliho
Colibri vyhledávání n-gramů i skipgramů zdarma autor: Maarten van Gompel
ConLexis elektronický korpusově založený slovník pro výuku finštiny zdarma autor: Jarmo Jantunen
depecheMood emocionální analýza textů zdarma využívá WordNet
Gunstick diachronní rýmovník zdarma založeno na Korpusu českého verše
kfNGram vyhledávání n-gramů v rozsáhlých textech zdarma autor: William H. Fletcher
Pedagoški slovnični portal slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí zdarma uživatelsky vstřícné
SentiWords přiřazuje hodnocení: pozitivní, negativní, objektivní výraz zdarma využívá WordNet
SIGIL výpočet statistické významnosti (chi-kvadrátu) zdarma Stefan Evert a Marco Baroni vytvořili interaktivní úvod do statistiky pro lingvisty
Sketch Engine korpusový manažer s řadou dalších funkcí (Word Sketches, Corpus Architect atd.) licenční poplatek vytváří tým kolem Adama Kilgarriffa
Variant Detector sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English zdarma další využití: jazyk dětí, cizinců (learner language)
WordNet lexikální databáze angličtiny ukazující významovou propojenost slov zdarma data z WordNetu využívá řada dalších nástrojů
Wordnik hyponyma a hyperonyma hledaného výrazu zdarma využívá WordNet
WordSmith Tools konkordancer s možností hledání klíčových slov licenční poplatek autor: M. Scott
Wortschatz německý korpusově založený slovníkový portál pro 230 jazyků či variant zdarma uživatelsky vstřícné

Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná např. zde. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. v tomto článku.

O nových nástrojích dále informuje e-mailová konference corpora, do které se můžete přihlásit zde. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme poradnu, subfórum týkající se wiki.

Související odkazy