AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpusové nástroje

V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách www.korpus.cz nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK (SyD, Morfio, KWords apod.), zde je k nalezení stručný přehled vybraných nástrojů vytvářených napříč světadíly. Přednostně upozorňujeme na ty nástroje, které jsou zdarma a které byly vytvořeny nedávno. Přehled v žádném případě není vyčerpávající, doufáme ale v jeho inspirativnost. PS: Nezapomínejme, že korpusovými nástroji jsou i samotné korpusové manažery.

nástroj využití dostupnost poznámka
ADW měří míru sémantické podobnosti zdarma využívá WordNet
AntConc vyhledávání n-gramů zdarma autor: Laurence Anthony
Colibri vyhledávání n-gramů i skipgramů zdarma autor: Maarten van Gompel
ConLexis elektronický korpusově založený slovník pro výuku finštiny zdarma autor: Jarmo Jantunen
depecheMood emocionální analýza textů zdarma využívá WordNet
Gunstick diachronní rýmovník zdarma založeno na Korpusu českého verše
kfNGram vyhledávání n-gramů v rozsáhlých textech zdarma autor: William H. Fletcher
Pedagoški slovnični portal slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí zdarma uživatelsky vstřícné
SentiWords přiřazuje hodnocení: pozitivní, negativní, objektivní výraz zdarma využívá WordNet
SIGIL výpočet statistické významnosti (chi-kvadrátu) zdarma Stefan Evert a Marco Baroni vytvořili interaktivní úvod do statistiky pro lingvisty
Sketchengine de facto korpusový manažer zčásti zdarma vytváří tým kolem A. Kilgariffa
Variant Detector sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English zdarma další využití: jazyk dětí, cizinců (learner language)
WordNet lexikální databáze angličtiny ukazující významovou propojenost slov zdarma data z WordNetu využívá řada dalších nástrojů
Wordnik hyponyma a hyperonyma hledaného výrazu zdarma využívá WordNet
Wortschatz německý korpusově založený slovníkový portál pro 230 jazyků či variant zdarma uživatelsky vstřícné

Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná např. zde. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. v tomto článku.

O nových nástrojích dále informuje e-mailový rozesílač corpora list, k jehož odběru se můžete přihlásit zde. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme poradnu, subfórum týkající se wiki.

Související odkazy