Na této stránce nabízíme stručný přehled vybraných nástrojů umožňujících různý způsob vytěžování korpusových dat. Obsahuje především nástroje, které jsou k dispozici zdarma, a to jak webové, tak i samostatné aplikace; přestože není v žádném případě vyčerpávající, doufáme v jeho inspirativnost. Záměrně v něm nejsou uvedeny korpusové manažery (jako např. KonText) a další nástroje vyvíjené v ČNK (SyD, Morfio, KWords apod.) ani nástroje připravující textová data pro korpusové zpracování (tokenizátory, anotátory atd.); oblast pomůcek pro Natural Language Processing (NLP) je zpracovaná např. zde nebo v přehledovém článku o nástrojích, které mají napomoci s automatickou sémantickou kategorizací textů (tj. „porozuměním“).
| nástroj | využití | dostupnost | poznámka |
| ADW | měří míru sémantické podobnosti | zdarma | využívá WordNet |
| AntConc | konkordancer s možností vyhledávání n-gramů | zdarma | autor: Laurence Anthony |
| BabelNet | sémanticky provázaná encyklopedie, 271 jazyků | zdarma | vytváří autorský tým kolem R. Navigliho |
| Colibri | vyhledávání n-gramů i skipgramů | zdarma | autor: Maarten van Gompel |
| ConLexis | elektronický korpusově založený slovník pro výuku finštiny | zdarma | autor: Jarmo Jantunen |
| depecheMood | emocionální analýza textů | zdarma | využívá WordNet |
| Gunstick | diachronní rýmovník | zdarma | založeno na Korpusu českého verše |
| kfNGram | vyhledávání n-gramů v rozsáhlých textech | zdarma | autor: William H. Fletcher |
| Pedagoški slovnični portal | slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí | zdarma | uživatelsky vstřícné |
| SentiWords | přiřazuje hodnocení: pozitivní, negativní, objektivní výraz | zdarma | využívá WordNet |
| SIGIL | výpočet statistické významnosti (chi-kvadrátu) | zdarma | Stefan Evert a Marco Baroni vytvořili interaktivní úvod do statistiky pro lingvisty |
| Variant Detector | sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English | zdarma | další využití: jazyk dětí, cizinců (learner language) |
| WordNet | lexikální databáze angličtiny ukazující významovou propojenost slov | zdarma | data z WordNetu využívá řada dalších nástrojů |
| Wordnik | hyponyma a hyperonyma hledaného výrazu | zdarma | využívá WordNet |
| WordSmith Tools | konkordancer s možností hledání klíčových slov | licenční poplatek | autor: M. Scott |
| Wortschatz | německý korpusově založený slovníkový portál pro 230 jazyků či variant | zdarma | uživatelsky vstřícné |
O nových nástrojích dále informuje e-mailová konference corpora, do které se můžete přihlásit zde. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme Poradnu, subfórum týkající se wiki.
KonText • Bonito • NoSketch Engine • Korpusový manažer • Stránka corpus-analysis.com