AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:nastroje [2014/11/10 03:00] Olga Richterovapojmy:nastroje [2020/10/05 12:24] (aktuální) – [Související odkazy] Václav Cvrček
Řádek 1: Řádek 1:
 ==== Korpusové nástroje ==== ==== Korpusové nástroje ====
  
-V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách www.korpus.cz nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK (Morfio, SyD apod.), zde je k nalezení stručný přehled vybraných nástrojů vytvářených napříč světadílyPřednostně upozorňujeme na ty nástroje, které jsou zdarma a které byly vytvořeny nedávno. Přehled v žádném případě není vyčerpávající, doufáme ale v jeho inspirativnost. PS: Nezapomínejme, že korpusovými nástroji jsou i samotné [[pojmy:korpusovy_manazer|korpusové manažery]].+Na této stránce nabízíme stručný přehled vybraných nástrojů umožňujících různý způsob vytěžování korpusových datObsahuje především nástroje, které jsou k dispozici zdarmato jak webové, tak i samostatné aplikace; přestože není v žádném případě vyčerpávající, doufáme v jeho inspirativnost. Záměrně v něm nejsou uvedeny [[pojmy:korpusovy_manazer|korpusové manažery]] (jako např. [[manualy:kontext:index|KonText]]) a další nástroje vyvíjené v ČNK ([[manualy:syd|SyD]], [[manualy:morfio|Morfio]], [[manualy:kwords|KWords]] apod.) ani nástroje připravující textová data pro korpusové zpracování (tokenizátory, anotátory atd.); oblast pomůcek pro Natural Language Processing ([[wp>Natural_language_processing|NLP]]) je zpracovaná např. [[http://cllt.osu.edu/lingCorpusLinks.html|zde]] nebo v přehledovém [[http://entopix.com/so-you-need-to-understand-language-data-open-source-nlp-software-can-help/|článku]] o nástrojích, které mají napomoci s automatickou sémantickou kategorizací textů (tj. „porozuměním“).
  
-| **nástroj** | **využití ** | **dostupnost** | **odkaz** | **poznámka** | 
-| Variant Detector  | sjednocování pravopisných variant v historických (diachronních) korpusech - konkrétně Early Modern English | zdarma | [[http://ucrel.lancs.ac.uk/vard/about/|VARD]] | další využití: jazyk dětí, cizinců (learner language)  | 
-| WordNet | lexikální databáze angličtiny ukazující významovou propojenost slov| zdarma | [[http://wordnet.princeton.edu/wordnet/download/|ke stažení zde]] | data z WordNetu využívá řada dalších nástrojů | 
-| Wordnik | hyponyma a hyperonyma hledaného výrazu | zdarma | [[https://www.wordnik.com|Wordnik]] | využívá WordNet | 
-| depecheMood | emocionální analýza textů | zdarma | [[http://www.depechemood.eu/|depecheMood]] | využívá WordNet | 
-| SentiWordNet | přiřazuje hodnocení: pozitivní, negativní, objektivní výraz | zdarma | [[https://hlt.fbk.eu/technologies/sentiwords|SentiWords]] | využívá WordNet | 
-| Gunstick | diachronní rýmovník |  | www.versologie.cz |  | 
-| ConLexis | elektronický korpusově založený slovník pro výuku finštiny | zdarma | [[http://wiki.virtues.fi/conlexis/|ConLexis]] | autor: Jarmo Jantunen | 
-| Pedagoški slovnični portal | slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí | zdarma | [[http://slovnica.slovenscina.eu/|PSP]] |  | 
-| kfNGram | vyhledávání n-gramů v rozsáhlých textech | zdarma | [[http://kwicfinder.com/kfNgram/kfNgramHelp.html|kfNGram]] | autor: William H. Fletcher | 
-| AntConc | vyhledávání n-gramů | zdarma | [[http://www.laurenceanthony.net/software.html|AntConc]] | autor: Laurence Anthony | 
-| Colibri | vyhledávání n-gramů i skipgramů | zdarma | [[https://github.com/proycon/colibri-core|Colibri]] | autor: Maarten van Gompel  | 
-| Sketchengine | de facto korpusový manažer | zčásti zdarma | [[http://sketchengine.co.uk/|Sketchengine]] | vytváří tým kolem A. Kilgariffa | 
-   
-Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná [[http://www.ling.ohio-state.edu/~dickinso/corpus.html|např. zde]]. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. [[http://entopix.com/so-you-need-to-understand-language-data-open-source-nlp-software-can-help/|v tomto článku]]. 
  
-O nových nástrojích dále informuje e-mailový rozesílač corpora listk jehož odběru se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]].+| **nástroj** | **využití ** | **dostupnost** | **poznámka** | 
 +| [[http://lcl.uniroma1.it/adw/|ADW]] | měří míru sémantické podobnosti | zdarma | využívá WordNet | 
 +| [[http://www.laurenceanthony.net/software.html|AntConc]] | konkordancer s možností vyhledávání n-gramů | zdarma | autor: Laurence Anthony | 
 +| [[http://babelnet.org/about|BabelNet]] | sémanticky provázaná encyklopedie, 271 jazyků | zdarma | vytváří autorský tým kolem R. Navigliho | 
 +| [[https://github.com/proycon/colibri-core|Colibri]] | vyhledávání n-gramů i skipgramů | zdarma | autor: Maarten van Gompel 
 +| [[http://wiki.virtues.fi/conlexis/|ConLexis]] | elektronický korpusově založený slovník pro výuku finštiny | zdarma | autor: Jarmo Jantunen | 
 +| [[http://www.depechemood.eu/|depecheMood]] | emocionální analýza textů | zdarma | využívá WordNet | 
 +| [[http://versologie.cz/gunstick/|Gunstick]] | diachronní rýmovník | zdarma | založeno na Korpusu českého verše | 
 +| [[http://kwicfinder.com/kfNgram/kfNgramHelp.html|kfNGram]] | vyhledávání n-gramů v rozsáhlých textech | zdarma | autor: William H. Fletcher | 
 +| [[http://slovnica.slovenscina.eu/|Pedagoški slovnični portal]] | slovinský korpusově založený jazykový portál pro cizince i rodilé mluvčí | zdarma | uživatelsky vstřícné | 
 +| [[https://hlt.fbk.eu/technologies/sentiwords|SentiWords]] | přiřazuje hodnocení: pozitivní, negativní, objektivní výraz | zdarma | využívá WordNet | 
 +| [[http://sigil.collocations.de/wizard.html|SIGIL]] | výpočet statistické významnosti (chi-kvadrátu)  | zdarma | Stefan Evert a Marco Baroni vytvořili [[http://www.stefan-evert.de/SIGIL/|interaktivní úvod do statistiky pro lingvisty]] | 
 +| [[http://ucrel.lancs.ac.uk/vard/about/|Variant Detector]] | sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English | zdarma | další využití: jazyk dětí, cizinců (learner language) 
 +| [[http://wordnet.princeton.edu/wordnet/download/|WordNet]] | lexikální databáze angličtiny ukazující významovou propojenost slov| zdarma | data z WordNetu využívá řada dalších nástrojů | 
 +| [[https://www.wordnik.com|Wordnik]] | hyponyma a hyperonyma hledaného výrazu | zdarma | využívá WordNet | 
 +| [[http://www.lexically.net/wordsmith|WordSmith Tools]] | konkordancer s možností hledání [[pojmy:keyword|klíčových slov]] | licenční poplatek | autor: M. Scott | 
 +| [[http://corpora.uni-leipzig.de/?dict=de|Wortschatz]] | německý korpusově založený slovníkový portál pro 230 jazyků či variant | zdarma | uživatelsky vstřícné | 
 + 
 +O nových nástrojích dále informuje e-mailová konference ''corpora''do které se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme Poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se wiki]]. 
 +==== Související odkazy ==== 
 + 
 +<WRAP round box 50%> 
 +[[manualy:kontext:index|KonText]] • [[http://nlp.fi.muni.cz/projekty/bonito/bonito.html.cz|Bonito]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • Stránka [[https://www.corpus-analysis.com/|corpus-analysis.com]] 
 +</WRAP>