Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:nastroje [2015/01/09 13:49] – [Korpusové nástroje] michalkren | pojmy:nastroje [2020/10/05 12:24] (aktuální) – [Související odkazy] vaclavcvrcek |
---|
==== Korpusové nástroje ==== | ==== Korpusové nástroje ==== |
| |
V korpusové lingvistice neustále vznikají nové nástroje umožňující rozmanité vytěžování dostupných dat. Na stránkách [[http://www.korpus.cz|www.korpus.cz]] nabízíme podrobné informace o nástrojích vytvářených v rámci ČNK ([[manual:syd|SyD]], [[manual:morfio|Morfio]], [[manual:kwords|KWords]] apod.), zde je k nalezení stručný přehled vybraných nástrojů z celého světa. Přednostně upozorňujeme na ty, které jsou zdarma a které byly vytvořeny nedávno. Přehled obsahuje jak on-line nástroje, tak i samostatné aplikace; přestože není v žádném případě vyčerpávající (záměrně v něm nejsou uvedeny [[pojmy:korpusovy_manazer|korpusové manažery]]), doufáme v jeho inspirativnost. | Na této stránce nabízíme stručný přehled vybraných nástrojů umožňujících různý způsob vytěžování korpusových dat. Obsahuje především nástroje, které jsou k dispozici zdarma, a to jak webové, tak i samostatné aplikace; přestože není v žádném případě vyčerpávající, doufáme v jeho inspirativnost. Záměrně v něm nejsou uvedeny [[pojmy:korpusovy_manazer|korpusové manažery]] (jako např. [[manualy:kontext:index|KonText]]) a další nástroje vyvíjené v ČNK ([[manualy:syd|SyD]], [[manualy:morfio|Morfio]], [[manualy:kwords|KWords]] apod.) ani nástroje připravující textová data pro korpusové zpracování (tokenizátory, anotátory atd.); oblast pomůcek pro Natural Language Processing ([[wp>Natural_language_processing|NLP]]) je zpracovaná např. [[http://cllt.osu.edu/lingCorpusLinks.html|zde]] nebo v přehledovém [[http://entopix.com/so-you-need-to-understand-language-data-open-source-nlp-software-can-help/|článku]] o nástrojích, které mají napomoci s automatickou sémantickou kategorizací textů (tj. „porozuměním“). |
| |
| **nástroj** | **využití ** | **dostupnost** | **poznámka** | | | **nástroj** | **využití ** | **dostupnost** | **poznámka** | |
| [[https://hlt.fbk.eu/technologies/sentiwords|SentiWords]] | přiřazuje hodnocení: pozitivní, negativní, objektivní výraz | zdarma | využívá WordNet | | | [[https://hlt.fbk.eu/technologies/sentiwords|SentiWords]] | přiřazuje hodnocení: pozitivní, negativní, objektivní výraz | zdarma | využívá WordNet | |
| [[http://sigil.collocations.de/wizard.html|SIGIL]] | výpočet statistické významnosti (chi-kvadrátu) | zdarma | Stefan Evert a Marco Baroni vytvořili [[http://www.stefan-evert.de/SIGIL/|interaktivní úvod do statistiky pro lingvisty]] | | | [[http://sigil.collocations.de/wizard.html|SIGIL]] | výpočet statistické významnosti (chi-kvadrátu) | zdarma | Stefan Evert a Marco Baroni vytvořili [[http://www.stefan-evert.de/SIGIL/|interaktivní úvod do statistiky pro lingvisty]] | |
| [[http://sketchengine.co.uk/|Sketch Engine]] | korpusový manažer s řadou dalších funkcí (Word Sketches, Corpus Architect atd.) | licenční poplatek | vytváří tým kolem Adama Kilgarriffa | | |
| [[http://ucrel.lancs.ac.uk/vard/about/|Variant Detector]] | sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English | zdarma | další využití: jazyk dětí, cizinců (learner language) | | | [[http://ucrel.lancs.ac.uk/vard/about/|Variant Detector]] | sjednocování pravopisných variant v historických (diachronních) korpusech - pro Early Modern English | zdarma | další využití: jazyk dětí, cizinců (learner language) | |
| [[http://wordnet.princeton.edu/wordnet/download/|WordNet]] | lexikální databáze angličtiny ukazující významovou propojenost slov| zdarma | data z WordNetu využívá řada dalších nástrojů | | | [[http://wordnet.princeton.edu/wordnet/download/|WordNet]] | lexikální databáze angličtiny ukazující významovou propojenost slov| zdarma | data z WordNetu využívá řada dalších nástrojů | |
| [[http://corpora.uni-leipzig.de/?dict=de|Wortschatz]] | německý korpusově založený slovníkový portál pro 230 jazyků či variant | zdarma | uživatelsky vstřícné | | | [[http://corpora.uni-leipzig.de/?dict=de|Wortschatz]] | německý korpusově založený slovníkový portál pro 230 jazyků či variant | zdarma | uživatelsky vstřícné | |
| |
| O nových nástrojích dále informuje e-mailová konference ''corpora'', do které se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme Poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se wiki]]. |
Nevěnujeme se zde nástrojům připravujícím textová data pro korpusové zpracování (tokenizátory, anotátory atd.), oblast pomůcek pro Natural Language Processing je zpracovaná [[http://www.ling.ohio-state.edu/~dickinso/corpus.html|např. zde]]. Přehled těch nástrojů, které mají napomoci především s automatickou sémantickou kategorizací textů (tj. „porozuměním“) naleznete např. [[http://entopix.com/so-you-need-to-understand-language-data-open-source-nlp-software-can-help/|v tomto článku]]. | |
| |
O nových nástrojích dále informuje e-mailová konference ''corpora'', do které se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. Pokud nás budete chtít kontaktovat s tipy na nové nástroje, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se wiki]]. | |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 50%> | <WRAP round box 50%> |
[[http://nlp.fi.muni.cz/projekty/bonito/bonito.html.cz|Bonito]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] | [[manualy:kontext:index|KonText]] • [[http://nlp.fi.muni.cz/projekty/bonito/bonito.html.cz|Bonito]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • Stránka [[https://www.corpus-analysis.com/|corpus-analysis.com]] |
</WRAP> | </WRAP> |