Skip to content

notesjor/corpusexplorer2.0

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

60 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

CorpusExplorer2.0

Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte. Der CorpusExplorer vereint über 45 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle Funktionen in eigene Programme zu integrieren.

Key Features

  • Unterstützt über 100 unterschiedliche Datei-/Textformate für Im-/Export - inkl. vieler linguistischer XML-Formate.
  • Integrierter Webcrawler zum Sammeln eigener Webkorpora.
  • Sehr einfache Programmoberfläche / Korpus mit wenigen Mausklicks automatisch bereinigen und annotieren - direkt analysefertig.
  • Anbindung unterschiedlicher Tagger - z. B. TreeTagger, OpenNLP, Stanford POS, uvm.
  • Erlaubt Analyse unterschiedlichster Quellen - z. B. Transkripte, Zeitungsartikel, PDF, E-Mails, Tweets, Webseiten, eBooks, uvm.
  • Im Hintergrund arbeitet eine sehr schnelle In-Memory Datenbank - speziell für die Korpusanalyse entwickelt. Diese Datenbank kann gegen verschiedene SQL- (MySQL, SQLite) und NoSQL-Datenbanken (ElasticSearch) ausgetauscht werden.
  • Unbegrenzte Korpusgröße - Verteilte Verarbeitung möglich.
  • Über 45 Visualisierungen - z. B.: Frequenzanalyse, N-Gramme, Phrasen, Kookkurrenzen, KWIC, DIFF, Stilmetriken, Korpusverteilung.
  • Auswertungen/Visualisierungen werden vom Ausgangsmaterial/Korpora vollständig durch Schnappschüsse isoliert. Dadurch sind Ergebnisse reproduzierbar, selbst wenn sich das Korpusmaterial ändert.
  • Per Shell/Konsole steuerbar (siehe https://github.com/notesjor/CorpusExplorer.Terminal.Console). Dies ist eine gute Anlaufstelle, wenn Sie den CorpusExplorer in eigene Skripte (R, python, etc.) integrieren möchten.
  • Flexibles SDK (Software Development Kit) für alle .NET-Sprachen (https://de.wikipedia.org/wiki/Liste_von_.NET-Sprachen). Erlaubt eigene Erweiterungen für den CorpusExplorer zu entwickeln oder den CorpusExplorer in eigene Anwendungen zu integrieren.

Systemvoraussetzungen:

Download / Handbuch / Video-Anleitung / Erweiterungen

http://www.corpusexplorer.de