Zusammenfassungen
Aufbau, Pflege und Nutzung groβer Wissensdatenbanken erfordern den kombinierten Einsatz menschlicher und maschineller Informationsverarbeitung. Da groβe Teile des menschlichen Wissens in Textform vorliegen, bieten sich Methoden des Text Mining zur Extraktion von Wissensinhalten an. Dieser Artikel behandelt Grundlagen des Text Mining im Kontext des Semantic Web. Methoden des Text Mining werden besprochen, die für die halbautomatische Annotierung von Texten und Textteilen eingesetzt werden, insbesondere Eigennamenerkennung (Named-Entity Recognition), automatische Schlüsselworterkennung (Keyword Recognition), automatische Dokumentenklassifikation, teilautomatisches Erstellen von Ontologien und halbautomatische Faktenerkennung (Fact Recognition, Event Recognition). Es werden auch kritische Hintergrundfragen aufgegriffen. Das Problem der zu hohen Fehlerrate und der zu geringen Performanz automatischer Verfahren wird diskutiert. Zwei Beispiele aus der Praxis werden vorgestellt: Erstens das Forschungsprojekt OntoGene der Universität Zürich, in dem Protein-Protein-Interaktionen als Relationstripel aus der Fachliteratur extrahiert werden, und zweitens ein ontologiebasierter Tag-Recommender, der die manuelle Vergabe von Schlüsselwörtern an Wissensressourcen unterstützt.
Literatur
Antoniou, G.; Harmelen, F. van: A Semantic Web Primer. 2nd ed., MIT Press, Cambridge, MA, 2008.
Blumauer, A.; Hochmeister, M.: Tag-Recommender gestützte Annotation von Web-Dokumenten. In: Blumauer, A.; Pellegrini, T. (Hrsg.): Social Semantic Web. Springer-Verlag, Berlin, 2009, S. 227–243.
Buitelaar, P.; Cimiano, P.; Magnini, B. (Hrsg.): Ontology Learning from Text: Methods, Evaluation and Applications. IOS Press, 2009.
Cimiano, P.; Hotho, A.; Staab, S.: Learning Concept Hierarchies from Text Corpora using Formal Concept Analysis. In: Journal of Artificial Intelligence Research 24, 2005, S. 305–339.
Evert, S.: The Statistics of Word Cooccurrences: Word Pairs and Collocations. Dissertation, Institut für maschinelle Sprachverarbeitung, University of Stuttgart, 2005.
Hearst, M.: Automatic Acquisition of Hyponyms from Large Text Corpora. In: Proceedings of the 14th International Conference on Computational Linguistics, Nantes, France, 1992, S. 539–545.
Kaljurand, K.: Attempto Controlled English as a Semantic Web Language. Dissertation. University of Tartu, Estonia, Faculty of Mathematics and Computer Science, Institute of Computer Science, 2008.
Kaljurand, K.; Rinaldi, F.; Kappeler, T.; Schneider, G.: Using Existing Biomedical Resources to Detect and Ground Terms in Biomedical Literature. In: Proceedings of AIME 2009, Verona, Italy, 2009, S. 225–234.
Müller, H.; Kenny, E.; Sternberg, P.: Textpresso: An ontology-based information retrieval and extraction system for biological literature. PLoS Biology, 2(11): e309, 09, 2004.
Rinaldi, F.; Kaljurand, K.; Dowdall, J.; Hess, M.: Breaking the Deadlock. In: Proceedings of ODBASE, 2003 (International Conference on Ontologies, Databases and Applications of SEmantic), Catania, Italy, Springer-Verlag, 2003, S. 876–888.
Rinaldi, F.; Kappeler, T.; Kaljurand, K.; Schneider, G.; Klenner, M.; Clematide, S.; Hess, M.; Allmen, J.; Parisot, P.; Romacker, M.; Vachon, T.: OntoGene in BioCreative II. Genome Biology, 2008, 9, S. 13.
Schneider, G.; Kaljurand, K.; Rinaldi, F.: Detecting Protein-Protein Interactions in Biomedical Texts using a Parser and Linguistic Resources. Best Paper Award (2nd place). In: Proceedings of CICLing 2009, Mexico City. Springer-Verlag, LNC 5449, S. 406–417.
Schütze, H.: Automatic Word Sense Discrimination. Computational Linguistics, 24(1), 1998, S. 97–124.
Weeds, J.; Dowdall, J.; Schneider, G.; Keller, B.; Weir, D.: Using Distributional Similarity to Organise BioMedical Terminology. Terminology, 11(1), 2005, S. 3–4.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Schneider, G., Zimmermann, H. Text-Mining-Methoden im Semantic Web. HMD 47, 35–46 (2010). https://doi.org/10.1007/BF03340436
Published:
Issue Date:
DOI: https://doi.org/10.1007/BF03340436