Forschung

Forschungsthemen

Der Leibniz-WissenschaftsCampus “Empirical Linguistics & Computational Language Modeling” hat zum Ziel, auf Basis umfangreicher Sprachressourcen des Deutschen automatische Sprachanalyse für vielfältige Domänen, Genres und Sprachvarietäten in hoher Qualität nutzbar zu machen, und somit eine Grundlage zu schaffen für neue Methoden empirischer Forschung in der Sprachwissenschaft und den sog. “digitalen Geisteswissenschaften”. Im Fokus des WissenschaftsCampus steht die Kombination korpus- und computerlinguistischer Expertise und Methoden, sowie die Anwendung korpuslinguistischer und computerlinguistischer Sprachmodellierung in den Geistes- und Sozialwissenschaften, den “Digital Humanities”.

Zentrale Forschungsthemen des Leibniz-WissenschaftsCampus sind die korpusbasierte Induktion linguistischer, insbesondere semantischer Sprachmodelle, die Verknüpfung von Textkorpora mit linguistischen Ontologien und Wissenbasen und die korpus- und computerlinguistische Analyse von Sprache unterschiedlicher Genres und Varietäten. Ein besonderes Merkmal des WissenschaftsCampus ist die Konzentration auf deutsche Sprache. Die computationelle Modellierung setzt bevorzugt auf schwach überwachte und unüberwachte Lernmethoden. Erwartete Forschungsresultate sind umfangreiche und in hoher Qualität automatisch annotierte Sprachkorpora der deutschen Gegenwartssprache, angereichert mit semantischer Annotation, sowie leistungsstarke Sprachverarbeitungsmodelle für die Verarbeitung deutscher Sprachkorpora unterschiedlicher Genres und Domänen.

Die enge Zusammenarbeit von Linguisten und Computerlinguisten im WissenschaftsCampus bietet ideale Voraussetzungen für die Entwicklung neuer Forschungsmethoden in der empirischen Linguistik. Durch verbesserte genre- und domänen-adaptive Sprachmodelle kann eine Vielfalt neuer Forschungsfragen in den Digital Humanities und der Sprachtechnologie behandelt werden. Der Leibniz-WissenschaftsCampus wird Forschungsansätze dieser Art durch interdisziplinäre Inkubatorprojekte in empirischer Linguistik und den “Digital Humanities” erkunden.

Forschungsbereiche

Die Forschungsaktivitäten des Leibniz-WissenschaftsCampus “Empirical Linguistics & Computational Language Modeling”  sind in drei Forschungsbereichen organisiert:

Bereich A: Verarbeitung Natürlicher Sprache & Annotationswissenschaft

Das Ziel von Bereich A ist die Zusammenführung von Texttechnologie und korpusbasierter Statistik, mit dem Ziel der Erstellung von großen Korpora mit komplexen Mehrebenenannotationen. Hierbei fokussieren wir uns auf weniger erforschte Varietäten des Deutschen, und insbesondere auf Varietäten, die die Bereiche B und C verbinden. Zudem sollen die zu erstellenden Ressourcen mindestens zwei verschiedene Ebenen von Annotationen abdecken (wie z.B. Syntax und Semantik), um die Generalisierbarkeit der angewendeten Methoden zu validieren. Hierfür haben wir als ersten Anwendungsfall die Wortartenannotation von gesprochener Sprache ausgewählt, und als zweite Anwendung Sentimentanalyse auf verschiedenen Varietäten des Deutschen mit kontextsinsitiven Sentimentannotationen.
Desweiteren wird es eine enge Kooperation zwischen den Bereichen A und B geben, um neue, nicht überwachte Methoden für Genre Profiling zum Zwecke der Domänenanpassung von NLP-Tools zu explorieren. Die im Bereich A erarbeiteten Ergebnisse im Bereich der Sentimentanalyse werden die Arbeit im Forschungsbereich C zum Thema “Argumentation” unterstützen.

Bereich B: Induktion von (variationellen) linguistischen Modellen &
Ressourcen

Das Haupforschungsziel von Bereich B ist die Induktion von syntaktischen und semantischen Modellen fürs Deutsche. Forschungsthemen beinhalten die Entwicklung bzw. Verbesserung von Dependenzparsern fürs Deutsche sowie die Induktion von Parsingmodellen für spezifische Domänen und Varietäten des Deutschen. Im Bereich des Semantik ist die Entwicklung eines Systems für die Annotation lokaler und nicht-lokaler semantischer Rollen (Semantic Role Labelling) in deutschen Texten geplant. Ein weiteres Forschungsgebiet ist die Erstellung einer semantischen Ressource zur Beschreibung und Identifikation von kausaler Sprache. Die letzten beiden Themen stehen in enger Verbindung zu den Forschungsbereichen A und C.

Bereich C: Anwendungen in der empirischen Linguistik &
den Digitalen Geisteswissenschaften

Der Forschungsschwerpunkt in Bereich C liegt in der Entdeckung und Verlinkung von Wissen (Knowledge Discovery) in Texten. Hierfür werden bereits gesammelte und annotierte Daten aus dem Bereich der Argumentationsforschung (Argumentation mining) genutzt, in denen implizites Wissen und Inferenzen eine wichtige Rolle spielen. Dies ermöglicht uns die Erforschung von Phänomenen, deren Generalisierbarkeit später auch auf anderen Domänen getestet werden soll.

Zwei Projekte werden sich diesem Thema widmen. Das erste fokussiert sich auf die Rekonstruktion von Verbindungen (Links) zwischen Erwähnungen von Entitäten in argumentativen Texten, mit dem Ziel, fehlende Verknüpfungen aufzudecken und die Lücken mit Hilfe von manuellen Annotationen zu füllen. Ziel des zweiten Projekts ist es, zentrale, unverzichtbare Information von nicht wesentlicher Information zu unterscheiden. Die Trennung von essentiellen und unwesentlichen Fakten ist unabdingbar für die Simplifizierung und Generalisierung von Fakten und Wissen, wie wir sie in Texten natürlicher Sprache finden.

Darüber hinaus werden wir an der Identifikation von Sätzen mit interessanten Wissensbestandteilen arbeiten, und diese für die Überbrückung von Argumentlücken zu nutzen. Dieses Wissen kann auch zur Erweiterung von Wissensbasen genutzt werden. Weitere Forschung im Bereich C wird sich mit der Anwendbarkeit der beschriebenen Methoden auf andere Textsorten beschäftigen, hier im besonderen auf wissenschaftliche Literatur, Zeitungstexte und historische Texte.