Ziele
Der Leibniz-WissenschaftsCampus „Empirical Linguistics and Computational Language Modeling“ hat zum Ziel, auf Basis umfangreicher Sprachressourcen des Deutschen automatische Sprachanalyse für vielfältige Domänen, Genres und Sprachvarietäten in hoher Qualität nutzbar zu machen, und somit eine Grundlage zu schaffen für neue Methoden empirischer Forschung in der Sprachwissenschaft und den sog. „digitalen Geisteswissenschaften“. Im Fokus des WissenschaftsCampus steht die Kombination korpus- und computerlinguistischer Expertise und Methoden sowie die Anwendung korpuslinguistischer und computerlinguistischer Sprachmodellierung in den Geistes- und Sozialwissenschaften, den „Digital Humanities“.
Forschungsthemen
Zentrale Forschungsthemen des Leibniz-WissenschaftsCampus sind die korpusbasierte Induktion linguistischer, insbesondere semantischer Sprachmodelle, die Verknüpfung von Textkorpora mit linguistischen Ontologien und Wissensbasen und die korpus- und computerlinguistische Analyse von Sprache unterschiedlicher Genres und Varietäten. Ein herausragendes Merkmal des WissenschaftsCampus ist der Fokus auf deutsche Sprache. Die computationelle Modellierung setzt bevorzugt auf schwach überwachte und unüberwachte Lernmethoden. Erwartete Forschungsresultate sind umfangreiche und in hoher Qualität automatisch annotierte Sprachkorpora der deutschen Gegenwartssprache, angereichert mit semantischer Annotation, sowie leistungsstarke Sprachverarbeitungsmodelle für die Verarbeitung deutscher Sprachkorpora unterschiedlicher Genres und Domänen.
Interdisziplinäre Aspekte
Die enge Zusammenarbeit von Linguisten und Korpuslinguisten im WissenschaftsCampus bietet ideale Voraussetzungen für die Entwicklung neuer Forschungsmethoden in der empirischen Linguistik. Durch verbesserte genre- und domänen-adaptive Sprachmodelle kann eine große Spannbreite an Forschungsfragen in den Digitalen Geisteswissenschaften und der Sprachtechnologie behandelt werden. Der Leibniz-WissenschaftsCampus wird neue Forschungsfragen in dieser Art durch interdisziplinäre Inkubatorprojekte in empirischer Linguistik und den „Digital Humanities“ erforschen.
Kooperationspartner
Der Leibniz-WissenschaftsCampus „Empirical Linguistics & Computational Language Modeling“ ist ein neues Kooperationsprojekt zwischen dem Leibniz-Institut für Deutsche Sprache (IDS) Mannheim und dem Institut für Computerlinguistik der Universität Heidelberg. Der WissenschaftsCampus arbeitet zusammen mit Kooperationspartnern aus Linguistik und Informatik an den Universitäten Heidelberg und Mannheim sowie mit Computerlinguisten des Heidelberger Instituts für Theoretische Studien (HITS).