Cross-Linguistic Data Formats
Cross-Linguistic Data Formats: Mit Standardisierung zur Digitalisierung und Nutzbarmachung von Sprachdaten beitragen
Durch Standardisierung und Retrostandardisierung können vorhandene digitale Bestände von Sprachdaten systematisch ausgebaut, vergleichbar gemacht und mit der Öffentlichkeit geteilt werden. Im Rahmen der "Cross-Linguistic Data Formats"-Initiative werden neue umfassende Standards für multilinguale Sprachdaten entwickelt und systematisch auf bestehende Sprachdaten angewendet, um deren Wiederverwendbarkeit und Transparenz zu erhöhen.
Die "Cross-Linguistic Data Formats"-Initiative (CLDF) wurde 2014 begründet und seitdem in verschiedenen Forschungsprojekten und aus verschiedenen Perspektiven kontinuierlich ausgebaut. Ziel der Initiative ist es, Standards für sprachübergreifende Forschungsdaten zu erstellen und diese konkret auf die Vielzahl an inzwischen digital verfügbaren Sprachdaten anzuwenden, um durch die Standardisierung und Retrostandardisierung einen Pool an Forschungsdaten für den historischen und typologischen Sprachvergleich zu erschaffen, der mit Hilfe einheitlicher Methoden analysiert werden kann.
Am Lehrstuhl für Multilinguale Computerlinguistik planen wir, die CLDF-Initiative weiter auszubauen, indem wir uns speziell auf neue Bereiche der Standardisierung konzentrieren, die bisher nicht in Betracht gezogen wurden. Dazu gehört speziell das Modellieren von verschiedenen Textformen (Beispielsätze in Grammatiken, Gedichte, größere Korpora) und von weiteren wichtigen linguistischen Konstrukten (Morphologie, Lexikon, Syntax). Zusätzlich wollen wir Serverstrukturen aufbauen, die es Kolleginnen und Kollegen erleichtern, ihre Daten im Rahmen des CLLD-Frameworks online zu publizieren und somit einem breiteren Nutzungskreis zur Verfügung zu stellen.
Projektleitung an der Universität Passau | Prof. Dr. Johann-Mattis List (Lehrstuhl für Multilinguale Computerlinguistik) |
---|---|
Laufzeit | 01.04.2023 - 31.03.2028 |
Website | https://cldf.clld.org |
Förderhinweis | Die CLDF-Initiative wurde ursprünglich von der Max-Planck-Gesellschaft gefördert. Im Laufe der Zeit wurden Teile der CLDF-Spezifikation und deren Anwendung von anderen Forschungsprojekten übernommen, unter anderem auch durch das vom Europäischen Forschungsrat von 2017 bis 2022 geförderte Projekt "Computer-Assisted Language Comparison", welches von Prof. Dr. Johann-Mattis List geleitet wurde. Durch den Wechsel nach Passau wurden über die Universität weitere Mittel für den Lehrstuhl für Multilinguale Computerlinguistik bereitgestellt, die in die weitere Förderung von CLDF einfließen. |