KidRef: Ein Kinderreferenzkorpus

Published in Bochumer Linguistische Arbeitsberichte (BLA), 2024

Recommended citation: Ortmann, K. & Wedig, H. (2024). KidRef. Ein Kinderreferenzkorpus. Bochumer Linguistische Arbeitsberichte (BLA), 26. https://www.linguistics.ruhr-uni-bochum.de/forschung/arbeitsberichte/26.pdf

Bislang existieren nur sehr wenige deutsche L1-Korpora mit Texten von jungen Schulkindern und häufig sind diese nicht frei verfügbar oder liegen in den verschiedensten Formaten und mit unterschiedlich detaillierten Annotationen vor, was die Erforschung des Schriftspracherwerbs erschwert. Ziel dieses Projekts war deshalb die Erstellung eines deutschen Kinderreferenzkorpus mit Texten von und für Grundschulkinder(n) aus drei großen deutschen L1-Korpora (Osnabrücker Bildergeschichtenkorpus, H1 Children’s Writing Korpus, Litkey-Korpus) sowie zwei Internetressourcen (Grundschulwiki, Klexikon). Die fünf Subkorpora wurden semi-automatisch mit zahlreichen linguistischen Annotationen ange- reichert (Transkriptionen, orthographische und grammatische Zielhypothesen, POS-Tags, Dependenz- relationen, Satzgrenzen, direkte Rede, Phoneme, Grapheme, Silben, Morpheme, Rechtschreibfehler, Metadaten) und einheitlich im LearnerXML-Format gespeichert, das für diesen Zweck erweitert wurde. Die vorliegende Dokumentation gibt einen Überblick über die verschiedenen in diesem Projekt durchgeführten Verarbeitungsschritte und Ergebnisse. Sie enthält zudem eine Anleitung, wie weitere Daten zu dem Korpus hinzugefügt werden können.