Bericht für das Akademiejahrbuch 2005

Inhalt

1  Projektmitglieder

Steuerungsgruppe

Dr. Christiane Fellbaum, Princeton University (USA)

Prof. Dr. Wolfgang Klein (OM), Max-Planck-Institut für Psycholinguistik, Nijmegen

Dr. Alexander Geyken, Berlin-Brandenburgische Akademie der Wissenschaften

Wissenschaftliche Mitarbeiter

Dr. Anna Firenze, Elke Gehweiler, Dr. Iris Höser, Dr. Undine Kramer (stellvertretende Leiterin), Katerina Stathi, Jörg Didakowski (seit 1. 5.), Kai Zimmer (seit 1. 4.), Christiane Fritze (bis 28. 2.)

Studentische Mitarbeiter

Axel Herold, Jörg Didakowski (bis 30. 4., dann Mitarbeiter), Fabian Körner, Renata Kwasniak (ab Mai 2005), Anne-Martine Urbschat, Kay-Michael Würzner (bis 31. 3.), Kai Zimmer (bis 31. 3., dann Mitarbeiter), Christoph Srubar.

Praktikanten

Renata Kwasniak (bis April 2005, dann studentische Mitarbeiterin)

Gäste des Projekts

Dr. Patrick Hanks (Brandeis University, USA)

Noam Ordan (Tel Aviv, Hertie-Stipendiat)

2  Ziel und thematische Schwerpunkte des Projekts

Das durch den Wolfgang Paul-Preis der Alexander von Humboldt-Stiftung geförderte Projekt „Kollokationen im Wörterbuch“ unter Leitung der Preisträgerin Christiane Fellbaum konzentriert sich auf einen ausgewählten Bereich im weiten Spektrum der festen Wendungen, auf Verb-Nomen-Verbindungen idiomatischen Charakters, wie es z. B. eins hinter die Löffel bekommen oder etwas auf die hohe Kante legen sind. Die komplexe semantische und syntaktische Analyse einer möglichst großen Anzahl deutscher Verb-Nomen-Idiome sowie ihre lexikographische Erfassung sind die Hauptziele des Projekts. Die Untersuchung wird grundlegend gestützt durch moderne computerlexikographische Arbeitsmethoden.

Die empirische Basis der Analysen bildet das Corpus des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS), ein repräsentatives und linguistisch aufbereitetes elektronisches Corpus aus Texten des gesamten 20. Jahrhunderts, das an der BBAW unter Leitung von Wolfgang Klein und Alexander Geyken erstellt wurde und mit der digitalisierten Version des „Wörterbuchs der deutschen Gegenwartssprache“ (1961-1977) von R. Klappenbach/W. Steinitz verknüpft ist.

Beim Projekt „Kollokationen im Wörterbuch“ handelt es sich um Grundlagenforschung, von der u. a. Phraseologie, Lexikographie, Computerlinguistik, Theorie und Praxis des Übersetzens und Fremdsprachenunterricht profitieren werden.

Die im folgenden skizzierten Arbeitsschritte gewährleisten eine corpusbasierte komplexe Analyse von Verb-Nomen-Idiomen und die adäquate Darstellung der Analyseergebnisse in einer Idiomdatenbank unter Wahrung der Corpusgebundenheit mithilfe eines speziell entwickelten Belegverwaltungsprogramms.

Suchanfragendatenbank und Belegcorpora

Die Lexikographen und Linguisten des Projekts führen Corpusrecherchen auf der Basis einer Liste von Zielidiomen durch. Eine dafür eingerichtete und laufend aktualisierte Suchanfragendatenbank enthält zur Zeit über 4.000 Datensätze. Ein Datensatz umfasst alle Informationen über die für ein bestimmtes Idiom erfolgten Suchstrategien. Ziel ist es, eine passende „final query“ für ein Idiom zu erstellen. Mittels der „final queries“ werden durch Abfrage des Corpus einzelne Belegcorpora erstellt. Sie enthalten alle Treffer zum Zielidiom sowie die dazugehörigen bibliographischen Daten. Die Belegcorpora dienen als Basis zur Ermittlung der Eigenschaften jedes einzelnen Idiom und der Verifizierung der Analyseergebnisse. Für die Belegcorpora wurde eine Software entwickelt, die die lexikographische Bearbeitung der Belege unterstützt. Die Software ermöglicht die Sichtung, Sortierung und Bewertung auch großer Belegmengen nach diversen Kriterien und gestattet die Annotierung der Belege mithilfe einer frei definierbaren Labelsprache. Diese Informationen werden als Bestandteil des Belegcorpus' gespeichert und stehen für weitere Auswertungen zur Verfügung.

Idiomdatenbank

Die Ergebnisse der im Projekt geleisteten Analyse der lexikalischen, semantischen, syntaktischen und distributiven Eigenschaften der Idiome sowie ihrer evt. strukturellen und/oder semantischen Veränderungen werden in sogenannten Templates in einer Datenbank erfasst. Pro Idiom gibt es acht dieser „Datenblätter“. Die zugrunde liegende Datenstruktur ist ursächlich für die Möglichkeiten der automatischen und manuellen Auswertung verantwortlich.

3  Arbeitsergebnisse 2005

Datenbankeinträge

Anfang November 2005 enthielt die Idiomdatenbank 597 vollständige Einträge mit insgesamt 4.776 Templates. Die Gesamtzahl der relevanten Belege für diese Einträge beträgt über 66.000, von denen wiederum über 25.000 gelabelt sind. Damit können die Belegcorpora als annotiertes Idiomcorpus angesehen werden und sind eine Ressource von beständig steigendem Wert auch für die maschinelle Sprachverarbeitung und die Lexikographie.

Datenauswertung

Ein Auswertewerkzeug, das den Zugriff auf die Daten unterstützt und spezielle linguistische Phänomene abfragbar macht, wurde programmiert.

Ressourcennutzung

Eine umfassende Dokumentation wurde parallel zur Bearbeitung entwickelt und verfeinert. Die Untersuchungsergebnisse werden frei über das Internet zur Verfügung gestellt werden. Auch die im Projekt entwickelten Arbeitswerkzeuge sind als Ressourcen für zukünftige linguistische Forschungen nutzbar.

Das Projekt hat eine Homepage (kollokationen.bbaw.de), auf der in deutscher und englischer Sprache u. a. eine Forschungsbibliographie, die Publikationen der Mitarbeiter und die Vortragsreihe des Projekts vorgestellt werden.

Forschungsbibliographie

Die gegenwärtig umfangreichste Sammlung zum Thema „Kollokationen und Idiome“ umfaßt ca. 4.000 Einträge und wird laufend aktualisiert. Ihre redaktionelle Betreuung stellt sicher, dass nur wissenschaftlich fundierte Veröffentlichungen aufgenommen werden. Die Bibliographie ist der Öffentlichkeit im Internet zugänglich.

Veranstaltungen und Kooperationen

Die Vortragsreihe des Projekts „Kollokationen im Wörterbuch“ gewann im Jahre 2005 mehrere Referenten.

Enge Zusammenarbeit aufgrund überschneidender Interessen gibt es mit Prof. Dr. Angelika Storrer (Universität Dortmund) und Dr. Thomas Hanneforth (Universität Potsdam). Ebenso gibt es Kontakte zum Institut für deutsche Sprache und Linguistik der Humboldt-Universität und zur Freien Universität Berlin, an der zwei Projektmitglieder Doktorandinnenstellen innehaben. Viele der Hilfskräfte studieren an diesen Institutionen und verwenden für ihre Abschlußarbeit Anregungen aus dem Projekt. An der Princeton University kooperiert Christiane Fellbaum zur Zeit mit Sam Glucksberg über EEG-Messungen bei der sprachlichen Verarbeitung von Idiomen.

Veröffentlichungen

Ein dem Projekt gewidmetes Sonderheft des International Journal of Lexicography mit Beiträgen der Projektmitarbeiter wird 2006 erscheinen (Hrsg. Christiane Fellbaum). Ebenfalls für 2006 ist ein projektbezogener Sammelband in der Reihe Corpus and Discourse (Continuum Press, Birmingham, UK) in Vorbereitung.

An herausragenden relevanten Publikationen im Berichtszeitraum sind folgende zu nennen:

Geyken, Alexander (2005): Das Wortinformationssystem des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS). In: BBAW, Circular Heft 32.

Geyken, Alexander/Hanneforth, Thomas (2005): TAGH: A Complete Morphology for German based on Weighted Finite State Automata. In: Proceedings of FSMNLP 2005, Lecture Notes in Artificial Intelligence. Springer.

Fellbaum, Christiane/Geyken, Alexander (im Druck): Transforming a Corpus into a Lexical Resource for Idioms and Collocations. Revue Francaise de Linguistique Appliquee.

Fellbaum, Christiane/Stathi, Katerina (im Druck): Idiome in der Grammatik und im Kontext: Wer brüllt hier die Leviten?. In: Proost, K./Winkler, E. (Hrsg.): Von Intentionalität zur Bedeutung konventionalisierter Zeichen. Studien zur deutschen Sprache, Tübingen: Narr

Fellbaum, Christiane/Kramer, Undine/Neumann, Gerald (2005): Corpusbasierte lexikographische Erfassung und linguistische Analyse deutscher Idiome. In: Phraseology in Motion. Basel, 183-199.

Kramer, Undine/Neumann, Gerald/Stathi, Katerina/Fellbaum, Christiane (2005): „Kollokationen im Wörterbuch“ – Das Wolfgang Paul-Preis Projekt an der Berlin-Brandenburgischen Akademie der Wissenschaften. In: Zeitschrift für Germanistik, Heft 3, 636-645.

Kramer, Undine/Fritze, Christiane (2005): Neue Online-Bibliographie. Collocations and idioms: An International Bibliography. In: Zeitschrift für Germanistik, Heft 1, 240.

Stathi, Katerina (2005): Phraseological boundedness and semantic change in Greek.. Proceedings of the 7th International Conference on Greek Linguistics, University of York, 8-10 September 2005.

Eine vollständige Publikationsliste der Projektmitglieder findet sich auf der Homepage des Projektes.

Tagungsteilnahmen

Mitarbeiter und Stipendiaten des Projektes „Kollokationen im Wörterbuch“ haben aktiv an internationalen Tagungen und Workshops teilgenommen. Eine Auswahl ist hier angeführt:

Christiane Fellbaum trug als eingeladene Sprecherin im MEANING Workshop in Trento, Italien und in einem Workshop über Verben in Saarbrücken vor. Weiterhin stellte sie das Projekt in dem Workshop über elektronische Lexikographie an der BBAW vor.

Geyken, Alexander: Halbautomatische Erschließung von semantischen Informationen im Wörterbuch. Extraktion einer Hyperonymiehierarchie aus den Definitionen des WDG. Workshop „Auf der Suche nach Standards. Individualität und Typologisierung von Wörterbüchern im Zeitalter digitaler Vernetzung.“ Berlin, BBAW, 25. 4. 2005

Geyken, Alexander/Hanneforth, Thomas: TAGH-Morphology. Workshop on Computational Modeling of Lexical Acquisition. Split, 26. 7. 2005

Herold, Axel: Reducing the Size of Sample Corpora for Research on Idioms in the German Language. Poster presented at the conference „Corpus Linguistics“, Birmingham, 14.-17. 7. 2005.

Jurish, Bryan: Hybrid syntactic category induction. Paper presented at the Workshop on Computational Modelling of Language Acquisition (CPALA), Split, Croatia, July 2005.

Kramer, Undine: Sprachliche Diskriminierung des Alters? „Alt“ und „Alter“ in Kollokationen und Idiomen. Fachtagung Altersdiskriminierung & Alterspotentiale des Kuratoriums Deutsche Altershilfe (eingeladener Vortrag), Köln, 12. 12. 2005.

Stathi, Katerina: Phraseological boundedness and semantic change in Greek. 7th International Conference on Greek Linguistics, University of York, 8-10 September 2005.

4  Ausblick

2006 wird sich die Projektarbeit auf Datenbankeinträge fokussieren. Darüber hinaus steht die Integration der Projektergebnisse in das Wortinformationssystem des DWDS im Vordergrund.

Kurz vor dem Abschluss steht ein DFG-Projektantrag zur Erforschung von Funktionsverbgefügen in Zusammenarbeit mit Angelika Storrer (Dortmund). Diese Arbeit soll die Projektarbeit von VP-Idiomen auf eine andere Klasse von Kollokationen ausweiten.