Abstracts

2004

Adam Kilgarriff
Sketching words

Word sketches are one-page automatic, corpus-based summaries of a word's grammatical and collocational behaviour. They were first used in the production of the Macmillan English Dictionary. At that point, they only existed for English. Now, we have developed the Sketch Engine, a tool which takes as input a corpus of any language and, if the corpus is not already parsed, a set of grammatical relations for the language, described as regular expressions over part-of-speech tags, which we then use to parse the corpus within the tool. We also generate a thesaurus and „sketch differences“, which specify similarities and differences between near-synonyms. I shall describe the system, in the context of earlier corpus tools, and discuss future prospects.

Alexey Sokirko
Morphological components on www.aot.ru

This paper describes morphological components, which were developed under www.aot.ru initiative. These components enable to perform morphological analysis and synthesis for Russian, German and English languages. The paper concerns mostly the following:

  1. Structure of one morphological dictionary: options and restrictions;
  2. GUI-environment to edit one morphological dictionary;
  3. Binary representation of one morphological dictionary which is built upon a finite state acceptor;
  4. Treatment of unknown words;
  5. Updating dictionary via Internet (a new project).

The relevance of the paper is due to the following:

  1. The current version of Russian dictionary is used for the Russian National Corpus (bokrcorpora.narod.ru). German dictionary is used for some tasks in the Digital Dictionary of the 20th Century German Language Project (www.dwds.de)
  2. The binary format of the dictionary allows us to perform analysis at the highest speed, which is theoretically possible.
  3. All described components are distributed as Open Sources.

Manfred Sailer
Distributionsprofile für Polaritätselemente

Lexikalische Einheiten, die nur in „negativen“ Kontexten auftreten können, werden gemeinhin als negativpolare Elemente (NPE) bezeichnet. In der linguistischen Literatur wurden verschiedene „negative“ Kontexte identifiziert, unter die dann nicht nur Sätze mit „nicht“ fallen, sondern beispielsweise auch „wenn“-Sätze oder Fragesätze (van der Wouden 1997 für einen Überblick). Ein NPE kann ein einzelnes Wort sein („beileibe“, „jemals“), oder eine phraseologische Einheit („etw. wahrhaben wollen“, „alle Tassen im Schrank haben“). NPEs können sich in der Art der „negativen“ Kontexte, in denen sie auftreten können, unterscheiden (nur mit „nicht“/„kein“: „beileibe“; auch in Fragen: „jemals“).

Noch stärker als bei Phraseologismen beruht die Datenerfassung bei NPEs bislang hauptsächlich auf introspektiven Daten. Ausgehend von einem Ausschnitt von 1,2 Millionen Sätzen des partiell geparsten Korpus TüPP-D/Z versuchen wir, Distributionsprofile für verschiedene Klassen von NPEs zu erstellen, um so eine automatische Extraktion von NPE-Kandidaten zu ermöglichen. Im Vortrag werden die bisherigen Ergebnisse dargestellt und die Möglichkeit ihrer Übertragung auf andere Arten von Korpora (wie bloßer Text oder google-Ergebnisse) diskutiert.

Auch viele phraseologische Einheiten sind NPEs (Kürschner 1983 listet etwa 75). Bei solchen Phraseologismen stellt sich das Beschreibungsproblem, dass einerseits die Negationssensitivität eine idiosynkratische Eigenschaft des Phraseologismus ist, andererseits der „negative“ Kontext selbst nicht Teil des Phraseologismus ist. Im Vortrag soll gezeigt werden, dass die Ergebnisse der NPE-Extraktion auf Wortebene auch zur korpusbasierten Bestimmung der Polaritätssensitivität eines Phraseologismus beitragen können.

Literatur:

Korpus:

2003

Christian Chiracos
Semiautomatische Extraktion von Idiomen aus maschinell durchsuchbaren Korpora

Im Vortrag werden zwei Ansätze zur Kollokationsanalyse in ihrer Anwendbarkeit für die Identifizierung komplexer idiomatischer Redewendungen vorgestellt und diskutiert. Für bisherige statistische Verfahren bestehen aufgrund der aus der „kombinatorischen Explosion“ folgenden Platzkomplexität inhärente Schranken ihrer Kontextsensitivität, so dass allein Zweiwort-, maximal jedoch Dreiwortkollokationen Gegenstand der Betrachtung sind.

Klassifikationsverfahren, die auf der Auswertung relevanter Teilkorpora beruhen, stellen einen möglichen Weg dar, diese Einschränkungen zu umgehen. Ausgehend von der Identifizierung heuristischer Ähnlichkeits- und Signifikanzfaktoren auf Wortebene kann dabei eine Ähnlichkeitsrelation zwischen Korpusbelegen definiert werden, welche die Grundlage eines modifizierten K-MEANS CLUSTERINGs darstellt. Ausgabe des Algorithmus ist eine Partitionierung der Belegmenge, die unter Berücksichtigung geeigneter Heuristiken für die idiomatische Signifikanz von Einzelworten bzw. -merkmalen eine starke Tendenz aufweist, einen Bezug zu idiomatischen Redewendungen zu besitzen.

Dieser neue Ansatz gestattet zum einen die Betrachtung größerer Kontextbereiche, zum anderen aber auch erstmals die systematische Integration linguistischer Merkmale in die Kollokationsanalyse, darüber hinaus bietet er das Potential effizienter Einsetzbarkeit unter Annahme einer fest beschränkten Anzahl von zu identifizierenden Ähnlichkeitsklassen.

Problematisch bleibt jedoch die Komplexität und Verfügbarkeit hinreichender Ähnlichkeits- und Signifikanzheuristiken, deren Erprobung und Integration Gegenstand anschließender Arbeiten ist.

Adam Pease
The Suggested Upper Merged Ontology (SUMO) and its Use in Linguistics

This talk will present first a general introduction to a formal ontology and how it relates to linguistic data. Motivation and design decisions will be discussed. Detailed examples will be presented from the ontology, particularly with regards to process types in the ontology and their relation to verbs. The domain ontologies developed with SUMO will be described. Also covered will be research into translating natural language to logic, and reasoning with first order logic.

Rada Mihalcea
The Quest for Meaning

Ambiguity is inherent to human language. Among various types of ambiguity encountered in natural language, the semantic ambiguity is one of the most difficult to solve using automatic means, and yet it represents a necessary step in a large range of applications in natural language processing, including machine translation, intelligent information retrieval, knowledge acquisition, and others. While humans usually encounter no difficulties in identifying the correct sense of an ambiguous word, the task turns out to be tremendously harder when needs to be performed by a computer.

In this talk, I will present work currently underway at University of North Texas, in collaboration with University of Texas at Dallas, for finding solutions to the problem of word sense disambiguation (WSD). I will also address the problem of data bottleneck in automatic WSD, and describe possible solutions for semi-automatic acquisition of sense tagged corpora.

Irena Vassileva
Co-evolving academic rhetoric across culture; Britain, Bulgaria, Denmark Germany in the 20th century

If differences among the rhetorics of academic articles from different cultures are due to essential cultural differences, analogous differences should be found in older articles. This paper aims to find out whether they are. It examines a hundred articles from economics journals in Bulgarian, Danish, English, and German published between 1900 and 2000, looking at article type and length, title length, first-person pronoun usage, first-sentence orientation to research or policy, moves in the introduction, an orientation of the conclusion.

Most aspects of the development are similar across languages: many early articles are accounts rather than problem-oriented analyses, but all are cast in the latter form by 1973. Mere accounts died out between 1933 and 1953 in the British and Danish samples, possibly slower in Germany and Bulgaria. Joint authorship predominates in 1993, but is hardly known before 1973. Division into sections was sporadic initially but by 1993 titled sections are obligatory. Explicit statements of aim and the occasion for writing have become common; thesis statements seem to have appeared at different times.

There are, however, some differences in the date of developments and differences across languages/cultures/communities. Articles in most languages tend increasingly to avoid first-person pronouns, but the trend is the opposite in the British sample. The focus of introductions and conclusions has shifted more towards research in the British sample than in the others.

These developments seem explicable in terms of professionalisation of the whole discipline, alongside internationalisation focused on English-language publication. There seems little evidence of essential differences at this level.