Diann Rusch-Feja

Workshop 2:
"Bewertung der Qualität von Datenbanken"

Resümé

Herr Dr. Ziegler betonte in seinem Vortrag wichtige Aspekte bei der Kriterienbemessung von Recherche-Software. Vor allem waren Kriterien der Leistung angemerkt. Die Recherche-Struktur soll die Daten verwalten und die Thesaurus-Struktur die Daten zugänglich machen. Die Synonymverwaltung spielt hier eine bedeutende Rolle sowie die Qualität der Indexierung und des Erschließungsinstruments. Anzeigemöglichkeiten für die Rechercheergebnisse sowie die Überschaubarkeit der Bildschirm- oder Menüseiten runden diese Kriterien ab. In der Diskussion wurde erwähnt, daß die meisten Datenbanksysteme keine Thesaurus-Verwaltung haben. Bei LARS, auf dem sowohl FIS-Bildung als auch andere Anbieter ihre CD-ROM-Datenbanken aufbauen, beträgt der Aufpreis für eine Thesaurusverwaltung über DM 10.000,-.

Frau Labouvie hat Aspekte der Datenqualität besprochen. Diese beinhalteten: Multiplizität, inhaltliche Zuverlässigkeit, formale Zuverlässigkeit, Konsistenz, Korrektheit, Mehrsprachigkeit etc. Um die Datenqualität zu sichern, bedarf es Indexierungsregeln, automatischer Unterstützung des Indexverfahrens, Regeln für die sogenannten Phrasen, Klassifikationsregeln, Definition einer Sachgebietsklassifikation etc. Alle 3-4 Jahre sollen terminologische Veränderungen geprüft werden. Es gehört zu den Vorgaben, daß ersichtlich ist, nach welchen Gesichtspunkten ein Dokument indexiert wurde. Kurzannotationen erheben den Qualitätswert der Angaben. Scope-Notes zu den Klassifikationen erleichtern den Überblick und ermöglichen Präzision. Mehrsprachige Abstracts tragen zur Internationalität der Datenbank bei, ebenso ein zwei- oder mehrsprachiger Thesaurus. Eine automatisierte Fehlerkontrolle kann in den meisten Datenbanken mittlerweile erfolgreich eingesetzt werden. Schulung der Auswerter und Indexierer ist wichtg, vor allem wo das Autopsie-Prinzip verfolgt wird. Das Datenbankdesign spielt ebenso eine bedeutsame Rolle. Auch auf die Unterschiede in den Datenbanken wurde eingegangen, die durch Vermittlung einer Datenbank in verschiedenen Online-Hosts, als CD-ROM oder im Rahmen verschiedener CD-ROM-Datenbanken durch die Retrievalsoftware verschiedener Firmen entstehen.

Herr Umstätter behandelte Probleme der Benutzeroberfläche und Qualität der Inhalte. Bisher gab es keine Standards für die Nutzerinterface. Eine stringente Philosophie für die Entwicklung von der Nutzeroberfläche ist Konsistenz. Rückgriffe ergeben mehr Informationen. Hypertext erlaubt Sprünge, die sonst über hierarchische Menüpunkte nicht so direkt sind. Eine "Common Command Language" und die Akzeptanz von Z 39.50 trägt dazu bei, eine einheitlichere und benutzerfreundlichere Oberfläche bei der Mehrzahl angebotener Informationssammlungen zu sichern. Sowohl die Zweisprachigkeit des Retrievalsystems als auch die Möglichkeit, auf zwei Ebenen zu recherchieren ("Endnutzer" und "Experte"), hat Herr Umstätter empfohlen. "Knowledge Finder" eignet sich als Nutzerrecherchetool, zumal es eine neue Art von Thesaurus führt, in dem Synonyme vom System vorgeschlagen werden: "das System erzählt, was man damit machen kann." Auch die Volltextsuche wird in zunehmendem Maße wichtig.

Die Diskussion zeigt zwei Problembereiche auf: Coverage und die Indexierung mittels eines Thesaurus. Coverage hängt hauptsächlich von den Zielen und Vorgaben der Datenbank ab (was wird in der Datenbank ausgewertet und wie) sowie von den vom Hersteller definierten Zugriffspunkten. Betont wurde, daß die Qualität einer Datenbank für ihre Nutzer in erster Linie von der Qualifikation der Indexierer, ihrer Ausbildung und ebenso von den Indexierungsregeln abhängt. Deskriptoren müssen einheitlich und präzise vergeben werden. Bei Kooperationsvorhaben - wie die CD-Bildung von FIS-Bildung mit ca. 20 Zulieferern oder die Datenbank Berufliche Bildung mit ca. 10 Zulieferern - ist die Kompetenz der Auswerter nicht allein maßgebend; jede Institution hat ein ganz individuelles Modell der Schwerpunktsetzung, somit entstehen große Unterschiede bei der inhaltlichen Erschließung. Dasselbe Dokument, das die eine Institution grob verschlagwortet, weil es für die inhaltlichen Schwerpunkte in dieser Institution eher einen Peripheriebereich vertritt, wird bei einer anderen Institution intensiv erschlossen oder unter einem ganz anderen Gesichtspunkt. Datenbanken wie bei der ZPID haben ein eingeübtes Team von Indexierern und eine durchgehende Endredaktion. Trotzdem sind Indexierer-Schulungen und Gegenprüfungen nötig. Bei der FIS-Bildung-Datenbank werden erst im Jahre 1995 Klassifikationsmerkmale für jedes aufgenommene Dokument nachgewiesen. Die Klassifikation muß jedoch den fachlichen Strukturen entsprechen und mehrere Grade der Differenzierung des Themas ermöglichen.

Von einem semantischen Thesaurus war positiv die Rede. Eine Abgleichung von Synonymen muß auf jeden Fall möglich sein. Jeder Endnutzer bringt seinen eigenen Wortschatz mit und denkt in dieser Terminologie. Daher ist eine Synonymverwaltung enorm wichtig, und ein System soll automatisch Synonyme und Relationen unter den Begriffen erkennen können. Automatische Indexierung oder vom System unterstützte Indexierung soll mit minimalen Zugriffsverlusten möglich sein. Vom Autor definierte sinntragende Wörter im Titel können automatisch erfaßt werden. Formale Aspekte (Autorennamen etc.) können ebenso in der Datenbank auf weiteres Vorkommen geprüft werden, auch im Zusammenhang mit einem bisher verwendeten Schlagwort. Bestimmte Bias sollen möglichst ausgemerzt werden: Der Computer macht den Fehler immer gleich: somit können systematische Fehler in die Datenbank eingebaut werden, die immer schwieriger aufzufinden sind. Gerade bei einer automatischen Indexierung ist deshalb Vorsicht geboten, und die Regel heißt, nichts ohne Prüfung übernehmen. Vor allem gehen mit einer "Übernahme" vorher vergebener Begriffe oft die neuen Begriffe unter.

Mit dem Zuwachs an elektronischen Texten kommt der Volltextrecherche eine neue Bedeutung zu. Trotzdem wird nach wie vor eine Indexierung bzw. inhaltliche Erschließung gebraucht. Im Hinblick auf die neuen elektronischen Medien und Möglichkeiten wurde auch darauf hingewiesen, daß bei der Migration gespeicherter Texte und Informationsquellen auf den neuen technologischen Stand auch Probleme in der späteren Nutzung auftreten. Technische Standards müssen eingehalten werden, sonst kann man eine alte Datenbank, CD-ROM, andere archivierte Quellen etc. nicht mehr lesen. Diesen Archivierungsaufgaben ist in den Einrichtungen entsprechende Bedeutung beizumessen.

Es wurde mehrfach darauf orientiert, bei allen Datenbankfragen die Benutzer zu berücksichtigen und die Schulen und Studenten dabei einzubeziehen. Lösungen für die Qualitätssicherung - sowohl auf der Ebene der Benutzeroberfläche als auch auf der Datenbankstruktur und -inhalte - müssen bezahlbar sein. Zum Schluß der Diskussion gab es bei den Teilnehmern des Workshops weitgehende Einigung darüber, daß vor allem die Aspekte der inhaltlichen Erschließung und Thesaurusfragen in weiteren Gesprächen im Rahmen der GIB-Veranstaltungen fortgeführt werden sollten..

Anschrift der Verfasserin:

Dr. Diann Rusch-Feja
Max-Planck-Institut für Bildungsforschung
Lentzeallee 94
D-14195 Berlin
Tel. +49-30-829 95-230
FAX +49-30-824 99 39
email: ruschfeja@mpib-berlin.mpg.d400.de