Doris Bambey

Vorbereitung und Entwicklung
der CD-ROM Bildung

Probleme, Methoden und Instrumente

1 Die Ausgangslage

Die Literaturdokumentation Bildung auf CD-ROM in der ersten Fassung von 1994 bietet den Zugriff auf rund 200 000 Dokumente aus den Jahren 1980 bis 1992. Für das jährlich geplante Update werden jeweils etwa 30 000-35 000 zusätzliche Literaturnachweise zu erwarten sein. Die der CD-ROM zugrundeliegende Datenbasis setzt sich zusammen aus Zulieferungen von 12 Instituten (in Zukunft noch mehr). Diese Institute, die teilweise schon 15 bis 20 Jahre ihre speziellen Teilbereiche des Themenfeldes Bildung dokumentieren, repräsentieren ein breites Spektrum an Erfassungs- und Verschlagwortungspraxen.

Dies bedingt, daß die gelieferten Datenformate von äußerst heterogener Struktur sind: Bei einer größeren Gruppe der Zulieferer wird die Datenerfassung nach den Regeln des ehemaligen DOPAED (Dokumentationsring Pädagogik) vorgenommen, oftmals sind diese Regeln jedoch im Laufe der Jahre nach den eigenen Bedürfnissen und technischen Möglichkeiten modifiziert worden. Institute aus dem bibliothekarischen Bereich orientieren sich wiederum an Regeln, die auf den Austausch innerhalb von Verbundsystemen abgestimmt sind (z. B. MAB). Einzelne Institute schließlich erfassen ihre Daten weitgehend den gewachsenen internen Anforderungen entsprechend.

Dieselbe Ausgangsproblematik betrifft auch die Verschlagwortungspraxis. Neben dem (zum Teil veralteten) Thesaurus Pädagogik werden verschiedene Subthesauri verwandt, es wird zudem auch nach der Schlagwortnormdatei vorgegangen oder auf der Grundlage von - mehr oder weniger kontrollierten - eigenen Schlagwortlisten indexiert. Ein Teil der Institute bevorzugt die Verschlagwortung mittels zerlegter Begriffe (postkoordiniertes Vokabular), andere wiederum indexieren bevorzugt mit Mehrwortgruppen und Komposita (präkoordiniertes Vokabular) oder bilden Schlagwortketten.

Die Frage ist, mit welchen Werkzeugen und in welchen Arbeitsschritten man aus dieser disparaten Datenbasis einen Bestand entwickeln kann, der den Anforderungen einer elektronischen Publikation - hier CD-ROM - genügt.

Vier Bearbeitungschritte sind hierbei von besonderer Relevanz:

1. Konvertierung der zugelieferten Ausgangsformate in ein einheitliches Arbeitsformat,

2. Vereinheitlichung der Feldinhalte, speziell bei den recherche- und prüfrelevanten Feldern,

3. effektive und qualitativ orientierte Dublettenkontrolle,

4. Normierung und Kontrolle der Verschlagwortung.

2 Erstellung eines Arbeitsformates, Normierung von Feldinhalten

2.1 Kriterien für ein Arbeitsformat

Zusammengesetzte Felder sind nach Möglichkeit zu vermeiden; denn eine analytische Struktur der Daten ermöglicht:

- die zielgenaue Korrektur der Feldwerte aufgrund von präzisen, nach Typen getrennten Indexlisten. Hierdurch steigert sich die Transparenz der Datenbank,

- die Sortierung der Datensätze nach jedem gewünschten Kriterium,

- flexible Generierung von Such- und Ausgabemasken mit den Feldern, die gerade gewünscht werden,

- flexible Ausgangsbasis für weitere Datenaustauschprozesse.

Obligatorische Felder sollten auch de facto belegt sein, um die Recherche kalkulierbarer zu machen und einen Mindeststandard an Vollständigkeit der Informationen pro Datensatz zu gewährleisten. (Z. B. Sprachangaben, Literaturtyp). Vorrangig verwendete Such- und Prüffelder müssen von der Ansetzung und der Rechtschreibung her in möglichst einwandfreiem Zustand sein. Nur so ist eine effektive Dublettenkontrolle zu erzielen.

Auch die Recherchierenden freuen sich später, wenn sie ihren Autor nicht mühselig einmal unter "Kleist, Heinrich von" (RAK) und zudem unter "Von Kleist, Heinrich" (Nicht RAK) suchen müssen.

2.2. Probleme bei der Datenkonvertierung

Schwierigkeiten bei der Konvertierung von zugelieferten Daten treten zunehmend dann auf, wenn die Datenstruktur synthetisch aufgebaut ist, d. h. Informationselemente unterschiedlichen Typs - schlimmstenfalls ohne eindeutige Trenner - in einem Feld untergebracht sind. Ist die Datenstruktur dahingegen analytisch aufgebaut, also jedes Informationselement eines Typs seperat in einem Feld abgelegt, vereinfacht dies die Konvertierung grundlegend.

Als Beispiel für ein z. T. synthetisches Format mit verschiedenen Schwierigkeitsgraden kann das DOPAED-Format dienen: Das Feld "Erscheinungsvermerk" ist zusammengesetzt aus mehreren unterschiedlichen Informationen, die jedoch eindeutige Trenner aufweisen: Erscheinungsvermerk: Ort: Verlag (Jahr), Seiten. Hier muß bei der Konvertierung lediglich die Möglichkeit berücksichtigt werden, daß ein oder mehrere Informationsteile fehlen. Das Titelfeld bringt gravierendere Probleme mit sich: /Hauptsachtitel/. Zusatz zum Hauptsachtitel. Auflage.

Der Zusatz zum Hauptsachtitel und die Auflagebezeichnung sind lediglich durch einen Punkt getrennt. Punkte können aber schon Bestandteil des Hauptsachtitels sein, z. B.: "... und Anton" oder "Das Wirken Dr. Schweizers". In diesem Fall ist eine korrekte Zerlegung der zu identifizierenden Informationselemente nicht gewährleistet.

Die präzise und sichere Idendifikation der Auflagebezeichnung z. B. ist jedoch von entscheidender Bedeutung für die Dublettenprüfung. Wird bei der Prüfung die Auflagezeichnug nicht in den Prüfschlüssel übernommen, werden die betreffenden Dokumente irrtümlich als Dubletten qualifiziert.

2.3 Programme

Drei Programme spielen bei diesen Konvertierungs- und Normierungsarbeiten eine wesentliche Rolle:

- das Konvertierungsprogramm Infotrans,

- das Textverarbeitungssystem Wordperfect, speziell der Arbeitsbereich Macros,

- das Information-Retrievalsystem LARS.

Infotrans arbeitet auf PC-Basis und funktioniert auf einem relativ abstrakten Niveau mittels Variablen. D. h., es müssen nicht wie bei den Makros der Textverarbeitungssysteme konkrete Einzelnennung des Umzusetzenden angegeben werden (setze a um in A, setze b um in B), sondern es sind vielmehr Klassen von Umsetzungen definierbar (setze alle Kleinbuchstaben um in Großbuchstaben oder markiere alle Ziffern in den ersten drei Wörtern des Hauptsachtitels). Diese Leistung ist die Voraussetzung, um komplexe Konvertierungsfälle überhaupt zu bewältigen.

Infotrans arbeitet sowohl auf Feldebene als auch global auf Dateiebene. Die Suche-und-Ersetze-Befehle werden in Umsetzungstabellen abgelegt. Das Programm ist von seinen Anforderungen her auf die geübteren Datenbankbearbeiter zugeschnitten, die jedoch keine eigenen programmiertechnischen Vorkenntnisse besitzen müssen.

LARS (hier für DOS) ermöglicht die Korrektur von Feldinhalten über Indices, d. h., die Suche-Ersetze-Befehle, die innerhalb des Menüs "Index" definiert werden, werden automatisch - und somit schnell und einheitlich - in den betreffenden Dokumenten ausgeführt. Bei Feldern, die nicht als Indexfelder definiert oder deren Änderungen zu komplex sind, besteht die Möglichkeit, mit dem sog. "Änderungsdienst" Teile der Dokumente auszugeben (z. B. nur Primärschlüssel und Titel), außerhalb von LARS dann mittels Infotrans oder Textverarbeitung zu korrigieren und anschließend wieder an die korrekte Stelle des Ausgangsdokuments zurückzuspielen.

3 Effektive und qualitativ orientierte Dublettenprüfung

Die vorhergehenden Arbeiten an den Datenbeständen sind die Voraussetzung für eine möglichst effektive Dublettenprüfung. D. h., wenn der aus bestimmten Feldinhalten oder Teilen von Feldinhalten (z. B. Nachname des Autors, drei erste Wörter des Titels, Jahrgang) zusammengesetzte Prüfschlüssel korrekt funktionieren soll, müssen auch die verwendeten Feldwerte korrekt und einheitlich vorliegen. Nicht nur der quantitative Aspekt (möglichst alle Dubletten finden) sollte bei der Prüfroutine eine Rolle spielen, sondern auch qualitative, die Datengüte steigernde Momente. Das Problem besteht darin, daß bei herkömmlichen Prüfverfahren wertvolle Informationen durch die generelle Eliminierung der Dubletten ungenutzt bleiben. Bei einer erfahrungsgemäß bis zu 30 % betragenden Dublettenrate wird der Verlust von Informationen durch ein mechanisches "ja-nein-Verfahren" gravierend.

Programm

Bedingung für das auf diese Problemstellung abgestimmte Dubletten-Prüfprogramm (auf Clipper-Basis) ist, daß es nicht nur auf der Grundlage der "ja-nein-Entscheidung" arbeitet, sondern auch die Übernahme von Teilen abgelehnter Dokumente in das ausgewählte Dokument ermöglicht.

Beispiel:

DOKUMENT 1

- Bibliographische Angaben: korrekt und vollständig,

- Standortangabe für Fernleihe: enthalten,

- Beschlagwortung: sehr grob und lediglich für Bibliothekskatalog,

- Abstract: nicht vorhanden.

DOKUMENT 2

- bibliographische Angaben: weisen Fehler auf,

- Beschlagwortung: sehr umfangreich und präzise,

- Abstract: enthalten.

DOKUMENT 3

- bibliographische Angaben: weisen Fehler auf,

- Beschlagwortung: grob,

- Abstract: nicht enthalten,

- Notation der DOPAED-Fachsystematik: enthalten.

Das Dokument, das in die Datenbank übernommen wird, enthält letztendlich die Vorzüge aller abgelehnten Dokumente:

ZIELDOKUMENT

- Korrekte bibliographische Angaben inkl. Standortangabe für die Fernleihe,

- ausführliche, fachgerechte Verschlagwortung,

- Abstract,

- Systematikstelle zur Erstellung der Bibliographie Pädagogik.

Das Verfahren des "composed documents" dauert länger, da es nicht als Routineablauf automatisch durchführbar ist; es bedarf vielmehr des intellektuellen Abgleichs der Dokumente. Dafür erreicht man eine Veredelung des Dokuments mit vergleichsweise einfachen Mitteln. Die urheberrechtliche Problematik schließt sich hier natürlich als Problempunkt an - sie will ich hier nicht näher erläutern. Außerdem sollte man sehr vorsichtig sein mit dem Mixen verschiedener Indexate, also dem Addieren von Schlagwörtern verschiedener Institute, da die Gefahr besteht, daß der Informationsgehalt beliebig wird und die Stimmigkeit in sich verloren geht. Das Zusammenführen von Indexaten wird von uns bisher nur ansatzweise und gezielt durchgeführt, hierzu besteht noch großer Diskussionsbedarf.

4 Kontrolle und Normierung der Verschlagwortung

Aufgrund der Verwendung verschiedenster Subthesauri und Schlagwort- bzw. Stichwortlisten hätte man ohne Normierung des Zulieferervokabulars mit einem Schlagwortaufkommen von über 100.000 bis 130.000 Einzeltermen rechnen müssen. Die Erarbeitung eines aktuellen "Thesaurus Bildung" als bindende Indexierungs-und Recherchegrundlage wird weder als pragmatisch eingestuft noch als den gewachsenen und spezifischen Anforderungen der Einzelinstitute adäquat.

Die pragmatische Lösung geht in die Richtung, das vorhandene Vokabular derart zu bearbeiten, daß folgende Probleme berücksichtigt sind:

- Normierung von Schreibvarianten (Naturwissenschaft--> Naturwissenschaften),

- Homonym- bzw. Polysemkontrolle (Bewegung--> (Bewegung (Pol), Bewegung (motorische), Bewegung (Phys)),

- Synonymkontrolle (Andragogik <--> Erwachsenenbildung),

- Zerlegung von zu komplexen Wortgruppen oder Komposita, (Berufsschulreligionslehrer --> Berufsschule, Religionslehrer).

Eine wesentliche Bedingung besteht darin, daß die Synonyme als gleichrangige definiert sind, d. h., bei der Arbeit mit der CD-ROM soll es für die Recherchierenden egal sein, ob sie mit dem Schlagwort "Andragogik" oder mit dem Schlagwort "Erwachsenenbildung" suchen. Die Retrieval-Software CD-Answer garantiert in jedem Fall, durch Zusammenführung der Synonyme im Hintergrund, daß im Ergebnis alle Dokumente aufgeführt sind, die sowohl das eine als auch das andere Schlagwort enthalten. Die Strukturierung der Suchpfade bewirkt somit eine Erhöhung der Zugangsmöglichkeiten, beläßt das Vokabular in seiner fachlich gebotenen Spezifik und garantiert gleichzeitig - durch die Synonymzusammenführung - eine kontrollierte Recherche.

Programme

Drei Programme kommen hauptsächlich zum Einsatz:

- das Thesaurusverwaltungsprogramm Proterm,

- ein Schlagwortkonvertierungsprogramm von PROGRIS,

- ein Schlagwort-check-Programm (Clipper-Basis).

Mittels eines Checkprogrammes, welches sowohl Schlagwortdubletten als auch neue Werte identifiziert und in gesonderte Dateien ablegt, werden die jeweils noch nicht in Proterm enthaltenen Schlagwörter ermittelt und zu Importlisten zusammengestellt. Jedes Schlagwort in Proterm wird mittels Notation einer Systematikstelle der DOPAED-Fachsystematik zugeordnet. Die Notation ermöglichen die Zusammenstellung der Schlagwörter nach Fachgruppen, innerhalb derer sowohl Synonyme als auch nicht zugelassene Schreibvarianten ermittelt werden.

Diese Struktur wird in ein Schlagwortkonvertierungsprogramm übertragen. Es ist in der Lage:

- innerhalb des Dokumentes auf das Deskriptorenfeld zuzugreifen,

- die Schlagworte umgesetzt in ein Zielfeld zu schreiben,

- nicht identifizierbare Schlagwörter in ein Kontrollfeld zu übertragen,

- eine Schlagwortdublettenkontrolle durchzuführen (wichtig bei Schlagwortketten z. B. Bildung:Recht, Bildung:Internationaler Vergleich).

Die Schlagwörter, die sich im Kontrollfeld befinden, sind überwiegend Terme, die in einfachere Eineiten zerlegt werden müssen oder als Homonyme zu definieren sind, letzteres kann (leider) nur manuell unter Sichtung der jeweiligen Dokumente vorgenommen werden. Übrig bleiben auf der CD-ROM letztendlich noch ca. 25 000 Schlagwörter, wovon ungefähr 10% in Synonymrelationen eingebunden sind.

Anschrift der Verfasserin:

Doris Bambey
Modellversuch FIS Bildung
Berliner Str. 31-35
65750 Eschborn
Tel.: (06196) 48 41-45; Fax: -61