Doris Bambey
Die Literaturdokumentation Bildung auf CD-ROM in der ersten Fassung von 1994 bietet den Zugriff auf rund 200 000 Dokumente aus den Jahren 1980 bis 1992. Für das jährlich geplante Update werden jeweils etwa 30 000-35 000 zusätzliche Literaturnachweise zu erwarten sein. Die der CD-ROM zugrundeliegende Datenbasis setzt sich zusammen aus Zulieferungen von 12 Instituten (in Zukunft noch mehr). Diese Institute, die teilweise schon 15 bis 20 Jahre ihre speziellen Teilbereiche des Themenfeldes Bildung dokumentieren, repräsentieren ein breites Spektrum an Erfassungs- und Verschlagwortungspraxen.
Dies bedingt, daß die gelieferten Datenformate von äußerst heterogener Struktur sind: Bei einer größeren Gruppe der Zulieferer wird die Datenerfassung nach den Regeln des ehemaligen DOPAED (Dokumentationsring Pädagogik) vorgenommen, oftmals sind diese Regeln jedoch im Laufe der Jahre nach den eigenen Bedürfnissen und technischen Möglichkeiten modifiziert worden. Institute aus dem bibliothekarischen Bereich orientieren sich wiederum an Regeln, die auf den Austausch innerhalb von Verbundsystemen abgestimmt sind (z. B. MAB). Einzelne Institute schließlich erfassen ihre Daten weitgehend den gewachsenen internen Anforderungen entsprechend.
Dieselbe Ausgangsproblematik betrifft auch die Verschlagwortungspraxis. Neben dem (zum Teil veralteten) Thesaurus Pädagogik werden verschiedene Subthesauri verwandt, es wird zudem auch nach der Schlagwortnormdatei vorgegangen oder auf der Grundlage von - mehr oder weniger kontrollierten - eigenen Schlagwortlisten indexiert. Ein Teil der Institute bevorzugt die Verschlagwortung mittels zerlegter Begriffe (postkoordiniertes Vokabular), andere wiederum indexieren bevorzugt mit Mehrwortgruppen und Komposita (präkoordiniertes Vokabular) oder bilden Schlagwortketten.
Die Frage ist, mit welchen Werkzeugen und in welchen Arbeitsschritten man aus dieser disparaten Datenbasis einen Bestand entwickeln kann, der den Anforderungen einer elektronischen Publikation - hier CD-ROM - genügt.
Vier Bearbeitungschritte sind hierbei von besonderer Relevanz:
1. Konvertierung der zugelieferten Ausgangsformate in ein einheitliches Arbeitsformat,
2. Vereinheitlichung der Feldinhalte, speziell bei den recherche- und prüfrelevanten Feldern,
3. effektive und qualitativ orientierte Dublettenkontrolle,
4. Normierung und Kontrolle der
Verschlagwortung.
Zusammengesetzte Felder sind nach Möglichkeit zu vermeiden; denn eine analytische Struktur der Daten ermöglicht:
- die zielgenaue Korrektur der Feldwerte aufgrund von präzisen, nach Typen getrennten Indexlisten. Hierdurch steigert sich die Transparenz der Datenbank,
- die Sortierung der Datensätze nach jedem gewünschten Kriterium,
- flexible Generierung von Such- und Ausgabemasken mit den Feldern, die gerade gewünscht werden,
- flexible Ausgangsbasis für
weitere Datenaustauschprozesse.
Obligatorische Felder sollten auch de facto belegt sein, um die Recherche kalkulierbarer zu machen und einen Mindeststandard an Vollständigkeit der Informationen pro Datensatz zu gewährleisten. (Z. B. Sprachangaben, Literaturtyp). Vorrangig verwendete Such- und Prüffelder müssen von der Ansetzung und der Rechtschreibung her in möglichst einwandfreiem Zustand sein. Nur so ist eine effektive Dublettenkontrolle zu erzielen.
Auch die Recherchierenden freuen sich später, wenn sie ihren Autor nicht mühselig einmal unter "Kleist, Heinrich von" (RAK) und zudem unter "Von Kleist, Heinrich" (Nicht RAK) suchen müssen.
Schwierigkeiten bei der Konvertierung von zugelieferten Daten treten zunehmend dann auf, wenn die Datenstruktur synthetisch aufgebaut ist, d. h. Informationselemente unterschiedlichen Typs - schlimmstenfalls ohne eindeutige Trenner - in einem Feld untergebracht sind. Ist die Datenstruktur dahingegen analytisch aufgebaut, also jedes Informationselement eines Typs seperat in einem Feld abgelegt, vereinfacht dies die Konvertierung grundlegend.
Als Beispiel für ein z. T. synthetisches Format mit verschiedenen Schwierigkeitsgraden kann das DOPAED-Format dienen: Das Feld "Erscheinungsvermerk" ist zusammengesetzt aus mehreren unterschiedlichen Informationen, die jedoch eindeutige Trenner aufweisen: Erscheinungsvermerk: Ort: Verlag (Jahr), Seiten. Hier muß bei der Konvertierung lediglich die Möglichkeit berücksichtigt werden, daß ein oder mehrere Informationsteile fehlen. Das Titelfeld bringt gravierendere Probleme mit sich: /Hauptsachtitel/. Zusatz zum Hauptsachtitel. Auflage.
Der Zusatz zum Hauptsachtitel und die Auflagebezeichnung sind lediglich durch einen Punkt getrennt. Punkte können aber schon Bestandteil des Hauptsachtitels sein, z. B.: "... und Anton" oder "Das Wirken Dr. Schweizers". In diesem Fall ist eine korrekte Zerlegung der zu identifizierenden Informationselemente nicht gewährleistet.
Die präzise und sichere
Idendifikation der Auflagebezeichnung z. B. ist jedoch von
entscheidender Bedeutung für die Dublettenprüfung. Wird bei der
Prüfung die Auflagezeichnug nicht in den Prüfschlüssel
übernommen, werden die betreffenden Dokumente irrtümlich als
Dubletten qualifiziert.
Drei Programme spielen bei diesen Konvertierungs- und Normierungsarbeiten eine wesentliche Rolle:
- das Konvertierungsprogramm Infotrans,
- das Textverarbeitungssystem Wordperfect, speziell der Arbeitsbereich Macros,
- das Information-Retrievalsystem
LARS.
Infotrans arbeitet auf PC-Basis und funktioniert auf einem relativ abstrakten Niveau mittels Variablen. D. h., es müssen nicht wie bei den Makros der Textverarbeitungssysteme konkrete Einzelnennung des Umzusetzenden angegeben werden (setze a um in A, setze b um in B), sondern es sind vielmehr Klassen von Umsetzungen definierbar (setze alle Kleinbuchstaben um in Großbuchstaben oder markiere alle Ziffern in den ersten drei Wörtern des Hauptsachtitels). Diese Leistung ist die Voraussetzung, um komplexe Konvertierungsfälle überhaupt zu bewältigen.
Infotrans arbeitet sowohl auf Feldebene als auch global auf Dateiebene. Die Suche-und-Ersetze-Befehle werden in Umsetzungstabellen abgelegt. Das Programm ist von seinen Anforderungen her auf die geübteren Datenbankbearbeiter zugeschnitten, die jedoch keine eigenen programmiertechnischen Vorkenntnisse besitzen müssen.
LARS (hier für DOS) ermöglicht
die Korrektur von Feldinhalten über Indices, d. h., die
Suche-Ersetze-Befehle, die innerhalb des Menüs "Index"
definiert werden, werden automatisch - und somit schnell und
einheitlich - in den betreffenden Dokumenten ausgeführt. Bei
Feldern, die nicht als Indexfelder definiert oder deren
Änderungen zu komplex sind, besteht die Möglichkeit, mit dem
sog. "Änderungsdienst" Teile der Dokumente auszugeben
(z. B. nur Primärschlüssel und Titel), außerhalb von LARS
dann mittels Infotrans oder Textverarbeitung zu korrigieren und
anschließend wieder an die korrekte Stelle des Ausgangsdokuments
zurückzuspielen.
Die vorhergehenden Arbeiten an den
Datenbeständen sind die Voraussetzung für eine möglichst
effektive Dublettenprüfung. D. h., wenn der aus bestimmten
Feldinhalten oder Teilen von Feldinhalten (z. B. Nachname
des Autors, drei erste Wörter des Titels, Jahrgang)
zusammengesetzte Prüfschlüssel korrekt funktionieren soll,
müssen auch die verwendeten Feldwerte korrekt und einheitlich
vorliegen. Nicht nur der quantitative Aspekt (möglichst alle
Dubletten finden) sollte bei der Prüfroutine eine Rolle spielen,
sondern auch qualitative, die Datengüte steigernde Momente. Das
Problem besteht darin, daß bei herkömmlichen Prüfverfahren
wertvolle Informationen durch die generelle Eliminierung der
Dubletten ungenutzt bleiben. Bei einer erfahrungsgemäß bis zu
30 % betragenden Dublettenrate wird der Verlust von Informationen
durch ein mechanisches "ja-nein-Verfahren" gravierend.
Bedingung für das auf diese Problemstellung abgestimmte Dubletten-Prüfprogramm (auf Clipper-Basis) ist, daß es nicht nur auf der Grundlage der "ja-nein-Entscheidung" arbeitet, sondern auch die Übernahme von Teilen abgelehnter Dokumente in das ausgewählte Dokument ermöglicht.
DOKUMENT 1
- Bibliographische Angaben: korrekt und vollständig,
- Standortangabe für Fernleihe: enthalten,
- Beschlagwortung: sehr grob und lediglich für Bibliothekskatalog,
- Abstract: nicht vorhanden.
DOKUMENT 2
- bibliographische Angaben: weisen Fehler auf,
- Beschlagwortung: sehr umfangreich und präzise,
- Abstract: enthalten.
DOKUMENT 3
- bibliographische Angaben: weisen Fehler auf,
- Beschlagwortung: grob,
- Abstract: nicht enthalten,
- Notation der
DOPAED-Fachsystematik: enthalten.
Das Dokument, das in die Datenbank übernommen wird, enthält letztendlich die Vorzüge aller abgelehnten Dokumente:
ZIELDOKUMENT
- Korrekte bibliographische Angaben inkl. Standortangabe für die Fernleihe,
- ausführliche, fachgerechte Verschlagwortung,
- Abstract,
- Systematikstelle zur Erstellung
der Bibliographie Pädagogik.
Das Verfahren des "composed
documents" dauert länger, da es nicht als Routineablauf
automatisch durchführbar ist; es bedarf vielmehr des
intellektuellen Abgleichs der Dokumente. Dafür erreicht man eine
Veredelung des Dokuments mit vergleichsweise einfachen Mitteln.
Die urheberrechtliche Problematik schließt sich hier natürlich
als Problempunkt an - sie will ich hier nicht näher erläutern.
Außerdem sollte man sehr vorsichtig sein mit dem Mixen
verschiedener Indexate, also dem Addieren von Schlagwörtern
verschiedener Institute, da die Gefahr besteht, daß der
Informationsgehalt beliebig wird und die Stimmigkeit in sich
verloren geht. Das Zusammenführen von Indexaten wird von uns
bisher nur ansatzweise und gezielt durchgeführt, hierzu besteht
noch großer Diskussionsbedarf.
Aufgrund der Verwendung verschiedenster Subthesauri und Schlagwort- bzw. Stichwortlisten hätte man ohne Normierung des Zulieferervokabulars mit einem Schlagwortaufkommen von über 100.000 bis 130.000 Einzeltermen rechnen müssen. Die Erarbeitung eines aktuellen "Thesaurus Bildung" als bindende Indexierungs-und Recherchegrundlage wird weder als pragmatisch eingestuft noch als den gewachsenen und spezifischen Anforderungen der Einzelinstitute adäquat.
Die pragmatische Lösung geht in die Richtung, das vorhandene Vokabular derart zu bearbeiten, daß folgende Probleme berücksichtigt sind:
- Normierung von Schreibvarianten (Naturwissenschaft--> Naturwissenschaften),
- Homonym- bzw. Polysemkontrolle (Bewegung--> (Bewegung (Pol), Bewegung (motorische), Bewegung (Phys)),
- Synonymkontrolle (Andragogik <--> Erwachsenenbildung),
- Zerlegung von zu komplexen
Wortgruppen oder Komposita, (Berufsschulreligionslehrer -->
Berufsschule, Religionslehrer).
Eine wesentliche Bedingung besteht
darin, daß die Synonyme als gleichrangige definiert sind,
d. h., bei der Arbeit mit der CD-ROM soll es für die
Recherchierenden egal sein, ob sie mit dem Schlagwort
"Andragogik" oder mit dem Schlagwort
"Erwachsenenbildung" suchen. Die Retrieval-Software
CD-Answer garantiert in jedem Fall, durch Zusammenführung der
Synonyme im Hintergrund, daß im Ergebnis alle Dokumente
aufgeführt sind, die sowohl das eine als auch das andere
Schlagwort enthalten. Die Strukturierung der Suchpfade bewirkt
somit eine Erhöhung der Zugangsmöglichkeiten, beläßt das
Vokabular in seiner fachlich gebotenen Spezifik und garantiert
gleichzeitig - durch die Synonymzusammenführung - eine
kontrollierte Recherche.
Drei Programme kommen hauptsächlich zum Einsatz:
- das Thesaurusverwaltungsprogramm Proterm,
- ein Schlagwortkonvertierungsprogramm von PROGRIS,
- ein Schlagwort-check-Programm
(Clipper-Basis).
Mittels eines Checkprogrammes, welches sowohl Schlagwortdubletten als auch neue Werte identifiziert und in gesonderte Dateien ablegt, werden die jeweils noch nicht in Proterm enthaltenen Schlagwörter ermittelt und zu Importlisten zusammengestellt. Jedes Schlagwort in Proterm wird mittels Notation einer Systematikstelle der DOPAED-Fachsystematik zugeordnet. Die Notation ermöglichen die Zusammenstellung der Schlagwörter nach Fachgruppen, innerhalb derer sowohl Synonyme als auch nicht zugelassene Schreibvarianten ermittelt werden.
Diese Struktur wird in ein Schlagwortkonvertierungsprogramm übertragen. Es ist in der Lage:
- innerhalb des Dokumentes auf das Deskriptorenfeld zuzugreifen,
- die Schlagworte umgesetzt in ein Zielfeld zu schreiben,
- nicht identifizierbare Schlagwörter in ein Kontrollfeld zu übertragen,
- eine
Schlagwortdublettenkontrolle durchzuführen (wichtig bei
Schlagwortketten z. B. Bildung:Recht,
Bildung:Internationaler Vergleich).
Die Schlagwörter, die sich im
Kontrollfeld befinden, sind überwiegend Terme, die in einfachere
Eineiten zerlegt werden müssen oder als Homonyme zu definieren
sind, letzteres kann (leider) nur manuell unter Sichtung der
jeweiligen Dokumente vorgenommen werden. Übrig bleiben auf der
CD-ROM letztendlich noch ca. 25 000 Schlagwörter, wovon
ungefähr 10% in Synonymrelationen eingebunden sind.
Anschrift der Verfasserin:
Doris Bambey
Modellversuch FIS Bildung
Berliner Str. 31-35
65750 Eschborn
Tel.: (06196) 48 41-45; Fax: -61