Version 23 (modified by stiemert, 8 months ago) (diff)

--

Datenbereinigung (Stand: 11.04.2017)

 Etherpad zur Datenbereinigung
 Etherpad To-do-Übersicht

Bereinigen von importierten HB 1-Daten

Trotz größter Sorgfalt beim Mapping und der Vorbereitung der Daten auf den Import nach HB 2 lassen sich Übergangsprobleme nicht vermeiden. Die Umsetzung einiger Feldinhalte in das neue Format funktionierte nicht immer hundertprozentig. Daher sind manuelle Datenbereinigungen an den Datensätzen mit dem Status "imported" erforderlich. Falls möglich, erhalten wir Listen der betroffenen Datensätze. Teilweise müssen die Datensätze durch eine in eine URL eingebettete Anfrage ermittelt werden.

Eckig geklammerte Erscheinungsjahre

  • In HB 1 kennzeichneten wir Publikationen, die sich in Vorbereitung befanden oder nur in einer Vorabversion im Web zugänglich waren, durch eckige Klammern um das Erscheinungsjahr.
  • Für HB 2 haben wir die datentechnisch saubere Lösung gewählt, jeder Publikation einen entsprechenden Publikationsstatus zuzuweisen. Der Publikationsstatus wird über ein Drop-Down-Menü in der Registerkarte "Basisdaten" eingestellt.
  • Die eckigen Klammern wurden natürlich beim Datenimport in die HB 2 übernommen.
  • Sobald man einen solchen Datensatz bearbeitet und abzuspeichern versucht, obwohl das Unterfeld "Datum" noch die eckigen Klammern enthält, erscheint über dem Datumsfeld die Fehlermeldung "Ungültige Eingabe".
  • Erforderliche Arbeitsschritte:
    • Eckige Klammern entfernen
    • Prüfen, ob die Arbeit inzwischen publiziert wurde
    • Korrekten Publikationsstatus zuweisen (eingereicht, angenommen, veröffentlicht, unveröffentlicht)
    • In der Registerkarte "Administrative Daten" den korrekten Redaktionsstatus einstellen
    • Abschicken

Fehlerhafte ISBN

Wenn HB1-Datensätze eine ungültige ISBN enthielten, konnten sie zwar importiert werden. Wenn man sie nun bearbeiten will, schlägt allerdings die Plausibilitätskontrolle der HB2 zu. Also nicht über die Fehlermeldung 'ISBN': [[l'Keine gültige ISBN!']] wundern, sondern alle vorhandenen ISBN prüfen.

Publikationen von RUB-Wissenschaftlern können nicht herausgefiltert werden, weil Kennzeichnungen fehlen

Bei einer signifikanten Anzahl von Publikationsdatensätzen fehlt bei RUB-Wissenschaftlern in der Registerkarte "Person" entweder die GND-ID und/oder der Haken "RUB member" wurde nicht automatisch gesetzt.

So ermittelt man betroffene Datensätze:

  • Erforderliche Arbeitsschritte:
    • Nur Titel mit Status "imported" bearbeiten
    • Liste der beteiligten Verfasser durchsehen. Aufgrund der bei der Redaktionsarbeit erworbenen Personenkenntnis entdeckt man dort gelegentlich weitere nicht gekennzeichnete RUB-Wissenschaftler.
    • In der Registerkarte "Person" fehlende GND-ID / Haken "RUB member" ergänzen. Dabei auch prüfen, ob eine bereits eingetragene GND-ID auch korrekt ist, d.h. zum aktuellen, personalisierten GND-Datensatz führt.
    • In der Registerkarte "Administrative Daten" den Redaktionsstatus auf "Redaktion abgeschlossen" umstellen.
    • Abschicken
    • Anschließend wird erneut die umfassende Titelbeschreibung angezeigt. Prüfen, ob alle Änderungen vollzogen und gespeichert wurden.

Vorträge

  • Beim finalen Datenimport sind die vorhandenen Vorträge automatisch mit dem Defaultwert "veröffentlicht" versehen worden.
  • EDs ist noch nicht geklärt, ob wir generell händisch korrigieren müssen, oder ob Hans-Georg Becker die Statusbezeichnung bei dieser Publikationsform komplett entfernen kann.
  • In der Übergangszeit gilt: Wer zufällig einen importierten Vortrag-Datensatz auf den Schirm bekommt, korrigiert den bitte Status händisch. Wer einen Vortrag neu anlegt, achtet darauf, dass die Statuseinstellung auf unveröffentlicht gesetzt ist.

Dubletten - Tripletten - Maxipletten

Zusammenführung bei Publikationstypen, die Unterordnungen haben können

  • Zuerst bestimmt man einen Gewinnerdatensatz. Verbindliche Spielregel: Der Erste, der Dubletten findet, definiert den Gewinner. Alle anderen halten sich daran!
  • Innerhalb des Gewinnerdatensatzes: In der Registerkarte "Administrative Daten" im multiplen Feld "Same as" die GUID(s) der Dublette/der "Maxipletten" eingetragen.
  • Es wird später nächtliche Jobs geben, die sich diese "Bündel" ansehen und in den Daten aufräumen, also die Löschungen der Verlierer durchführen.
  • Gewinner-Datensätze erkennt man an dem Icon "Büroklammer". In den Trefferlisten steht es direkt hinter dem Titellink, in der Vollanzeige vor dem Hauptsachtitel.

Ab sofort kann daher mit dem Ausmerzen von Dubletten bei Überordnungen begonnen werden. Es ist allerdings nicht möglich, eine vollständige Übersicht aller Dubletten bzw. Verdachtsfälle auf Dublette zu erzeugen. Wenn bei der laufenden Redaktionsarbeit eine Dublette/Maxiplette auffällt, bereinigen wir sie.

Dublettenbeseitigung auf der untersten hierarchischen Ebene (Aufsätze)

  1. Zuerst bestimmt man den Gewinnerdatensatz.
  2. Innerhalb des Gewinnerdatensatzes: In der Registerkarte "Administrative Daten" im multiplen Feld "Same as" die GUID(s) der Dublette/der "Maxipletten" eingetragen.
  3. Bei allen Verliererdatensätzen: In der Registerkarte "Administrative Daten" den Redaktionsstatus auf "Gelöscht" setzen.
  4. Die Superuser löschen die Verliererdatensätze zeitnah.

Allgemeiner Workflow Dublette/Maxiplette?

  • Entscheiden, welcher der Gewinnerdatensatz werden soll. Entscheidungskriterien: Welcher Datensatz ist qualitativ am besten? An welchem hängen die meisten Unterordnungen dran?
    • Bei Bedarf den Gewinnerdatensatz noch ergänzen oder korrigieren.
    • "Same as"-Feld des Gewinnerdatensatzes ausfüllen.
    • Wichtig: Alle "Catalog"-Zugehörigkeiten erhalten!
      • Datensätze, die zusammengeführt werden müssen, stammen oft aus verschiedenen "Catalogs".
      • Die Analyse der "Catalog"-Herkunft und gegebenenfalls die automatische Überführung der zweiten Herkunftsmarkierung in den Siegerdatensatz können nicht automatisch erledigt werden. Das wäre zu aufwändig.
      • Bei allen betroffenen Datensätzen in der Registerkarte "Administrative Daten" nachsehen, aus welchem "Catalog" der Datensatz stammt.
      • Bei unterschiedlicher Herkunft beim Siegerdatensatz zusätzlich den "Catalog" des Verlierers markieren.
    • Wichtig: Alle Zugehörigkeiten zu Organisationen und Arbeitsgruppen erhalten!
      • Datensätze, die zusammengeführt werden müssen, können unterschiedliche Belegung der Felder "Kontext der Zugehörigkeit" und "Kontext der Arbeitsgruppe" aufweisen.
      • Gegebenenfalls entsprechende IDs aus dem Verlierer- in den Gewinnerdatensatz übertragen.
      • Der Gewinnerdatensatz muss alle Zugehörigkeiten zu Organisationen und Arbeitsgruppen enthalten.

ORCID-Probleme

Fehlbelegung des Felds "E-Mail (IDM)"

Wenn innerhalb des Personendatensatzes im Feld "E-Mail (IDM)" eine hier unzulässige Adresse steht, funktioniert die Verknüpfung HB-ORCID über die Schnittstelle nicht. Infos zu zulässigen Adressen hier. Wenn eine solche Fehlbelegung auffällt, soll umgehend eine Bereinigung des Datensatzes vorgenommen werden.

E-Mail-Felder korrigieren

  • Zu beanstandende E-Mail-Adresse in das Feld "E-Mail (Kontakt)" verschieben.
  • Wenn möglich, korrekte persönliche E-Mail-Adresse mit Domain @ruhr-uni-bochum.de ermitteln und in das Feld "E-Mail (IDM)" schreiben.

ORCID-Daten prüfen/ergänzen

  • Website "orcid.org" aufrufen und Wissenschaftler suchen
    • Option 1: über den unauffälligen grauen Suchschlitz am Kopf der Seite (Achtung: Suche in "The ORCID Registry" - sollte voreingestellt sein)
    • "Advanced Search" (Zahnrad auf dem grauen Menübalken anklicken)
  • Daten der gesuchten Person aufrufen, indem man in der Tabelle Search results die ORCIDiD anklickt.
  • Wenn das ORCID-Mitglied diese Informationen sichtbar gemacht hat, befindet sich auf der Mitglieds-Übersichtsseite ein Kasten mit der Überschrift "Employment".
  • Jetzt wird es kompliziert: Wir ergänzen die ORCIDiD nur dann zum HB-Personendatensatz, wenn der Kasten "Employment" folgende Bedingungen erfüllt:
    • "Ruhr-Universität Bochum: Bochum, Nordrhein-Westfalen, Germany"
    • "Source: Research Bibliography - Ruhr-Universität Bochum"
    • "Created": Datum ab 2016-11-01
  • Wenn diese Bedingungen erfüllt sind: Aus dem grünen Infokasten links ORCIDiD kopieren (nur die vier Zifferngruppen!!).
  • Personendatensatz des Wissenschaftlers öffnen und ID innerhalb der Registerkarte "IDs" in das Feld "ORCID" schreiben. Abspeichern!

ORCIDiD vorhanden, aber Source ungleich Research Bibliography

Im Ticket #4509 werden die Namen von RUB-Wissenschaftlern gesammelt, die eine ORCIDiD besitzen, sich aber noch nicht via HB verknüpft haben. Ticket-Owner ist Veronika. Sie wird die Personen sukzessive kontaktieren und sie bitten, die Verknüpfung nachzuholen.

Überordnungen

  • Immer dann, wenn ein Aufsatz mit einer bestehenden Überordnung (Zeitschrift oder Sammelwerk) verknüpft werden soll, verbindet man das mit einem Qualitätscheck der Überordnung.
  • Allererste Frage: Gibt es eine Dublette oder gar Multipletten der Überordnung? Dann Datenbereinigung, wie im vorangehenden Abschnitt beschrieben.
  • Prüfung Zeitschrift:
    • Titelansetzung korrekt?
    • ZDB-ID vorhanden?
  • Prüfung Sammelwerk:
    • Einmal kurz durch alle Registerkarten durchgehen
    • Richtiger Publikationstyp gewählt?
    • Personennamen und Körperschaften richtig angesetzt?
    • Überflüssige Links?
    • Link zu Online-Version vergessen?