Version 9 (modified by stiemert, 2 months ago) (diff)

--

Daten bereinigen (Stand: 12.06.2017)

Bereinigen von importierten HB 1-Daten

Trotz größter Sorgfalt beim Mapping und der Vorbereitung der Daten auf den Import nach HB 2 lässt es sich nicht vermeiden, dass die Umsetzung einiger Feldinhalte in das neue Format nicht immer ein befriedigendes Ergebnis bringt. Daher sind manuelle Datenbereinigungen an den Datensätzen mit dem Status "imported" erforderlich. Falls möglich, erhalten wir Listen der betroffenen Datensätze. Teilweise müssen die Datensätze durch eine in eine URL eingebettete Anfrage ermittelt werden.

Eckig geklammerte Erscheinungsjahre

  • In HB 1 kennzeichneten wir Publikationen, die sich in Vorbereitung befanden oder nur in einer Vorabversion im Web zugänglich waren, durch eckige Klammern um das Erscheinungsjahr.
  • Für HB 2 haben wir die datentechnisch saubere Lösung gewählt, der Publikation als Gesamtheit einen Publikationsstatus zuzuweisen.
  • Die eckigen Klammern wurden natürlich beim Datenimport in die HB 2 übernommen.
  • Sobald man einen solchen Datensatz bearbeitet und abzuspeichern versucht, obwohl das Unterfeld "Datum" noch die eckigen Klammern enthält, erscheint über dem Datumsfeld die Fehlermeldung "Ungültige Eingabe".
  • Erforderliche Arbeitsschritte:
    • Eckige Klammern entfernen
    • Prüfen, ob die Arbeit inzwischen publiziert wurde
    • Korrekten Publikationsstatus zuweisen (veröffentlicht, unveröffentlicht, im Erscheinen, eingereicht, angenommen, erteilt)
    • In der Registerkarte "Administrative Daten" den korrekten Redaktionsstatus einstellen.
    • Abspeichern

Fehlerhafte ISBN ==

HB-1-Datensätze, die eine ungültige ISBN enthielten, konnten zwar importiert werden, aber wenn man sie nun bearbeiten will, schlägt die Plausibilitätskontrolle der HB 2 zu. Sobald man einen solchen Datensatz bearbeitet und abzuspeichern versucht, liefert das System die Fehlermeldung "Keine gültige ISBN".

  • Alle enthaltenen ISBN checken.
  • Vom Verlag vergebene ungültige ISBN entfernen.

Publikationen von RUB-Wissenschaftlern können nicht herausgefiltert werden, weil Kennzeichnungen fehlen

Bei einer signifikanten Anzahl von Publikationsdatensätzen fehlt bei RUB-Wissenschaftlern in der Registerkarte "Person" entweder die GND-ID und/oder der Haken "RUB-Wissenschaftler" wurde nicht gesetzt.

So ermittelt man betroffene Datensätze:

  • Die folgende eingebettete Abfrage in die Adressleiste des Browsers eingeben: https://hb2.ub.tu-dortmund.de/manage/dashboard?core=hb2&q=%2A%3A%2A&filter=pubtype:%22ArticleJournal%22&filter=catalog:%22Ruhr-Universit%C3%A4t%20Bochum%22&filter=rubi:false&filter=tudo:false
  • Mit dem Filter "Person" zu den fehlerhaften Publikationsdatensätzen eines RUB-Wissenschaftlers navigieren
  • Der Redaktionsstatus steht in der linken Tabellenspalte.
  • In der Tabellenspalte "Titel" den Kurztitel anklicken, um die umfassende Titelbeschreibung anzeigen zu lassen . Empfehlung: Rechtsklick --> in neuem Tab oder Fenster öffnen.
  • Wenn zu einem Verfasser die GND eingetragen ist, steht direkt hinter dem Namen GND. Wurde der Haken bei der Heimathochschule gesetzt, erscheint in derselben Zeile ganz rechts das betreffende Icon.

Erforderliche Arbeitsschritte:

  • Nur Titel mit Status "imported" bearbeiten
  • Liste der beteiligten Verfasser durchsehen. Aufgrund der bei der Redaktionsarbeit erworbenen Personenkenntnis entdeckt man dort gelegentlich weitere nicht gekennzeichnete RUB-Wissenschaftler.
  • In der Registerkarte "Person" fehlende GND-ID ergänzen. Dabei auch prüfen, ob eine bereits eingetragene GND-ID auch korrekt ist, d.h. zum aktuellen personalisierten GND-Datensatz führt.
  • In der Registerkarte "Administrative Daten" den Redaktionsstatus auf "Redaktion abgeschlossen" umstellen.
  • Abspeichern
  • Prüfen, ob alle Änderungen vollzogen und gespeichert wurden.

Vorträge

Beim finalen Datenimport sind die vorhandenen Vorträge automatisch mit dem Defaultwert "veröffentlicht" versehen worden. Es ist noch nicht geklärt, ob wir generell händisch korrigieren müssen, oder ob Hans-Georg Becker die Statusbezeichnung bei dieser Publikationsform komplett entfernen kann.

In der Übergangszeit gilt:

  • Wer zufällig einen importierten Vortrag-Datensatz auf den Schirm bekommt, korrigiert den bitte Status händisch.
  • Wer einen Vortrag neu anlegt, achtet darauf, dass die Statuseinstellung auf unveröffentlicht gesetzt ist.

Dubletten - Tripletten - Multipletten

Allgemeiner Workflow

  • Entscheiden, welcher der Gewinnerdatensatz werden soll. Entscheidungskriterien:
    • Welcher Datensatz ist qualitativ am besten?
    • An welchem hängen die meisten Unterordnungen?
  • Bei Bedarf den Gewinnerdatensatz ergänzen oder korrigieren.
  • Feld "Dasselbe wie" im Gewinnerdatensatz ausfüllen.
  • Alle "Datenkatalog"-Zugehörigkeiten erhalten!
    • Datensätze, die zusammengeführt werden müssen, stammen oft aus verschiedenen Datenkatalogen.
    • Die Analyse der Datenkatalog-Herkunft und gegebenenfalls die automatische Überführung der zweiten Herkunftsmarkierung in den Siegerdatensatz können nicht automatisch erledigt werden. Das wäre zu aufwändig.
    • Bei allen betroffenen Datensätzen in der Registerkarte "Administrative Daten" nachsehen, aus welchem Datenkatalog der Datensatz stammt.
    • Bei unterschiedlicher Herkunft beim Siegerdatensatz zusätzlich den Datenkatalog des Verlierers markieren.
  • Alle Zugehörigkeiten zu Organisationen und Arbeitsgruppen erhalten!
    • Datensätze, die zusammengeführt werden müssen, können unterschiedliche Belegung der Felder "Kontext der Zugehörigkeit" und "Kontext der Arbeitsgruppe" aufweisen.
    • Gegebenenfalls entsprechende IDs aus dem Verlierer- in den Gewinnerdatensatz übertragen.
    • Der Gewinnerdatensatz muss alle Zugehörigkeiten zu Organisationen und Arbeitsgruppen enthalten.

Zusammenführung bei Publikationstypen, die Unterordnungen haben können

  • Zuerst bestimmt man einen Gewinnerdatensatz. Verbindliche Spielregel: Der Erste, der Dubletten findet, definiert den Gewinner. Alle anderen halten sich daran!
  • Innerhalb des Gewinnerdatensatzes: In der Registerkarte "Administrative Daten" im multiplen Feld "Dasselbe wie" die GUID(s) der Dublette(n) eingetragen.
  • Es wird später nächtliche Jobs geben, die sich diese "Bündel" ansehen und in den Daten aufräumen, also die Löschungen der Verlierer durchführen.
  • Gewinner-Datensätze erkennt man an dem Icon "Büroklammer". In den Trefferlisten steht es direkt hinter dem Titellink, in der Vollanzeige vor dem Hauptsachtitel.

Es ist derzeit nicht möglich, eine vollständige Übersicht aller Dubletten bzw. Verdachtsfälle auf Dublette zu erzeugen. Wenn bei der laufenden Redaktionsarbeit eine Dublette/Multiplette auffällt, bereinigen wir sie.

Dublettenbeseitigung auf der untersten hierarchischen Ebene (Aufsätze)

  1. Zuerst bestimmt man den Gewinnerdatensatz.
  2. Innerhalb des Gewinnerdatensatzes: In der Registerkarte "Administrative Daten" im multiplen Feld "Dasselbe wie" die GUID(s) der Dublette(n) eintragen.
  3. Bei allen Verliererdatensätzen: In der Registerkarte "Administrative Daten" den Redaktionsstatus auf "Gelöscht" setzen.
  4. Die Superadmins löschen die Verliererdatensätze zeitnah.

Dubletten, die durch ORCID-Synchronisierung entstanden sind

  • Wenn beim automatischen Abgleich der Datensätze aus HB und ORCID Unterschiede bei IDs festgestellt werden, obwohl Verfasser und Titel ansonsten übereinstimmen, legt das System entsprechend Dubletten an. Die neu entstandenen Datensätze erhalten den Status "new" und sind darüber herauszufiltern. Im Feld "Notiz" steht bei diesen Datensätzen "added by ORCID synchronization".
  • Wir korrigieren und ergänzen den HB2-Datensatz.
  • Eine Gewinner-Verlierer-Kennzeichnung ist nicht erforderlich. Die dubletten Datensätze mit dem Vermerk "added by ORCID synchronization" können nach der Bearbeitung des HB2-Datensatzes einfach gelöscht werden. Beim nächsten Synchronisieren wird gegen ein Verzeichnis der bisher geholten ORCID-Record-IDs dedupliziert. Dadurch wird verhindert, dass wir uns die gelöschten Datensätze erneut einfangen.
  • Aus ORCID hinzufügter Titel ist tatsächlich neu: Normal bearbeiten (http://bibliographie-trac.ub.rub.de/wiki/PublikationsdatenErfassen#NeueTiteldiedurchdieORCID-Synchronisationangelegtwurden).

ORCID-Probleme

Fehlbelegung des Felds "E-Mail (IDM)"

Wenn innerhalb des Personendatensatzes im Feld "E-Mail (IDM)" eine unzulässige Adresse steht, funktioniert die Verknüpfung HB-ORCID über die Schnittstelle nicht (siehe Anleitung zum Anlegen von Personendatensätzen). Infos zu zulässigen Adressen in der Anleitung zum Anlegen von Personendatensätzen. Wenn eine solche Fehlbelegung auffällt, bitte umgehend den Datensatzes bereinigen.

  • Zu beanstandende E-Mail-Adresse in das Feld "E-Mail (Kontakt)" verschieben.
  • Wenn möglich, korrekte persönliche E-Mail-Adresse ermitteln und in das Feld "E-Mail (IDM)" schreiben.

ORCID-Daten prüfen/ergänzen

  • Website "orcid.org" aufrufen und Wissenschaftler suchen:
    • Option 1: über den unauffälligen grauen Suchschlitz am Kopf der Seite (Achtung: Suche in "The ORCID Registry" - sollte voreingestellt sein)
    • Option 2: "Advanced Search" (Zahnrad auf dem grauen Menübalken anklicken)
  • Daten der gesuchten Person aufrufen, indem man in der Tabelle Search results die ORCID iD anklickt.
  • Wenn das ORCID-Mitglied diese Informationen sichtbar gemacht hat, befindet sich auf der Mitglieds-Übersichtsseite ein Kasten mit der Überschrift "Employment".
  • Achtung! Wir ergänzen die ORCID iD nur dann zum HB-Personendatensatz, wenn der Kasten "Employment" folgende Eigenschaften aufweist:
    • "Ruhr-Universität Bochum: Bochum, Nordrhein-Westfalen, Germany"
    • "Source: Research Bibliography - Ruhr-Universität Bochum"
    • "Created": Datum ab 2016-11-01
  • Wenn diese Bedingungen erfüllt sind: Aus dem grünen Infokasten links die ORCID iD kopieren (nur die vier Zifferngruppen!).
  • Personendatensatz des Wissenschaftlers öffnen und ID innerhalb der Registerkarte "IDs" in das Feld "ORCID" schreiben. Abspeichern!

ORCID iD vorhanden, aber Source ungleich Research Bibliography

Im Ticket #4509 werden die Namen von RUB-Wissenschaftlern gesammelt, die eine ORCID iD besitzen, sich aber noch nicht via HB verknüpft haben. Ticket-Owner ist Veronika Josenhans. Sie wird die Personen sukzessive kontaktieren und sie bitten, die Verknüpfung nachzuholen.

Überordnungen

Immer dann, wenn ein Aufsatz mit einer bestehenden Überordnung (Zeitschrift oder Sammelwerk) verknüpft werden soll, verbindet man das mit einem Qualitätscheck der Überordnung. Allererste Frage: Gibt es eine Dublette oder gar Multipletten der Überordnung? Wenn ja: Nach Anleitung aufräumen.

Prüfung einer Zeitschriftenaufnahme:

  • Titelansetzung korrekt?
  • ZDB-ID(s) vorhanden?
  • Elektronische Version der Zeitschrift aufgenommen?

Prüfung der Aufnahme für ein Sammelwerk:

  • Einmal kurz durch alle Registerkarten durchgehen.
  • Richtiger Publikationstyp oder Untertyp gewählt?
  • Personennamen und Körperschaften richtig angesetzt?
  • Überflüssige Links?
  • Link zu Online-Version vergessen?