Changes between Version 22 and Version 23 of HB20DatenBereinigen


Ignore:
Timestamp:
11.04.2017 10:52:10 (8 months ago)
Author:
stiemert
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • HB20DatenBereinigen

    v22 v23  
    33[[TOC(heading=Datenbereinigung, depth=4)]] 
    44 
    5 = Datenbereinigung (Stand: 02.12.2016) = 
     5= Datenbereinigung (Stand: 11.04.2017) = 
    66 
    77[https://bibliographie.ub.rub.de/pad/p/bereinigungen Etherpad zur Datenbereinigung][[BR]] 
     
    6060== Dubletten - Tripletten - Maxipletten == 
    6161 
    62 Technisch ist die Zusammenführung von Dubletten folgendermaßen gelöst: 
    63 * Bei Publikationstypen, die Unterordnungen haben können, gibt es innerhalb der Registerkarte "Administrative Daten" ein multiples Feld namens "Same as". 
    64 * Wenn Dubletten zusammengelegt werden sollen, bestimmt man einen Gewinnerdatensatz. '''[[Color(none,red,Verbindliche Spielregel)]]: Der Erste, der Dubletten findet, definiert den Gewinner. Alle anderen halten sich daran! ''' 
    65 * Innerhalb des Gewinnerdatensatzes wird/werden im multiplen Feld "Same as" die GUID(s) der Dublette/der "Maxipletten" eingetragen. 
     62=== Zusammenführung bei Publikationstypen, die Unterordnungen haben können === 
     63 
     64* Zuerst bestimmt man einen Gewinnerdatensatz. '''[[Color(none,red,Verbindliche Spielregel)]]: Der Erste, der Dubletten findet, definiert den Gewinner. Alle anderen halten sich daran! ''' 
     65* Innerhalb des Gewinnerdatensatzes: In der Registerkarte "Administrative Daten" im multiplen Feld "Same as" die GUID(s) der Dublette/der "Maxipletten" eingetragen. 
    6666* Es wird später nächtliche Jobs geben, die sich diese "Bündel" ansehen und in den Daten aufräumen, also die Löschungen der Verlierer durchführen. 
    67 * Gewinner-Datensätze erkennt man ab sofort an dem Icon "Büroklammer". In den Trefferlisten steht es direkt hinter dem Titellink, in der Vollanzeige vor dem Hauptsachtitel. 
     67* Gewinner-Datensätze erkennt man an dem Icon "Büroklammer". In den Trefferlisten steht es direkt hinter dem Titellink, in der Vollanzeige vor dem Hauptsachtitel. 
    6868 
    69 Ab sofort kann daher mit dem Ausmerzen von Dubletten begonnen werden. Es ist allerdings nicht möglich, eine vollständige Übersicht aller Dubletten bzw. Verdachtsfälle auf Dublette zu erzeugen. Wenn bei der laufenden Redaktionsarbeit eine !Dublette/Maxiplette auffällt, bereinigen wir sie. 
     69Ab sofort kann daher mit dem Ausmerzen von Dubletten bei Überordnungen begonnen werden. Es ist allerdings nicht möglich, eine vollständige Übersicht aller Dubletten bzw. Verdachtsfälle auf Dublette zu erzeugen. Wenn bei der laufenden Redaktionsarbeit eine !Dublette/Maxiplette auffällt, bereinigen wir sie. 
    7070 
    71 '''[[Color(none,green,Workflow Dublette/Maxiplette:)]]''' 
     71=== Dublettenbeseitigung auf der untersten hierarchischen Ebene (Aufsätze) === 
     72 
     731. Zuerst bestimmt man den Gewinnerdatensatz. 
     742. Innerhalb des Gewinnerdatensatzes: In der Registerkarte "Administrative Daten" im multiplen Feld "Same as" die GUID(s) der Dublette/der "Maxipletten" eingetragen. 
     753. Bei allen Verliererdatensätzen: In der Registerkarte "Administrative Daten" den Redaktionsstatus auf "Gelöscht" setzen. 
     764. Die Superuser löschen die Verliererdatensätze zeitnah. 
     77 
     78=== Allgemeiner Workflow Dublette/Maxiplette === 
    7279 
    7380* Entscheiden, welcher der Gewinnerdatensatz werden soll. Entscheidungskriterien: Welcher Datensatz ist qualitativ am besten? An welchem hängen die meisten Unterordnungen dran? 
    7481  * Bei Bedarf den Gewinnerdatensatz noch ergänzen oder korrigieren. 
    7582  * "Same as"-Feld des Gewinnerdatensatzes ausfüllen. 
    76   * '''[[Color(none,red,Wichtig! Nicht vergessen!)]] ''' 
     83  * '''[[Color(none,red,Wichtig: Alle "Catalog"-Zugehörigkeiten erhalten!)]] ''' 
    7784    * Datensätze, die zusammengeführt werden müssen, stammen oft aus verschiedenen "Catalogs". 
    7885    * Die Analyse der "Catalog"-Herkunft und gegebenenfalls die automatische Überführung der zweiten Herkunftsmarkierung in den Siegerdatensatz können nicht automatisch erledigt werden. Das wäre zu aufwändig. 
    7986    * Bei '''allen''' betroffenen Datensätzen in der Registerkarte "Administrative Daten" nachsehen, aus welchem "Catalog" der Datensatz stammt. 
    8087    * Bei unterschiedlicher Herkunft beim Siegerdatensatz zusätzlich den "Catalog" des Verlierers markieren. 
    81 * Damit die Superuser den Überblick behalten, den Bereinigungsvorgang bitte im [https://bibliographie.ub.rub.de/pad/p/bereinigungen Etherpad zur Datenbereinigung] dokumentieren. Ganz oben im Pad steht die Rubrik "Von Redakteuren bereinigte !Dubletten/Maxipletten". Dort bitte Kurztitel, GUID Gewinner und GUID(s) Verlierer notieren. 
     88  * '''[[Color(none,red,Wichtig: Alle Zugehörigkeiten zu Organisationen und Arbeitsgruppen erhalten!)]] ''' 
     89    * Datensätze, die zusammengeführt werden müssen, können unterschiedliche Belegung der Felder "Kontext der Zugehörigkeit" und "Kontext der Arbeitsgruppe" aufweisen. 
     90    * Gegebenenfalls entsprechende IDs aus dem Verlierer- in den Gewinnerdatensatz übertragen. 
     91    * Der Gewinnerdatensatz muss '''alle''' Zugehörigkeiten zu Organisationen und Arbeitsgruppen enthalten. 
    8292 
    8393==   ==