source: feeder.py @ 0:2f43cb89e87c

Revision 0:2f43cb89e87c, 5.8 KB checked in by andre.hagenbruch@rub.de, 9 years ago (diff)

Initial commit for version 0.2

Line 
1#!/usr/bin/env python
2# encoding: utf-8
3"""
4feeder.py
5
6Created by Andre Hagenbruch on 2009-11-08.
7Copyright (c) 2009 University Library Bochum. All rights reserved.
8"""
9
10from mods2solr import Collection
11from solr_util import commit, optimize
12
13COL_INFO = {
14        'Biologie und Biotechnologie': {
15                'filename': 'biologie-biotechnologie.xml',
16                'institution': 'Fakultaet',
17                'inst_label': 'Biologie und Biotechnologie',
18                'disziplin': 'Naturwissenschaft',
19        },
20        'Chemie und Biochemie': {
21                'filename': 'chemie-biochemie.xml',
22                'institution': 'Fakultaet',
23                'inst_label': 'Chemie und Biochemie',
24                'disziplin': 'Naturwissenschaft',
25        },
26        'Geowissenschaften': {
27                'filename': 'geowissenschaften.xml',
28                'institution': 'Fakultaet',
29                'inst_label': 'Geowissenschaften',
30                'disziplin': 'Naturwissenschaft',
31        },
32        'Archäologie': {
33                'filename': 'geschichte/archaeologie.xml',
34                'institution': 'Fakultaet',
35                'inst_label': 'Geschichtswissenschaft',
36                'disziplin': 'Geisteswissenschaft',
37        },
38        'Musikwissenschaft': {
39                'filename': 'geschichte/musikwissenschaft.xml',
40                'institution': 'Fakultaet',
41                'inst_label': 'Geschichtswissenschaft',
42                'disziplin': 'Geisteswissenschaft',
43        },
44        'Geschichte': {
45                'filename': 'geschichte/geschichte.xml',
46                'institution': 'Fakultaet',
47                'inst_label': 'Geschichtswissenschaft',
48                'disziplin': 'Geisteswissenschaft',
49        },
50        'Jura': {
51                'filename': 'jura.xml',
52                'institution': 'Fakultaet',
53                'inst_label': 'Jura',
54                'disziplin': 'Geisteswissenschaft',
55        },
56        'Maschinenbau': {
57                'filename': 'maschinenbau.xml',
58                'institution': 'Fakultaet',
59                'inst_label': 'Maschinenbau',
60                'disziplin': 'Ingenieurwissenschaft',
61        },
62        'Medizin': {
63                'filename': 'medizin.xml',
64                'institution': 'Fakultaet',
65                'inst_label': 'Medizin',
66                'disziplin': 'Medizin',
67        },
68        'Anglistik': {
69                'filename': 'philologie/anglistik.xml',
70                'institution': 'Fakultaet',
71                'inst_label': 'Philologie',
72                'disziplin': 'Geisteswissenschaft',
73        },
74        'Germanistik': {
75                'filename': 'philologie/germanistik.xml',
76                'institution': 'Fakultaet',
77                'inst_label': 'Philologie',
78                'disziplin': 'Geisteswissenschaft',
79        },
80        'Linguistik und Computerlinguistik': {
81                'filename': 'philologie/sprachwissenschaft.xml',
82                'institution': 'Fakultaet',
83                'inst_label': 'Philologie',
84                'disziplin': 'Geisteswissenschaft',
85        },
86        'Romanistik': {
87                'filename': 'philologie/romanistik.xml',
88                'institution': 'Fakultaet',
89                'inst_label': 'Philologie',
90                'disziplin': 'Geisteswissenschaft',
91        },
92        'Philosophie': {
93                'filename': 'philosoph-erzwiss/philosophie.xml',
94                'institution': 'Fakultaet',
95                'inst_label': 'Philosophie und Erziehungswissenschaft',
96                'disziplin': 'Geisteswissenschaft',
97        },
98        'Physik und Astronomie': {
99                'filename': 'physik-astronomie.xml',
100                'institution': 'Fakultaet',
101                'inst_label': 'Physik und Astronomie',
102                'disziplin': 'Naturwissenschaft',
103        },
104        'Psychologie': {
105                'filename': 'psychologie.xml',
106                'institution': 'Fakultaet',
107                'inst_label': 'Psychologie',
108                'disziplin': 'Geisteswissenschaft',
109        },
110        'Sozialwissenschaft': {
111                'filename': 'sozialwissenschaften.xml',
112                'institution': 'Fakultaet',
113                'inst_label': 'Sozialwissenschaft',
114                'disziplin': 'Geisteswissenschaft',
115        },
116        'Wirtschaftswissenschaften': {
117                'filename': 'wirtschaftswissenschaften.xml',
118                'institution': 'Fakultaet',
119                'inst_label': 'Wirtschaftswissenschaften',
120                'disziplin': 'Geisteswissenschaft',
121        },
122        'Lehrerbildung': {
123                'filename': 'zentrale-einrichtungen/lehrerbildung.xml',
124                'institution': 'Zentrale wissenschaftliche Einrichtungen',
125                'inst_label': 'Lehrerbildung',
126                'disziplin': 'Geisteswissenschaft',
127        },
128        'Neuroinformatik': {
129                'filename': 'zentrale-einrichtungen/neuroinformatik.xml',
130                'institution': 'Zentrale wissenschaftliche Einrichtungen',
131                'inst_label': 'Neuroinformatik',
132                'disziplin': 'Naturwissenschaft',
133        },
134        'Research Department Neuroscience': {
135                'filename': 'zentrale-einrichtungen/r-d-neuroscience.xml',
136                'institution': 'Zentrale wissenschaftliche Einrichtungen',
137                'inst_label': 'Research Department Neuroscience',
138                'disziplin': 'Naturwissenschaft',
139        },
140        'Elektrotechnik und Informationstechnik': {
141                'filename': 'elektrotechnik-informationstechnik.xml',
142                'institution': 'Fakultaet',
143                'inst_label': 'Elektrotechnik und Informationstechnik',
144                'disziplin': 'Ingenieurwissenschaft',
145        },
146        'Bau- und Umweltingenieurwissenschaften': {
147                'filename': 'bau-umwelt.xml',
148                'institution': 'Fakultaet',
149                'inst_label': 'Bau- und Umweltingenieurwissenschaften',
150                'disziplin': 'Ingenieurwissenschft',
151        }
152}
153
154def main():
155       
156        # Alle Kollektionen konvertieren
157        # for fach in COL_INFO:
158        #       print fach
159        #       col = Collection('mods-xml/' +  COL_INFO[fach]['filename'], fach, institution = COL_INFO[fach]['institution'], inst_label = COL_INFO[fach]['inst_label'], debug = True)
160        #       col.convert()
161
162        # Alle Kollektionen indexieren
163        for fach in COL_INFO:
164                print fach#.encode('utf8')
165                col = Collection('mods-xml/' + COL_INFO[fach]['filename'], fach, COL_INFO[fach]['disziplin'], institution = COL_INFO[fach]['institution'], inst_label = COL_INFO[fach]['inst_label'])
166                col.feed()
167                commit()
168                optimize()
169       
170         # Eine Kollektion konvertieren
171         # test = Collection('mods-xml/' + 'wirtschaftswissenschaften.xml', 'Wirtschaftswissenschaften', institution = 'Fakultaet', inst_label = 'Wirtschaftswissenschaften', debug = True)
172         # test.convert()
173
174        # Eine Kollektion indexieren
175        # test = Collection('mods-xml/' + 'zentrale-einrichtungen/neuroinformatik.xml', 'Neuroinformatik', institution = 'Zentrale wissenschaftliche Einrichtungen', inst_label = 'Neuroinformatik')
176        # test.feed()
177
178
179if __name__ == '__main__':
180        main()
181
Note: See TracBrowser for help on using the repository browser.