source: feeder.py @ 17:6a35996d3cb4

Revision 17:6a35996d3cb4, 8.4 KB checked in by hagenbruch@phoibe.ub.rub.de, 9 years ago (diff)

Support for handling the status of consent for abstracts.

Line 
1#!/usr/bin/env python
2# encoding: utf-8
3"""
4feeder.py
5
6Created by Andre Hagenbruch on 2009-11-08.
7Copyright (c) 2009 University Library Bochum. All rights reserved.
8"""
9
10from mods2solr import Collection
11#from mods_parser import Collection
12#from solr_util import commit, optimize
13from types import ListType
14
15COL_INFO = {
16    'biologie': {
17        'filename': 'biologie-biotechnologie.xml',
18        'institution': 'Fakultaet',
19        'inst_label': 'Biologie und Biotechnologie',
20        'disziplin': 'Naturwissenschaft',
21    },
22    'chemie': {
23        'filename': 'chemie-biochemie.xml',
24        'institution': 'Fakultaet',
25        'inst_label': 'Chemie und Biochemie',
26        'disziplin': 'Naturwissenschaft',
27    },
28    'geowissenschaften': {
29        'filename': 'geowissenschaften.xml',
30        'institution': 'Fakultaet',
31        'inst_label': 'Geowissenschaften',
32        'disziplin': 'Naturwissenschaft',
33    },
34    'archaeologie': {
35        'filename': 'geschichte/archaeologie.xml',
36        'institution': 'Fakultaet',
37        'inst_label': 'Geschichtswissenschaft',
38        'label': 'Archäologie',
39        'disziplin': 'Geisteswissenschaft',
40    },
41    'musik': {
42        'filename': 'geschichte/musikwissenschaft.xml',
43        'institution': 'Fakultaet',
44        'inst_label': 'Geschichtswissenschaft',
45        'label': 'Musikwissenschaft',
46        'disziplin': 'Geisteswissenschaft',
47    },
48    'geschichte': {
49        'filename': 'geschichte/geschichte.xml',
50        'institution': 'Fakultaet',
51        'inst_label': 'Geschichtswissenschaft',
52        'label': 'Geschichte',
53        'disziplin': 'Geisteswissenschaft',
54    },
55    'jura': {
56        'filename': 'jura.xml',
57        'institution': 'Fakultaet',
58        'inst_label': 'Jura',
59        'disziplin': 'Geisteswissenschaft',
60    },
61    'maschinenbau': {
62        'filename': 'maschinenbau.xml',
63        'institution': 'Fakultaet',
64        'inst_label': 'Maschinenbau',
65        'disziplin': 'Ingenieurwissenschaft',
66    },
67    'medizin': {
68        'filename': ['medizin_1.xml', 'medizin_2.xml', 'medizin_3.xml'],
69        'institution': 'Fakultaet',
70        'inst_label': 'Medizin',
71        'disziplin': 'Medizin',
72    },
73    'anglistik': {
74        'filename': 'philologie/anglistik.xml',
75        'institution': 'Fakultaet',
76        'inst_label': 'Philologie',
77        'label': 'Anglistik',
78        'disziplin': 'Geisteswissenschaft',
79    },
80    'germanistik': {
81        'filename': 'philologie/germanistik.xml',
82        'institution': 'Fakultaet',
83        'inst_label': 'Philologie',
84        'label': 'Germanistik',
85        'disziplin': 'Geisteswissenschaft',
86    },
87    'linguistik': {
88        'filename': 'philologie/sprachwissenschaft.xml',
89        'institution': 'Fakultaet',
90        'inst_label': 'Philologie',
91        'label': 'Linguistik und Computerlinguistik',
92        'disziplin': 'Geisteswissenschaft',
93    },
94    'romanistik': {
95        'filename': 'philologie/romanistik.xml',
96        'institution': 'Fakultaet',
97        'inst_label': 'Philologie',
98        'label': 'Romanistik',
99        'disziplin': 'Geisteswissenschaft',
100    },
101    'philosophie': {
102        'filename': 'philosoph-erzwiss/philosophie.xml',
103        'institution': 'Fakultaet',
104        'inst_label': 'Philosophie und Erziehungswissenschaft',
105        'label': 'Philosophie',
106        'disziplin': 'Geisteswissenschaft',
107    },
108    'physik': {
109        'filename': 'physik-astronomie.xml',
110        'institution': 'Fakultaet',
111        'inst_label': 'Physik und Astronomie',
112        'label': 'Physik und Astronomie',
113        'disziplin': 'Naturwissenschaft',
114    },
115    'psychologie': {
116        'filename': 'psychologie.xml',
117        'institution': 'Fakultaet',
118        'inst_label': 'Psychologie',
119        'disziplin': 'Geisteswissenschaft',
120    },
121    'sozialwissenschaft': {
122        'filename': 'sozialwissenschaften.xml',
123        'institution': 'Fakultaet',
124        'inst_label': 'Sozialwissenschaft',
125        'disziplin': 'Geisteswissenschaft',
126    },
127    'wirtschaftswissenschaften': {
128        'filename': 'wirtschaftswissenschaften.xml',
129        'institution': 'Fakultaet',
130        'inst_label': 'Wirtschaftswissenschaften',
131        'disziplin': 'Geisteswissenschaft',
132    },
133    'lehrerbildung': {
134        'filename': 'zentrale-einrichtungen/lehrerbildung.xml',
135        'institution': 'Zentrale wissenschaftliche Einrichtungen',
136        'inst_label': 'Lehrerbildung',
137        'disziplin': 'Geisteswissenschaft',
138    },
139    'neuroinformatik': {
140        'filename': 'zentrale-einrichtungen/neuroinformatik.xml',
141        'institution': 'Zentrale wissenschaftliche Einrichtungen',
142        'inst_label': 'Neuroinformatik',
143        'disziplin': 'Naturwissenschaft',
144    },
145    'neuroscience': {
146        'filename': 'zentrale-einrichtungen/r-d-neuroscience.xml',
147        'institution': 'Zentrale wissenschaftliche Einrichtungen',
148        'inst_label': 'Research Department Neuroscience',
149        'disziplin': 'Naturwissenschaft',
150    },
151    'etechnik': {
152        'filename': 'elektrotechnik-informationstechnik.xml',
153        'institution': 'Fakultaet',
154        'inst_label': 'Elektrotechnik und Informationstechnik',
155        'disziplin': 'Ingenieurwissenschaft',
156    },
157    'bauwiss': {
158        'filename': 'bau-umwelt.xml',
159        'institution': 'Fakultaet',
160        'inst_label': 'Bau- und Umweltingenieurwissenschaften',
161        'disziplin': 'Ingenieurwissenschft',
162    },
163    'mathematik': {
164        'filename': 'mathematik.xml',
165        'institution': 'Fakultaet',
166        'inst_label': 'Mathematik',
167        'disziplin': 'Naturwissenschaft',
168    },
169    'kaththeol': {
170        'filename':'katholische-theologie.xml',
171        'institution': 'Fakultaet',
172        'inst_label': 'Katholische Theologie',
173        'disziplin': 'Geisteswissenschaft',
174    },
175    'evtheol': {
176        'filename':'evangelische-theologie.xml',
177        'institution': 'Fakultaet',
178        'inst_label': 'Evangelische Theologie',
179        'disziplin': 'Geisteswissenschaft',
180    },
181    'slavistik': {
182        'filename': 'philologie/slavistik.xml',
183        'institution': 'Fakultaet',
184        'inst_label': 'Philologie',
185        'label': 'Slavistik',
186        'disziplin': 'Geisteswissenschaft',
187    },
188    'erziehungswissenschaft': {
189        'filename': 'philosoph-erzwiss/erziehungswissenschaft.xml',
190        'institution': 'Fakultaet',
191        'inst_label': 'Philosophie und Erziehungswissenschaft',
192        'label': 'Erziehungswissenschaft',
193        'disziplin': 'Geisteswissenschaft',
194    },
195}
196
197def main():
198       
199    #Alle Kollektionen konvertieren
200#    for fach in COL_INFO:
201#        print fach
202#        if type(COL_INFO[fach]['filename']) is ListType:
203#            for fn in COL_INFO[fach]['filename']:
204#                col = Collection('/home/hagenbruch/data/bibliographie-daten/mods-xml/' + fn, fach, COL_INFO[fach]['disziplin'], institution=COL_INFO[fach]['institution'], inst_label=COL_INFO[fach]['inst_label'], debug=False)
205#                col.convert()
206#        else:
207#            col = Collection('/home/hagenbruch/data/bibliographie-daten/mods-xml/' + COL_INFO[fach]['filename'], fach, COL_INFO[fach]['disziplin'], institution=COL_INFO[fach]['institution'], inst_label=COL_INFO[fach]['inst_label'], debug=False)
208#            col.convert()
209
210    # Alle Kollektionen indexieren
211#       for fach in COL_INFO:
212#               print fach#.encode('utf8')
213#        if type(COL_INFO[fach]['filename']) is ListType:
214#            for fn in COL_INFO[fach]['filename']:
215#                col = Collection('/home/hagenbruch/data/bibliographie-daten/mods-xml/' + fn, fach, COL_INFO[fach]['disziplin'], institution=COL_INFO[fach]['institution'], inst_label=COL_INFO[fach]['inst_label'], debug=False)
216#                col.feed()
217#                commit()
218#                optimize()
219#        else:
220#            col = Collection('/home/hagenbruch/data/bibliographie-daten/mods-xml/' + COL_INFO[fach]['filename'], fach, COL_INFO[fach]['disziplin'], institution=COL_INFO[fach]['institution'], inst_label=COL_INFO[fach]['inst_label'], debug=False)
221#            col.feed()
222#            commit()
223#            optimize()
224       
225    #Eine Kollektion konvertieren
226    test = Collection('/home/hagenbruch/data/bibliographie-daten/mods-xml/' + 'jura.xml', 'Soziologie', 'Geisteswissenschaft', institution = 'Fakultaet', inst_label = 'Soziologie', debug = True)
227    test.convert()
228
229# Eine Kollektion indexieren
230    # test = Collection('mods-xml/' + 'zentrale-einrichtungen/neuroinformatik.xml', 'Neuroinformatik', institution = 'Zentrale wissenschaftliche Einrichtungen', inst_label = 'Neuroinformatik')
231    # test.feed()
232
233
234if __name__ == '__main__':
235    main()
236
Note: See TracBrowser for help on using the repository browser.