Zusammenfassung
Bevor wissenschaftliche Beiträge in Fachzeitschriften publiziert oder auf Tagungen präsentiert werden, überprüfen Herausgeber*innen bzw. Organisator*innen die Qualität der Einreichungen. Dies geschieht zumeist im Peer-Review-Verfahren, bei dem unabhängige Kolleg*innen aus dem gleichen Forschungsgebiet die Einreichung begutachten. Die vorliegende Studie hinterfragt, wie zuverlässig das Review-Verfahren ist. Dazu untersuchen wir die Bewertungen der Einreichungen von DGPuK-Jahrestagungen und der Tagungen der fünf größten Fachgruppen über einen Zeitraum von fünf Jahren. Basierend auf 3537 Reviews von 23 Tagungen analysieren wir Interrater-Reliabilitäten (Krippendorffs á und Brennan und Predigers ê) und Spannweiten über verschiedene Einzelkriterien (Passung, Originalität, Relevanz, Theorie, Methode und Darstellung) und Gesamturteile; zudem fokussieren wir Ursachen von Dissens bzw. Konsens. Die Studie zeigt, dass unter Gutachter*innen durchaus Uneinigkeit besteht: Dies betrifft sowohl die Gesamtwertung als auch alle Einzelwertungskategorien. Die Bildung von Durchschnitten über mehrere Kriterien hinweg erhöht jedoch die Übereinstimmung der Urteile. Abschließend diskutieren wir Ideen, um Begutachtungsverfahren zukünftig zu verbessern.https://doi.org/10.5771/2192-4007-2019-2-203