Die Teilnehmenden – hauptsächlich aus privaten Büros, Universitäten, der Eidgenössischen Finanzkontrolle und der Parlamentarischen Verwaltungskontrolle – tauschten sich über ihre Erfahrungen anhand einer Online-Umfrage (Slido) und in Gruppengesprächen aus: Ziele und Häufigkeit der Nutzung, bevorzugte Tools, erste Erfahrungen. Die Veranstaltung konnte dank der Unterstützung der SEVAL und des Kompetenzzentrums für Public Management (KPM) der Universität Bern sowie dem Engagement des SwissJEE-Komitees (Julia Lehmann, Julián Salazar und Philipp Zogg) stattfinden. Ein herzliches Dankeschön an sie und alle Teilnehmenden!
***
🎯 Aktueller Stand – Alle Teilnehmenden nutzen KI mindestens einmal pro Woche – jedoch sehr unterschiedlich, ohne dass sich bisher klare Standards etabliert hätten. Dennoch konnten rund zwanzig KI-Tools identifiziert werden, die hauptsächlich zur Textkorrektur, Informationsrecherche, Transkription sowie zur Unterstützung qualitativer und quantitativer Textanalysen verwendet werden.
🔍 Verwendete KI-Tools – Eine breite Palette an KI-Tools wird von den Teilnehmenden in der Evaluation und den angewandten Sozialwissenschaften bereits genutzt, u.a. für die automatische Transkription von Interviews (z. B. Teams, Töggel, Read AI) und die Textanalyse (MaxQDA AI); die Korrektur, Zusammenfassung, Verbesserung und Übersetzung von Texten (DeepL Write, DeepL, Grammarly); die Informationsrecherche (Perplexity, Claude AI, ChatGPT, Copilot, Mistral AI) sowie zur Erhebung des Forschungsstands in einem bestimmten Bereich (Consensus, Scispace); zur Informationszusammenfassung (ChatPDF, Scispace) und beim Schreiben (Avidnote, Scispace, jenni ai, Paperpal); sowie für Visualisierungen und Bildgenerierung (Napkin, DallE).
💡 Mögliche Anwendungen in der Evaluation – Die Teilnehmenden verglichen ihre Praxis mit ersten Erkenntnissen der SEVAL-Arbeitsgruppe zu KI sowie mit der Expertise von Jan Ulrich Hense (2025)[2], der in seiner Publikation konkrete Anwendungsfälle präsentiert. Einige Anwendungen überschneiden sich, andere sind noch wenig verbreitet: Textgenerierung und -überarbeitung, Literaturrecherche und -zusammenfassung, Ideengenerierung, Literaturreviews, Wirkmodell-Erstellung, Fragebogendesign, Transkription, qualitative und quantitative Datenanalyse sowie Visualisierungen.
🕵️♂️ Herausforderungen – Die grössten Herausforderungen aus Sicht der JEE betreffen die Validität der Quellen und KI-Halluzinationen, was eine sorgfältige Überprüfung der generierten Inhalte erfordert. Der Datenschutz stellt eine weitere grosse Herausforderung dar und wirft Fragen zur Datenspeicherung auf, deren Klärung optimalerweise eine engere Zusammenarbeit mit IT-Fachpersonen erfordert.
🧰 Erste Empfehlungen – Die Nutzung von KI lässt sich durch präzise Formulierung der Prompts und Aufteilung in kleinere, spezifische Einheiten optimieren. Ein Teilen häufig verwendeter Prompts innerhalb einer Organisation könnte deren Zugänglichkeit verbessern und die Resultate optimieren. Eine engere Zusammenarbeit mit IT-Expert:innen scheint zudem sinnvoll, um den Datenschutz zu gewährleisten. Schliesslich wird es zunehmend als sinnvoll erachtet, die Verwendung von KI in Evaluationsprojekten klar auszuweisen, um die berufliche Integrität zu wahren.
Diese Veranstaltung hat das wachsende Interesse an KI im Evaluationsbereich bestätigt und zugleich die Bedeutung von kritischem Denken sowie einer ethisch reflektierten Verwendung dieser Tools hervorgehoben. Es zeigt sich zudem ein noch weitgehend ungenutztes Potenzial sowie der Wunsch, die bestehenden Möglichkeiten besser zu beherrschen. Ein nächstes Treffen der Swiss JEE ist für Ende 2025 geplant, um sich über die bis dahin gemachten Erfahrungen auszutauschen. Alle Interessierten sind herzlich willkommen!
KI-Nutzungserklärung:
Zur Erstellung dieses Berichts und als Übung haben wir zunächst die PowerPoint-Präsentation der Veranstaltung in Claude AI und ChatGPT hochgeladen. Anschliessend baten wir beide KIs, eine Zusammenfassung von 300 Wörtern für eine SEVAL-Publikation zu erstellen. Ausgehend von den besten Auszügen beider KI-Systeme wurde der Text durch eine menschliche Autorin/einen menschlichen Autor überarbeitet und ergänzt. Danach wurde er mit DeepL Write korrigiert und vereinfacht sowie abschliessend von einem zweiten menschlichen Autor gegengelesen. Schliesslich wurde der Text mit ChatGPT ins Deutsche übersetzt und vom deutschsprachigen Zweitautor sorgfältig überarbeitet. Dieser Ansatz ermöglichte eine umfassendere Darstellung, half über anfängliche Schreibblockaden hinweg und führte zu einer schnelleren Fertigstellung.
[1] Hense, Jan Ulrich (2025). Anwendungen Künstlicher Intelligenz in der Evaluation: Stand von Forschung und Praxis. PrEval Expertise 1/2025, Frankfurt/M. https://preval.hsfk.de/publikationen/preval-expertisen/expertise-1/2025
[2] Hense, Jan Ulrich (2025). Anwendungen Künstlicher Intelligenz in der Evaluation: Stand von Forschung und Praxis. PrEval Expertise 1/2025, Frankfurt/M. https://preval.hsfk.de/publikationen/preval-expertisen/expertise-1/2025