APA-News-Talk: Datenqualität und -dokumentation oft noch mangelhaft – Daten-Provider um optimierte Aufbereitung bemüht – Regelmäßiger Austausch gewünscht
Die Corona-Pandemie hat den datenjournalistischen Turbo gezündet. In den Redaktionen des Landes zählt das Verwerten von Daten mittlerweile zum Tagesgeschäft, und auch Provider wie das Gesundheitsministerium haben ihre Datenteams zuletzt aufgerüstet. Dennoch existieren auf diesem Gebiet noch viele Probleme. Um diese zu beheben, sei regelmäßiger Austausch wichtig, befanden die Diskutantinnen und Diskutanten eines APA-News-Talks am Mittwochabend.
„Wir Datenjournalisten waren lange Zeit ein Volk, das wenig tagesaktuell gearbeitet hat. Seit zwei Jahren werden – anfangs teils sogar stündlich – laufend neue Daten zur Verfügung gestellt“, schilderte der freie Datenjournalist Markus Hametner. Zufrieden ist er mit diesen aber oft nicht: „Wir sind es gewohnt, mit nicht so tollen Daten umzugehen.“ Hin und wieder seien diese schlichtweg nicht korrekt, oft sei deren Dokumentation mangelhaft, womit es unmöglich sei, die Datenqualität einzuschätzen.
Ein besonderer Dorn im Auge ist ihm die Datenbereitstellung. Mehrfach habe er Anfragen gestellt und keine Antwort erhalten – trotz Auskunftspflichtgesetz. „Für uns Datenjournalisten ist das schmerzhaft. Wir wollen die Daten verstehen und auch kritisch betrachten können. Das ist in der Pandemie zu kurz gekommen“, meinte Hametner.
Lena Jäger, Leiterin der Abteilung Kommunikation im Gesundheitsministerium, gestand, dass nicht alles „picobello“ läuft: „Es ist richtig, dass beim Thema Daten, Datensammlung und der Verschneidung von Daten in der Vergangenheit viel verabsäumt wurde.“ Nach einem „rudimentären“ Start in die Corona-Pandemie sei man aber viele kleine Schritte gegangen und blicke mittlerweile auf ein großes Datenteam. Um Verständnis warb sie dafür, dass bei Bedenken zur Qualität der Daten diese nicht oder erst nach Verifikation veröffentlicht werden. Abzuwägen gelte es auch, wo diese zur Verfügung gestellt werden: „Es ist verständlich, dass manche Leute meinen, alle Daten sollten an einem Ort abrufbar sein. Das wäre aber ein großer Schritt in Richtung gläserner Bürger“, warnte sie.
Ramon Bauer, Leiter der Landesstatistik Wien in der MA 23, erachtete den Stand der Dinge als „gut“, wenn auch ausbaufähig. „Es ist uns ein Anliegen, unseren Datenschatz in entsprechender Qualität zur Verfügung zu stellen“, sagte er. Dabei gebe es sicherlich noch Hürden. Diese seien nicht nur technischer Natur, sondern betreffen auch die Einstellung und Datenkompetenz mancher Personen im Betrieb wie auch der Gesellschaft. Ein Verständnis für Daten sei wichtig, um etwa Daten zu hinterfragen und erklären zu können. So werde in seiner Abteilung etwa häufig angefragt, wie viele Hunde in Wien leben. „Wir können daraufhin erheben, für wie viele Hunde Steuer gezahlt wird. Ob das alle sind, ist eine andere Frage. Es gibt offenbar eine hohe Dunkelziffer“, so Bauer. Nützlich wäre für den Landesstatistik-Leiter mehr Input zur Frage, wie Daten am besten vereinheitlicht bereitgestellt werden sollten. Dafür sei es wiederum wichtig, dass sich die Player regelmäßig austauschen.
Dem konnte auch Katharina Schell, verantwortlich für digitale Innovation in der APA-Chefredaktion, viel abgewinnen. Es sei wichtig, den Austausch unter Datenjournalisten und Datenprovidern zu institutionalisieren, um an einer gemeinsamen Datenkultur zu arbeiten. Schon lange wisse man, wie aus strukturierten Daten Texte generiert werden können. Nur sei der Weg dorthin oft lange, „wenn jeder Datensatz anders ausschaut“ oder den Daten wichtige Informationen wie das Geschlecht eines Subjekts fehlen.
Den Stand der Dinge hielt Schell in einem frisch publizierten Whitepaper namens „Journalistische Textautomatisierung – Status, Potenziale, Limitationen“ fest. Daraus geht hervor, dass „Automated Journalism“ bereits in vielen Newsrooms angelangt ist und etwa für Bilanz-, Wahl- oder Sportberichterstattung zum Einsatz kommt. Die APA startete im Jahr 2019 mit automatisierter Wahlberichterstattung. Seitdem wurde das Themenspektrum etwa um Covid-19-Statusmeldungen oder auch einen „Wiener Fundtierbot“ erweitert.
Problematisch sei neben Datenqualität und -verfügbarkeit auch das Sprachwissen von Systemen zur automatischen Textgenerierung. Im Falle des „Wiener Fundtierbots“ wurde etwa eine entlaufene Vogelspinne vom System als Vogel mit schwarzem Gefieder erfasst. Denn der Algorithmus war darauf trainiert worden, das Wort „Vogel“ im zur Verfügung gestellten Datensatz zu suchen – die Existenz von „Spinnen“ war ihm unbekannt.
Die neue Technologie ersetze nicht Bestehendes, sondern ergänze bewährte Prozesse, erweitere das Angebot und vereinfache Arbeitsabläufe, hielt Schell im Fazit des Whitepapers fest. Die Werkzeuge seien noch bei weitem nicht perfekt und für jeden Zweck geeignet. Daher bräuchten Medienunternehmen auch Mut zum Experimentieren und Scheitern und müssten sich nicht zuletzt austauschen.
Weiter zum Unternehmensprofil