Generative KITrainingsdaten in Form bringen

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.
(Bildquelle: 123rf.com/peshkova)
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.
Niedersachsen: BAföG-Fachverfahren fürs ganze Land
[30.01.2026] In Nordrhein-Westfalen wird das Gros der Anträge auf BAföG und Aufstiegs-BAföG per Post oder E-Mail eingereicht. Nun soll ein neues Fachverfahren eingeführt werden – landesweit. Den Auftrag erhielt die Firma Datagroup. mehr...
ÖFIT-Wegbereiter-Reihe: Kompetenzaufbau in der Verwaltungspraxis
[30.01.2026] Als niedrigschwellige, anwendungsorientierte Lern- und Arbeitsinstrumente sollen die ÖFIT-Wegbereiter die interdisziplinäre Bearbeitung von Digitalisierungsprojekten in der öffentlichen Verwaltung unterstützen. Die Reihe umfasst derzeit vier Ausgaben unter anderem zu den Themen Low Code, generative Künstliche Intelligenz und Digitale Souveränität. mehr...
Normenkontrollrat BW: Tätigkeitsbericht 2025 übergeben
[27.01.2026] Der Normenkontrollrat Baden-Württemberg hat seinen zweiten Tätigkeitsbericht vorgelegt. Das Gremium fordert ein Umdenken in der Gesetzgebung, mehr Freiräume für flexible Lösungen vor Ort und entschlossene Schritte zum Bürokratieabbau. mehr...
DigitalService des Bundes: Neues zur Digitalen Dachmarke
[20.01.2026] Die Digitale Dachmarke gewinnt an Reichweite: Seit der Pilotphase Ende 2024 stieg die Zahl der eingebundenen Onlineservices von 17 auf rund 150. Der DigitalService des Bundes berichtet nun über Erfahrungen aus der Pilotierung und über Anpassungen bei Vergabe, Umsetzung und Betrieb. mehr...
Baden-Württemberg: Digitales Verkehrsmodell
[06.01.2026] Ein landesweites Verkehrsmodell bildet den Auto-, Bus-, Bahn-, Rad- und Fußverkehr sowie den Güterverkehr in Baden-Württemberg nun digital ab. Mit dem Modell steht dem Land künftig ein zentrales, leistungsfähiges Planungswerkzeug zur Verfügung. mehr...
Sachsen-Anhalt: Erneut Digitalisierungsideen gesucht
[06.01.2026] Das Land Sachsen-Anhalt sucht im Rahmen des Innovationswettbewerbs erneut innovative Digitalisierungsideen für die öffentliche Verwaltung. Noch bis zum 13. Februar können Ideen eingereicht werden. mehr...
Work4Germany: Fellowship für einen zukunftsfähigen Staat
[15.12.2025] Digitalisierung bedeutet nicht nur die Einführung neuer Technologien – sie verändert auch die Zusammenarbeit. Mit seinem Fellowship Programm Work4Germany möchte der DigitalService neue Arbeitsweisen in der Bundesverwaltung verankern. Die Bewerbungsfrist für den nächsten Durchgang startet jetzt. mehr...
Standardisierung: Standardverordnung Onlinezugang praktisch umsetzen
[12.12.2025] Im Juni hat der IT-Planungsrat die Standardverordnung Onlinezugang beschlossen, die im Oktober in Kraft getreten ist. Damit werden verbindliche Qualitätsanforderungen formuliert, welche die Verwaltung mit ihren digitalen Angeboten einhalten muss. DIN SPEC 66336 und der Servicestandard helfen, diese Vorgaben umzusetzen. mehr...
Bitkom-Befragung: Digitalpolitik ist den Deutschen wichtig
[02.12.2025] Eine neue Bitkom-Befragung zeigt: Die meisten Menschen wollen endlich einfache Online-Behördengänge. Auch Datenschutz, digitale Teilhabe und mehr Sicherheit im Netz zählen zu den wichtigsten Anliegen. Digitalpolitik ist für viele von großer Bedeutung. mehr...
Gesetzgebung: Praxisaustausch zum Digitalcheck
[01.12.2025] Im November fand zum zweiten Mal das Bund-Länder-Treffen zum Digitalcheck statt, auch Vertreterinnen und Vertreter der Europäischen Kommission waren dabei. Die Teilnehmenden tauschten sich über Erfahrungen und Chancen praxis- und digitaltauglicher Gesetzgebung aus. mehr...
IT-Planungsrat: Klausur des Kompetenzteams Datenschutz
[19.11.2025] Das Kompetenzteam Datenschutz – eines von drei Arbeitsformaten innerhalb des vom IT-Planungsrat strategisch vorangetriebenen Schwerpunkts Datennutzung – traf sich in Hamburg, um die Weichen für das Jahr 2026 zu stellen. mehr...
BMDS: Digitale Wohnsitzanmeldung als Erfolgsmodell
[18.11.2025] Rund 55 Millionen Bundesbürger haben Zugriff auf den Onlinedienst „elektronische Wohnsitzanmeldung“, um sich nach einem Umzug ohne Amtsbesuch umzumelden. Das BMDS sieht dies als Beleg, dass „Einer für Alle“ die beste Lösung für schnelle Flächendeckung ist. mehr...
Bayern: Kehrbuchdaten digital abrufen
[17.11.2025] Die sogenannten Kehrbuchdaten – Aufzeichnungen des Schornsteinfegers über seine Tätigkeiten in einem bestimmten Gebiet – können bayerische Kommunen künftig digital und an zentraler Stelle abrufen. mehr...
BMV: Nie mehr den Kfz-Schein suchen
[11.11.2025] Mit der neuen i-Kfz-App erreicht die Digitalisierung von fahrer- und fahrzeugbezogenen Papieren eine weitere Etappe: Bürgerinnen und Bürger können ihren Fahrzeugschein nun digital auf dem Smartphone mitführen – rechtlich anerkannt und jederzeit abrufbar. mehr...
Brandenburg: Neuer Standort für die DigitalAgentur
[10.11.2025] Die DigitalAgentur Brandenburg spielt eine zentrale Rolle bei der Digitalisierung des Landes – und ist ein wichtiges Bindeglied zwischen Ressorts, Landesverwaltung, Kommunen und externen Partnern. Nun hat sie ihren neuen Standort in Babelsberg bezogen. mehr...













