Generative KITrainingsdaten in Form bringen

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.
(Bildquelle: 123rf.com/peshkova)
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.
Standardisierung: Standardverordnung Onlinezugang praktisch umsetzen
[12.12.2025] Im Juni hat der IT-Planungsrat die Standardverordnung Onlinezugang beschlossen, die im Oktober in Kraft getreten ist. Damit werden verbindliche Qualitätsanforderungen formuliert, die die Verwaltung mit ihren digitalen Angeboten einhalten muss. DIN SPEC 66336 und der Servicestandard helfen, diese Vorgaben umzusetzen. mehr...
Bitkom-Befragung: Digitalpolitik ist den Deutschen wichtig
[02.12.2025] Eine neue Bitkom-Befragung zeigt: Die meisten Menschen wollen endlich einfache Online-Behördengänge. Auch Datenschutz, digitale Teilhabe und mehr Sicherheit im Netz zählen zu den wichtigsten Anliegen. Digitalpolitik ist für viele von großer Bedeutung. mehr...
Gesetzgebung: Praxisaustausch zum Digitalcheck
[01.12.2025] Im November fand zum zweiten Mal das Bund-Länder-Treffen zum Digitalcheck statt, auch Vertreterinnen und Vertreter der Europäischen Kommission waren dabei. Die Teilnehmenden tauschten sich über Erfahrungen und Chancen praxis- und digitaltauglicher Gesetzgebung aus. mehr...
IT-Planungsrat: Klausur des Kompetenzteams Datenschutz
[19.11.2025] Das Kompetenzteam Datenschutz – eines von drei Arbeitsformaten innerhalb des vom IT-Planungsrat strategisch vorangetriebenen Schwerpunkts Datennutzung – traf sich in Hamburg, um die Weichen für das Jahr 2026 zu stellen. mehr...
BMDS: Digitale Wohnsitzanmeldung als Erfolgsmodell
[18.11.2025] Rund 55 Millionen Bundesbürger haben Zugriff auf den Onlinedienst „elektronische Wohnsitzanmeldung“, um sich nach einem Umzug ohne Amtsbesuch umzumelden. Das BMDS sieht dies als Beleg, dass „Einer für Alle“ die beste Lösung für schnelle Flächendeckung ist. mehr...
Bayern: Kehrbuchdaten digital abrufen
[17.11.2025] Die sogenannten Kehrbuchdaten – Aufzeichnungen des Schornsteinfegers über seine Tätigkeiten in einem bestimmten Gebiet – können bayerische Kommunen künftig digital und an zentraler Stelle abrufen. mehr...
BMV: Nie mehr den Kfz-Schein suchen
[11.11.2025] Mit der neuen i-Kfz-App erreicht die Digitalisierung von fahrer- und fahrzeugbezogenen Papieren eine weitere Etappe: Bürgerinnen und Bürger können ihren Fahrzeugschein nun digital auf dem Smartphone mitführen – rechtlich anerkannt und jederzeit abrufbar. mehr...
Brandenburg: Neuer Standort für die DigitalAgentur
[10.11.2025] Die DigitalAgentur Brandenburg spielt eine zentrale Rolle bei der Digitalisierung des Landes – und ist ein wichtiges Bindeglied zwischen Ressorts, Landesverwaltung, Kommunen und externen Partnern. Nun hat sie ihren neuen Standort in Babelsberg bezogen. mehr...
Thüringen: App für Beratung und mehr Sicherheit
[05.11.2025] Thüringen testet in seiner Erstaufnahmeeinrichtung in Suhl die App Saba, mit der psychosoziale Belastungsfaktoren bei Geflüchteten frühzeitig erkannt werden sollen. Das Modellprojekt will Schutzbedarfe systematisch erfassen und gezielte Hilfe schneller verfügbar machen. mehr...
Once Only: Entlastung beim Elterngeldantrag
[30.10.2025] Noch in diesem Jahr soll bundesweit eine Lösung zur Verfügung stehen, die Elterngeldstellen den elektronischen Abruf von Einkommensteuerdaten direkt vom zuständigen Finanzamt erlaubt. Entwickelt wurde diese im Rahmen des Verbundprojekts Konsens. mehr...
Nordrhein-Westfalen: Innovative Technik für den Hochwasserschutz
[27.10.2025] Durch die Erderwärmung nehmen Starkregen- und Hochwasserereignisse zu. Das Land Nordrhein-Westfalen erprobt in einem Modellvorhaben dichte Sensornetze und Künstliche Intelligenz, um die Wasserstände auch kleinerer Gewässer zu beobachten und zu prognostizieren. mehr...
ITZBund: IT-Dienstleister des Bundes mehrfach ausgezeichnet
[27.10.2025] Mehrere renommierte Auszeichnungen würdigen die Arbeit des ITZBund. Für Open-Source-Initiativen, nachhaltige Softwareentwicklung und nutzerfreundliche Weblösungen wurde der IT-Dienstleister auf gleich mehreren Fachveranstaltungen prämiert. mehr...
Baden-Württemberg: Digitale Transformation der Pflege
[24.10.2025] Baden-Württemberg will die digitale Transformation der Pflege gezielt vorantreiben. Welche Maßnahmen konkret geplant sind, wurde in einer Erklärung zur Digitalisierung in der Langzeitpflege festgelegt, die gemeinsam mit allen relevanten Akteuren im Land erarbeitet wurde. mehr...
Baden-Württemberg: Stefan Krebs ist CIO des Jahres 2025
[23.10.2025] Der Chief Information Officer der Landesverwaltung Baden-Württemberg, Stefan Krebs, wurde als „CIO des Jahres“ im Bereich Public Sector ausgezeichnet. Insbesondere bei KI hat die Landesverwaltung in den vergangenen Jahren bedeutende Schritte unternommen. mehr...
Fraunhofer FOKUS: Impulse für den „Marktplatz der Zukunft“
[23.10.2025] Das Fraunhofer-Institut FOKUS hat eine Studie veröffentlicht, die untersucht, wie EfA-Leistungen flächendeckend bei Kommunen etabliert werden können. Die Studie analysiert bestehende föderale Plattformstrukturen und zeigt, wie diese praxisnah weiterentwickelt werden können. mehr...














