Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Junger Mann it Laptop auf seinem ofa, im Hintergrund Buchregale

Niedersachsen: BAföG-Fachverfahren fürs ganze Land

[30.01.2026] In Nordrhein-Westfalen wird das Gros der Anträge auf BAföG und Aufstiegs-BAföG per Post oder E-Mail eingereicht. Nun soll ein neues Fachverfahren eingeführt werden – landesweit. Den Auftrag erhielt die Firma Datagroup. mehr...

Zeichnung von vier Händen, die je ein Puzzleteil hält, die zusammengeführt werden. Daneben steht ÖFIT-Wegbereiter geschrieben.

ÖFIT-Wegbereiter-Reihe: Kompetenzaufbau in der Verwaltungspraxis

[30.01.2026] Als niedrigschwellige, anwendungsorientierte Lern- und Arbeitsinstrumente sollen die ÖFIT-Wegbereiter die interdisziplinäre Bearbeitung von Digitalisierungsprojekten in der öffentlichen Verwaltung unterstützen. Die Reihe umfasst derzeit vier Ausgaben unter anderem zu den Themen Low Code, generative Künstliche Intelligenz und Digitale Souveränität. mehr...

Normenkontrollrat BW: Tätigkeitsbericht 2025 übergeben

[27.01.2026] Der Normenkontrollrat Baden-Württemberg hat seinen zweiten Tätigkeitsbericht vorgelegt. Das Gremium fordert ein Umdenken in der Gesetzgebung, mehr Freiräume für flexible Lösungen vor Ort und entschlossene Schritte zum Bürokratieabbau. mehr...

Blick auf einige Elemente der Digitalen Dachmarke, von einem Monitor abfotografiert.

DigitalService des Bundes: Neues zur Digitalen Dachmarke

[20.01.2026] Die Digitale Dachmarke gewinnt an Reichweite: Seit der Pilotphase Ende 2024 stieg die Zahl der eingebundenen Onlineservices von 17 auf rund 150. Der DigitalService des Bundes berichtet nun über Erfahrungen aus der Pilotierung und über Anpassungen bei Vergabe, Umsetzung und Betrieb. mehr...

 Verschiedene Mobilitätsicons von Bus über Auto bis Bahn liegen auf einer Baden-Württemberg-Karte.

Baden-Württemberg: Digitales Verkehrsmodell

[06.01.2026] Ein landesweites Verkehrsmodell bildet den Auto-, Bus-, Bahn-, Rad- und Fußverkehr sowie den Güterverkehr in Baden-Württemberg nun digital ab. Mit dem Modell steht dem Land künftig ein zentrales, leistungsfähiges Planungswerkzeug zur Verfügung. mehr...

Sachsen-Anhalt: Erneut Digitalisierungsideen gesucht

[06.01.2026] Das Land Sachsen-Anhalt sucht im Rahmen des Innovationswettbewerbs erneut innovative Digitalisierungsideen für die öffentliche Verwaltung. Noch bis zum 13. Februar können Ideen eingereicht werden. mehr...

Drei Frauen sitzen vor einem Plakat mit der Aufschrift "Arbeit neu gestalten"

Work4Germany: Fellowship für einen zukunftsfähigen Staat

[15.12.2025] Digitalisierung bedeutet nicht nur die Einführung neuer Technologien – sie verändert auch die Zusammenarbeit. Mit seinem Fellowship Programm Work4Germany möchte der DigitalService neue Arbeitsweisen in der Bundesverwaltung verankern. Die Bewerbungsfrist für den nächsten Durchgang startet jetzt. mehr...

Größere Menge von blauen, runden Aufklebern mit der Aufschrift "Servicestandard hilft", die auf einer weißen Tischplatte liegen.

Standardisierung: Standardverordnung Onlinezugang praktisch umsetzen

[12.12.2025] Im Juni hat der IT-Planungsrat die Standardverordnung Onlinezugang beschlossen, die im Oktober in Kraft getreten ist. Damit werden verbindliche Qualitätsanforderungen formuliert, welche die Verwaltung mit ihren digitalen Angeboten einhalten muss. DIN SPEC 66336 und der Servicestandard helfen, diese Vorgaben umzusetzen. mehr...

Person mit Laptop auf dem Sofa

Bitkom-Befragung: Digitalpolitik ist den Deutschen wichtig

[02.12.2025] Eine neue Bitkom-Befragung zeigt: Die meisten Menschen wollen endlich einfache Online-Behördengänge. Auch Datenschutz, digitale Teilhabe und mehr Sicherheit im Netz zählen zu den wichtigsten Anliegen. Digitalpolitik ist für viele von großer Bedeutung. mehr...

Gruppenfoto mit sechs Personen

Gesetzgebung: Praxisaustausch zum Digitalcheck

[01.12.2025] Im November fand zum zweiten Mal das Bund-Länder-Treffen zum Digitalcheck statt, auch Vertreterinnen und Vertreter der Europäischen Kommission waren dabei. Die Teilnehmenden tauschten sich über Erfahrungen und Chancen praxis- und digitaltauglicher Gesetzgebung aus. mehr...

Gruppenfoto der Mitglieder des Kompetenzteams Datenschutz des IT-Planungsrats.

IT-Planungsrat: Klausur des Kompetenzteams Datenschutz

[19.11.2025] Das Kompetenzteam Datenschutz – eines von drei Arbeitsformaten innerhalb des vom IT-Planungsrat strategisch vorangetriebenen Schwerpunkts Datennutzung – traf sich in Hamburg, um die Weichen für das Jahr 2026 zu stellen. mehr...

Karsten Wildberger am Messestand der eWA.

BMDS: Digitale Wohnsitzanmeldung als Erfolgsmodell

[18.11.2025] Rund 55 Millionen Bundesbürger haben Zugriff auf den Onlinedienst „elektronische Wohnsitzanmeldung“, um sich nach einem Umzug ohne Amtsbesuch umzumelden. Das BMDS sieht dies als Beleg, dass „Einer für Alle“ die beste Lösung für schnelle Flächendeckung ist. mehr...

Rauchende Schornsteine auf einem Hausdach vor blauem Himmel

Bayern: Kehrbuchdaten digital abrufen

[17.11.2025] Die sogenannten Kehrbuchdaten – Aufzeichnungen des Schornsteinfegers über seine Tätigkeiten in einem bestimmten Gebiet – können bayerische Kommunen künftig digital und an zentraler Stelle abrufen. mehr...

Bundesverkehrsminister Patrick Schnieder (li.) und Bundesdigitalminister Karsten Wildberger vor einer Werbewand für die neue App.

BMV: Nie mehr den Kfz-Schein suchen

[11.11.2025] Mit der neuen i-Kfz-App erreicht die Digitalisierung von fahrer- und fahrzeugbezogenen Papieren eine weitere Etappe: Bürgerinnen und Bürger können ihren Fahrzeugschein nun digital auf dem Smartphone mitführen – rechtlich anerkannt und jederzeit abrufbar. mehr...

Wehende Brandenburg-Flagge mit dem Landeswappen, das einen Adler zeigt.

Brandenburg: Neuer Standort für die DigitalAgentur

[10.11.2025] Die DigitalAgentur Brandenburg spielt eine zentrale Rolle bei der Digitalisierung des Landes – und ist ein wichtiges Bindeglied zwischen Ressorts, Landesverwaltung, Kommunen und externen Partnern. Nun hat sie ihren neuen Standort in Babelsberg bezogen. mehr...