Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Mehrere Personen sitzen offenbar miteinander redend um einen Tisch herum, dieser ist mit gelben Zetteln bedeckt.

BMDS: Kriterien für gute Servicequalität

[17.03.2026] Im Februar haben Menschen aus ganz Deutschland in mehreren Bürgerwerkstätten erarbeitet, was für sie einen guten Verwaltungsservice ausmacht. Die Ergebnisse will das BMDS nun weiter validieren, um ein Audit-Tool für die Servicequalität von Bundesleistungen zu entwickeln. mehr...

Laptop auf einem niedrigen Tisch in warmen Licht, Händet tippen darauf.

Hessen: Quick-Check Bauantrag gestartet

[16.03.2026] Das Land Hessen hat ein einfaches digitales Angebot geschaffen, mit dem Bürgerinnen und Bürger schnell prüfen können, ob für ihr Bauvorhaben ein Bauantrag erforderlich ist. Das spart Zeit, schafft Klarheit und entlastet auch die Behörden. mehr...

Eine Reihe von gläsernen Trophäen auf einer frauen Säule, darauf Schriftzug "Smart Country Convention"

OSBA: Innovative Open-Source-Lösungen gesucht

[10.03.2026] Zum zweiten Mal findet der bundesweite Wettbewerb für erfolgreiche Open-Source-Lösungen aus der öffentlichen Verwaltung statt. Behörden und öffentliche Stellen aller föderalen Ebenen können sich bis Ende Juni bewerben, die Preisverleihung erfolgt im Rahmen der Smart Country Convention. mehr...

Hessen: BAföG digital beantragen

[09.03.2026] In Hessen kann BAföG nicht nur digital beantragt werden, auch der Förderbescheid wird künftig online zugestellt. Das Bundesland ist somit das erste mit einem kompletten BAföG-Digitalpaket. mehr...

Bundesverkehrsminister Patrick Schnieder (links) präsentiert den geteilten Fahrzeugschein

BMV: iKfz-App für Unternehmen nutzbar

[06.03.2026] Der digitale Fahrzeugschein lässt sich jetzt auch per QR-Code in die iKfz-App übertragen. Das bietet insbesondere Unternehmen, Handwerksbetrieben, Dienstleistern und Fuhrparkbetreibern neue Möglichkeiten. mehr...

Papierkorb mit zusammengeknülten Papieren, im Hintergrund unscharf ein Fax-Gerät

Nationaler Normenkontrollrat: 81 Vorschläge für weniger Bürokratie

[02.03.2026] Mit inzwischen zwölf Zielen und zahlreichen konkreten Vorschlägen erweitert der NKR sein Maßnahmenpaket zum Bürokratieabbau. Im Fokus stehen ein effizienterer Verwaltungsvollzug und Entlastungen für KMU – etwa durch schnellere Planungs- und Genehmigungsverfahren oder ein vereinfachtes Vergaberecht. mehr...

Zwei Personen stehen vor einem Fenster und präsentieren etwas. Im Vordergrund sitzen einige Personen schauen sie an und hören zu.

DigitalService: Work4Germany geht in die nächste Runde

[27.02.2026] Für den Herbstdurchgang des Fellowship-Programms Work4Germany beginnt am 2. März die Bewerbungsphase. Der DigitalService des Bundes bringt Fachleute als Fellows in die Bundesverwaltung, wo sie Referate in Projekt-, Produkt- sowie Team- und Organisationsentwicklung unterstützen. mehr...

Hand hält Smartphone, darauf das Logo der BeihilfeNRW-App

Nordrhein-Westfalen: Der Beihilfebescheid kommt per App

[26.02.2026] Die rund 645.000 Beihilfeberechtigten in Nordrhein-Westfalen können ihre Bescheide ab sofort in digitaler Form erhalten. Möglich wird das durch eine neue Funktion der bereits etablierten BeihilfeNRW-App. Davon profitieren die Antragstellenden wie auch die Beschäftigten der Beihilfestellen. mehr...

Angeschnittenes Bild eines Mannes in weißem Arztkittel, der an einem Tisch in einem hellen Büro auf seinem Laptop tippt.

Baden-Württemberg/Bayern: Software-Landschaft für die Gesundheitsämter

[17.02.2026] Baden-Württemberg und Bayern vereinbaren die Zusammenarbeit zur Entwicklung einer gemeinsamen digitalen Grundlage für den Öffentlichen Gesundheitsdienst. Ziel ist eine einheitliche, bürgerfreundliche Fachanwendungslandschaft. Die Kooperation steht weiteren Ländern und Kommunen offen. mehr...

Porträt von Dr. Benjamin Grimm

Deutschland-Index Digitale Verwaltung 2025: Brandenburg holt auf

[16.02.2026] Der Index Digitale Verwaltung des ÖFIT zeigt: Brandenburg ist im Jahr 2025 der Aufsteiger schlechthin. Punkten kann die Verwaltung insbesondere mit der sehr guten Benutzbarkeit ihres Angebots. Schwachpunkte bleiben die Basiskomponenten und das Angebot an Online-Verwaltungsleistungen. mehr...

Einige braune Kartonhefter mit einem Plastikkugelschreiber.

Low Code/No Code: Digitalisierung von innen

[13.02.2026] Es ist eine Mammutaufgabe, die Verwaltung einer großen Organisation zu digitalisieren. Das gilt auch für die Bundeswehr, die zudem vor zahlreichen weiteren Herausforderungen steht. Die Digitalisierung in Teilen in die Hände kleinerer Einheiten oder Teams zu geben, kann zu erheblichen Effizienzgewinnen führen. mehr...

Montage: ein aufgeklappter Laptop, er Monitor enthält Karteischubladen, eine davon ist ausgezogen und ragt aus dem Bildschirm heraus.

Niedersachsen: Wie brauchbar sind Registerdaten?

[12.02.2026] Geht es um die Registermodernisierung, stehen vor allem technische Aspekte wie die Datenaustauschplattform NOOTS im Fokus. Ein Pilotprojekt in Niedersachsen hat nun die Qualität der Registerdaten selbst untersucht und gleichzeitig gezeigt, wie diese automatisiert verbessert werden kann. mehr...

Junger Mann it Laptop auf seinem ofa, im Hintergrund Buchregale

Nordrhein-Westfalen: BAföG-Fachverfahren fürs ganze Land

[30.01.2026] In Nordrhein-Westfalen wird das Gros der Anträge auf BAföG und Aufstiegs-BAföG per Post oder E-Mail eingereicht. Nun soll ein neues Fachverfahren eingeführt werden – landesweit. Den Auftrag erhielt die Firma Datagroup. mehr...

Zeichnung von vier Händen, die je ein Puzzleteil hält, die zusammengeführt werden. Daneben steht ÖFIT-Wegbereiter geschrieben.

ÖFIT-Wegbereiter-Reihe: Kompetenzaufbau in der Verwaltungspraxis

[30.01.2026] Als niedrigschwellige, anwendungsorientierte Lern- und Arbeitsinstrumente sollen die ÖFIT-Wegbereiter die interdisziplinäre Bearbeitung von Digitalisierungsprojekten in der öffentlichen Verwaltung unterstützen. Die Reihe umfasst derzeit vier Ausgaben unter anderem zu den Themen Low Code, generative Künstliche Intelligenz und Digitale Souveränität. mehr...

Normenkontrollrat BW: Tätigkeitsbericht 2025 übergeben

[27.01.2026] Der Normenkontrollrat Baden-Württemberg hat seinen zweiten Tätigkeitsbericht vorgelegt. Das Gremium fordert ein Umdenken in der Gesetzgebung, mehr Freiräume für flexible Lösungen vor Ort und entschlossene Schritte zum Bürokratieabbau. mehr...