Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Composit: Hände halten ein Tablet, darüber schwebt ein 2D-Objekt mit den Umrissen und Farben von Deutschland, überlagert von einem gezeichneten Netzwerk.

Bitkom Länderindex 2026: Hamburg führt, Saarland holt auf

[12.05.2026] Der Digitalverband Bitkom hat die Bundesländer erneut nach ihrem Stand bei der Digitalisierung verglichen. Hamburg bleibt klar an der Spitze, Hessen rückt auf Platz drei vor. Besonders deutlich verbessert sich das Saarland, während ostdeutsche Länder bei digitaler Bildung stark abschneiden. mehr...

Screenshot der Social Wall des LGL

LGL Baden-Württemberg: Social Wall für Social Media

[06.05.2026] Das baden-württembergische Landesamt für Geoinformation und Landentwicklung informiert auch in sozialen Medien über seine Arbeit – und bündelt diese Einträge seit Kurzem nutzer- und datenschutzfreundlich auf der eigenen Website. Zum Einsatz kommt die Social-Wall-Lösung Stage. mehr...

Telefonierende Frau in einem Büro

115: Behördennummer ab jetzt deutschlandweit

[05.05.2026] Die Behördennummer 115 ist seit Ende April in allen Bundesländern erreichbar. Mit der Freischaltung in Bayern ist der telefonische Zugang zu Verwaltungsinformationen bundesweit verfügbar; der konkrete Serviceumfang unterscheidet sich jedoch je nach Land und Kommune. mehr...

Torsi von Männern an einem Schreibtisch, darüber als Overlay Gebäudekonturen

Nordrhein-Westfalen: Führend beim Einsatz von BIM

[30.04.2026] Nordrhein-Westfalen nimmt im Bereich des BIM-basierten Bauantrags bundesweit eine Vorreiterrolle ein. Das zeigt eine Studie der Ruhr-Universität Bochum, die dafür Bauvorhaben in mehreren Kommunen unter realen Bedingungen untersucht hat. mehr...

Blick in eine Berliner Straßenflucht, im Hintergrund der Fernsehturm.

Berlin: Mehr Innovation in der Verwaltung

[27.04.2026] GovTech Deutschland erhält einen weiteren Satelliten: GovTech Berlin soll künftig die Bedarfe der Berliner Behörden bündeln und sie gemeinsam mit GovTech Deutschland in konkrete Lösungen übersetzen. mehr...

In blaues Licht getaquchter Raum, Person am Monitor, flankiert von Mann und Frau in förmlicher Kleidung
bericht

Berlin: Unruhe beim ITDZ

[24.04.2026] Im März hat Matthias Hundt die Rolle des Berliner CDO übernommen, jetzt wurde er auch zum Aufsichtsratsvorsitzenden des ITDZ Berlin berufen. Gleichzeitig zeichnet sich eine engere Steuerung des IT-Landesbetriebs durch die Senatskanzlei ab. Hintergrund sind anscheinend anhaltende finanzielle Herausforderungen. mehr...

Darstellung der App-Startseite auf einem Tablet.

Nordrhein-Westfalen: Besser gegen Wasser geschützt

[23.04.2026] Das Land NRW stellt eine App bereit, die Eigentümerinnen und Eigentümer von Immobilien darin unterstützt, Gefährdungen durch Starkregen oder Hochwasser einzuschätzen. Mit der nächsten Ausbaustufe werden nun auch Schutzmaßnahmen direkt am Gebäude sichtbar und umsetzbar. mehr...

Building Information Modeling: Im Straßenbau wird digital zur Regel

[22.04.2026] Projekte im Bereich der Bundesfernstraßen sollen ab sofort nach 
einheitlichen digitalen Standards geplant, gebaut und betrieben werden. Die Methode Building Information Modeling (BIM) wird damit nach erfolgreichen Pilotprojekten künftig zum Regelprozess. mehr...

Ein Laptop, dessen Monitor die Startseite der Servicestandard-Website zeigt.

DigitalService des Bundes: Hotline für den Servicestandard

[16.04.2026] Nutzerfreundliche digitale Verwaltungsleistungen steigern die Zufriedenheit von Bürgern und Unternehmen, parallel entlasten sie die Verwaltung. Der Servicestandard hilft bei der Umsetzung. Eine Hotline liefert nun individuelle Unterstützung bei Fragen rund um diesen Kriterienkatalog. mehr...

Porträt Leonhard Kugler

ZenDiS: Wechsel an der Spitze

[16.04.2026] Beim Zentrum für Digitale Souveränität der Öffentlichen Verwaltung wechselt die Geschäftsführung: Leonhard Kugler übernimmt und folgt auf Alexander Pockrandt. Mit dem Wechsel soll die Aktivierung des Open-Source-Ökosystems stärker in den Fokus rücken. mehr...

Überwachung des Imports und Exports von Containern, Kontrolle von Handelscontainern.

Zoll/ITZBund: Anwendung zur Zentralen Zollabwicklung

[10.04.2026] Zoll und ITZBund haben eine neue Version des Zollsystems ATLAS in Betrieb genommen. Mit ATLAS-CCI startet eine zentrale Zollabwicklung für Einfuhren, die grenzüberschreitende Verfahren ermöglicht. Unternehmen können sich nun auf die zertifizierungspflichtige Nutzung vorbereiten. mehr...

Hand mit Euronoten vor blauem Hintergrund

Nordrhein-Westfalen: Digital zum Mittelabruf

[08.04.2026] Das Land Nordrhein-Westfalen hat ein umfangreiches Infrastruktur- und Investitionsprogramm für Kommunen auf den Weg gebracht. Der Antragsweg für die Kommunen sollte dabei möglichst glatt verlaufen: Über ein Portal können sie über ein rein digitales Verfahren auf die Mittel zugreifen. mehr...

Nahaufnahme von Aktenstapeln und Papieren auf einer Tischplatte in einem Büro.

ÖFIT: Wege zur wirksamen Verwaltung

[24.03.2026] Personalmangel und Bürokratielasten führen zum Eindruck einer überforderten Verwaltung. Eine aktuelle Studie des ÖFIT zeigt, wie innerhalb des Verwaltungssystems die Hebel für eine erfolgreiche Staatsmodernisierung umgelegt werden können – durch strikte Outcome-orientierte Handlungsleitung und pragmatische Ansätze. mehr...

Mehrere Personen sitzen offenbar miteinander redend um einen Tisch herum, dieser ist mit gelben Zetteln bedeckt.

BMDS: Kriterien für gute Servicequalität

[17.03.2026] Im Februar haben Menschen aus ganz Deutschland in mehreren Bürgerwerkstätten erarbeitet, was für sie einen guten Verwaltungsservice ausmacht. Die Ergebnisse will das BMDS nun weiter validieren, um ein Audit-Tool für die Servicequalität von Bundesleistungen zu entwickeln. mehr...

Laptop auf einem niedrigen Tisch in warmen Licht, Händet tippen darauf.

Hessen: Quick-Check Bauantrag gestartet

[16.03.2026] Das Land Hessen hat ein einfaches digitales Angebot geschaffen, mit dem Bürgerinnen und Bürger schnell prüfen können, ob für ihr Bauvorhaben ein Bauantrag erforderlich ist. Das spart Zeit, schafft Klarheit und entlastet auch die Behörden. mehr...