Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Größere Menge von blauen, runden Aufklebern mit der Aufschrift "Servicestandard hilft", die auf einer weißen Tischplatte liegen.

Standardisierung: Standardverordnung Onlinezugang praktisch umsetzen

[12.12.2025] Im Juni hat der IT-Planungsrat die Standardverordnung Onlinezugang beschlossen, die im Oktober in Kraft getreten ist. Damit werden verbindliche Qualitätsanforderungen formuliert, die die Verwaltung mit ihren digitalen Angeboten einhalten muss. DIN SPEC 66336 und der Servicestandard helfen, diese Vorgaben umzusetzen. mehr...

Person mit Laptop auf dem Sofa

Bitkom-Befragung: Digitalpolitik ist den Deutschen wichtig

[02.12.2025] Eine neue Bitkom-Befragung zeigt: Die meisten Menschen wollen endlich einfache Online-Behördengänge. Auch Datenschutz, digitale Teilhabe und mehr Sicherheit im Netz zählen zu den wichtigsten Anliegen. Digitalpolitik ist für viele von großer Bedeutung. mehr...

Gruppenfoto mit sechs Personen

Gesetzgebung: Praxisaustausch zum Digitalcheck

[01.12.2025] Im November fand zum zweiten Mal das Bund-Länder-Treffen zum Digitalcheck statt, auch Vertreterinnen und Vertreter der Europäischen Kommission waren dabei. Die Teilnehmenden tauschten sich über Erfahrungen und Chancen praxis- und digitaltauglicher Gesetzgebung aus. mehr...

Gruppenfoto der Mitglieder des Kompetenzteams Datenschutz des IT-Planungsrats.

IT-Planungsrat: Klausur des Kompetenzteams Datenschutz

[19.11.2025] Das Kompetenzteam Datenschutz – eines von drei Arbeitsformaten innerhalb des vom IT-Planungsrat strategisch vorangetriebenen Schwerpunkts Datennutzung – traf sich in Hamburg, um die Weichen für das Jahr 2026 zu stellen. mehr...

Karsten Wildberger am Messestand der eWA.

BMDS: Digitale Wohnsitzanmeldung als Erfolgsmodell

[18.11.2025] Rund 55 Millionen Bundesbürger haben Zugriff auf den Onlinedienst „elektronische Wohnsitzanmeldung“, um sich nach einem Umzug ohne Amtsbesuch umzumelden. Das BMDS sieht dies als Beleg, dass „Einer für Alle“ die beste Lösung für schnelle Flächendeckung ist. mehr...

Rauchende Schornsteine auf einem Hausdach vor blauem Himmel

Bayern: Kehrbuchdaten digital abrufen

[17.11.2025] Die sogenannten Kehrbuchdaten – Aufzeichnungen des Schornsteinfegers über seine Tätigkeiten in einem bestimmten Gebiet – können bayerische Kommunen künftig digital und an zentraler Stelle abrufen. mehr...

Bundesverkehrsminister Patrick Schnieder (li.) und Bundesdigitalminister Karsten Wildberger vor einer Werbewand für die neue App.

BMV: Nie mehr den Kfz-Schein suchen

[11.11.2025] Mit der neuen i-Kfz-App erreicht die Digitalisierung von fahrer- und fahrzeugbezogenen Papieren eine weitere Etappe: Bürgerinnen und Bürger können ihren Fahrzeugschein nun digital auf dem Smartphone mitführen – rechtlich anerkannt und jederzeit abrufbar. mehr...

Wehende Brandenburg-Flagge mit dem Landeswappen, das einen Adler zeigt.

Brandenburg: Neuer Standort für die DigitalAgentur

[10.11.2025] Die DigitalAgentur Brandenburg spielt eine zentrale Rolle bei der Digitalisierung des Landes – und ist ein wichtiges Bindeglied zwischen Ressorts, Landesverwaltung, Kommunen und externen Partnern. Nun hat sie ihren neuen Standort in Babelsberg bezogen. mehr...

Hände und Torso einer mutmaßlich weiblichen Person, die mit nachdenklicher Pose ein Smartphone hält.

Thüringen: App für Beratung und mehr Sicherheit

[05.11.2025] Thüringen testet in seiner Erstaufnahmeeinrichtung in Suhl die App Saba, mit der psychosoziale Belastungsfaktoren bei Geflüchteten frühzeitig erkannt werden sollen. Das Modellprojekt will Schutzbedarfe systematisch erfassen und gezielte Hilfe schneller verfügbar machen. mehr...

Schlfendes Baby, im Vordergrund hält eine Hand in Smartphone

Once Only: Entlastung beim Elterngeldantrag

[30.10.2025] Noch in diesem Jahr soll bundesweit eine Lösung zur Verfügung stehen, die Elterngeldstellen den elektronischen Abruf von Einkommensteuerdaten direkt vom zuständigen Finanzamt erlaubt. Entwickelt wurde diese im Rahmen des Verbundprojekts Konsens. mehr...

Durch Hochwasser verschlammter Fußboden in einem Haus, eine Person mit Gummistiefeln macht sauber.

Nordrhein-Westfalen: Innovative Technik für den Hochwasserschutz

[27.10.2025] Durch die Erderwärmung nehmen Starkregen- und Hochwasserereignisse zu. Das Land Nordrhein-Westfalen erprobt in einem Modellvorhaben dichte Sensornetze und Künstliche Intelligenz, um die Wasserstände auch kleinerer Gewässer zu beobachten und zu prognostizieren. mehr...

Hauptsitz des ITZBund in Bonn – Blick aus der starken Froschperspektive auf die ockerfarbene Klinkerfassade und Messingschild mit Bundesadler.

ITZBund: IT-Dienstleister des Bundes mehrfach ausgezeichnet

[27.10.2025] Mehrere renommierte Auszeichnungen würdigen die Arbeit des ITZBund. Für Open-Source-Initiativen, nachhaltige Softwareentwicklung und nutzerfreundliche Weblösungen wurde der IT-Dienstleister auf gleich mehreren Fachveranstaltungen prämiert. mehr...

Alte Frau im Rollstuhl hält die Hand einer Pflegefachkraft

Baden-Württemberg: Digitale Transformation der Pflege

[24.10.2025] Baden-Württemberg will die digitale Transformation der Pflege gezielt vorantreiben. Welche Maßnahmen konkret geplant sind, wurde in einer Erklärung zur Digitalisierung in der Langzeitpflege festgelegt, die gemeinsam mit allen relevanten Akteuren im Land erarbeitet wurde. mehr...

Baden-Württembergs Landes-CIO Stefean Krebs

Baden-Württemberg: Stefan Krebs ist CIO des Jahres 2025

[23.10.2025] Der Chief Information Officer der Landesverwaltung Baden-Württemberg, Stefan Krebs, wurde als „CIO des Jahres“ im Bereich Public Sector ausgezeichnet. Insbesondere bei KI hat die Landesverwaltung in den vergangenen Jahren bedeutende Schritte unternommen. mehr...

Das Fraunhofer FOKUS-Institutsgebäude.

Fraunhofer FOKUS: Impulse für den „Marktplatz der Zukunft“

[23.10.2025] Das Fraunhofer-Institut FOKUS hat eine Studie veröffentlicht, die untersucht, wie EfA-Leistungen flächendeckend bei Kommunen etabliert werden können. Die Studie analysiert bestehende föderale Plattformstrukturen und zeigt, wie diese praxisnah weiterentwickelt werden können. mehr...