Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Wappen mit Aufschrift „Polizei“ auf Uniformärmel genäht. Im Hintergrund ein Schild „Bundesrepublik Deutschland“.

Bundespolizei: Personalverwaltung mit PVSplus

[12.06.2025] Seit Juni 2025 nutzt die gesamte Bundespolizei mit rund 55.000 Beschäftigten das Personalverwaltungssystem PVSplus. Es ist die bislang größte angebundene Behörde im Rahmen des vom ITZBund verantworteten Roll-outs des Verfahrens. mehr...

Mann mit Strohhut und Tablet in der Hand kniet zwischen junger Gerste und untersucht eine der Ähren.

Baden-Württemberg: Leichter Zugang zu Agrar-Fachverfahren

[11.06.2025] Landwirtinnen und Landwirte in Baden-Württemberg können ab sofort über ein zentrales Landwirtschaftsportal auf die benötigten digitalen Fachanwendungen zugreifen. Insbesondere das Single-Sign-On verspricht mehr Bedienkomfort. mehr...

ZIA-Präsidentin Iris Schöberl, Ministerin Nicole Razavi und die Juryvorsitzende Barbara Ettinger-Brinckmann bei der ZIA-Preisvergabe.

Baden-Württemberg: Auszeichnung für digitale Baugenehmigung

[10.06.2025] Baden-Württemberg ist vom Zentralen Immobilien Ausschuss für die Digitalisierung der Baugenehmigungsverfahren im Land ausgezeichnet worden. Die Jury würdigte vor allem den Vorbildcharakter der baden-württembergischen Landesbauordnung. mehr...

Hoher Stapel von Aktenmappen, dahinter ist unscharf ein Laptop zu erkennen.

BMWE: Innovation ohne Bürokratie

[10.06.2025] Das BMWE hat das Innovationsförderprogramm INNO-KOM modernisiert. Seit Juni 2025 läuft die gesamte Antragstellung digital. Zudem können frühere Unterlagen referenziert werden. Insgesamt werden so Forschungseinrichtungen entlastet und Kooperationen mit dem Mittelstand gefördert. mehr...

IT-Planungsrat/FITKO: Was macht das Föderale IT-Architekturboard?

[04.06.2025] Das Föderale IT-Architekturboard macht zentrale Informationen zu Projekten, Beschlüssen und Sitzungen erstmals öffentlich zugänglich. Das Gremium berät seit 2021 den IT-Planungsrat bei strategischen Fragen der föderalen IT-Architektur. mehr...

Gesetzgebung: Digitalcheck wird erweitert

[03.06.2025] Öffentliche Stellen müssen nach EU-Recht für grenzüberschreitende digitale Verwaltungsdienste eine Interoperabilitätsbewertung durchführen. Deren Umsetzung wird nun in den Digitalcheck für Gesetze des Bundes integriert, zur Unterstützung wird die Nationale Kontaktstelle aufgebaut. mehr...

Composite: eine menschliche Hand vor einem hellen Hintergrund mit türkisfarbenen, abstrakten Strukturen, die Hand berührt ein 6_eck auf dem das Wort "Data" steht.

IT-Planungsrat: Bessere Datennutzung in der Verwaltung

[02.06.2025] Der IT-Planungsrat hat erste Ergebnisse zum Schwerpunktthema Datennutzung veröffentlicht. Seit 2022 arbeiten Bund und Länder daran, datenbasierte Verwaltungsprozesse voranzubringen. Weitere Akteurinnen und Akteure können sich jetzt einbringen. mehr...

Logo ReformExplorer

ÖFIT: Vorschläge zur Verwaltungsreform im Überblick

[02.06.2025] Das Kompetenzzentrum Öffentliche IT und das Unternehmen Agora Digitale Transformation haben den ReformExplorer veröffentlicht. Die interaktive Datenbank bündelt rund 900 Vorschläge und Projekte zur Modernisierung der Verwaltung und zeigt, in welchen Bereichen Ideen eingebracht wurden. mehr...

Gruppenfoto des 115-Verbands.

115: First-Level-Support für Onlinedienste

[28.05.2025] Bei der 115-Teilnehmerkonferenz in Erfurt diskutierten rund 100 Gäste, wie die Behördennummer durch fundierte telefonische Erstinformationen zu Onlinediensten, flächendeckende Erreichbarkeit und KI-gestützten Chatbot-Einsatz weiterentwickelt werden kann. mehr...

Coverillustration der Studie: Mehrere Menschen schieben gemeinsam eine überdimensionierte Karteikarten-Schublade, im Hintergrund ein digitales Anwendungsfenster.

NExT-Studie: Netzwerke und Verwaltungstransformation

[26.05.2025] Netzwerke und Communities of Practice können die Verwaltungstransformation entscheidend voranbringen, wenn die Rahmenbedingungen stimmen. Die neue Studie der Plattform NExT zeigt, worin der Mehrwert liegt, was derzeit bremst und wie sich Vernetzung stärken lässt. mehr...

Symbolbild Schriftformerfordernis: Silberner Kugelschreiber liegt auf einem Notizbuch, vom Lesebändchen umwickelt.

Baden-Württemberg: Ade, Schriftform

[26.05.2025] Nach einem ressortübergreifenden Normenscreening plant das Innenministerium Baden-Württemberg ein Gesetz zum Abbau über 200 verzichtbarer Schriftformerfordernisse. Künftig sollen in vielen Fällen elektronische Erklärungen ausreichen. mehr...

115: Bundesweites Erfolgsprojekt

[22.05.2025] Die Behördennummer 115 ist ein bürgernahes Erfolgsprojekt. Das sagte Thüringens Digitalminister Steffen Schütz im Rahmen der 10. bundesweiten Teilnehmerkonferenz des 115-Verbunds in Erfurt. Das Gastgeberland Thüringen fungiert auch als landesweiter Pilot für den neu konzipierten 115-Chatbot. mehr...

Mecklenburg-Vorpommern: Neue Spitze der Abteilung Digitalisierung

[14.05.2025] Die Landesregierung Mecklenburg-Vorpommern stellt die Weichen für die digitale Zukunft: Marco Anschütz übernimmt ab sofort die Leitung der Abteilung Digitalisierung im Ministerium für Inneres, Bau und Digitalisierung. mehr...

Thüringen: Erster GovTech Campus für Mitteldeutschland

[13.05.2025] Der GovTech Campus Deutschland und das Thüringer Ministerium für Digitales und Infrastruktur haben einen Satelliten des GovTech-Ökosystems im Freistaat gegründet. Dessen Arbeitsschwerpunkte sollen auf der praxis- und digitaltauglichen Gesetzgebung und dem KI-Einsatz liegen. mehr...

Zwei Männer in dunklen Anzügen stehen in einem hell erleuchteten, kahlen Flur.

ITZBund: Besuch des Digitalministers

[13.05.2025] Drei Tage nach dem Start des neu gebildeten Bundesministeriums für Digitales und Staatsmodernisierung besuchten der Bundesminister für Digitales und zwei seiner Staatssekretäre den IT-Dienstleister des Bundes an dessen Bonner Hauptsitz. mehr...