Generative KITrainingsdaten in Form bringen

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.
(Bildquelle: 123rf.com/peshkova)
Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.
Sensible Daten aussieben
Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.
Entwicklungszeiten abkürzen
Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.
Bundespolizei: Personalverwaltung mit PVSplus
[12.06.2025] Seit Juni 2025 nutzt die gesamte Bundespolizei mit rund 55.000 Beschäftigten das Personalverwaltungssystem PVSplus. Es ist die bislang größte angebundene Behörde im Rahmen des vom ITZBund verantworteten Roll-outs des Verfahrens. mehr...
Baden-Württemberg: Leichter Zugang zu Agrar-Fachverfahren
[11.06.2025] Landwirtinnen und Landwirte in Baden-Württemberg können ab sofort über ein zentrales Landwirtschaftsportal auf die benötigten digitalen Fachanwendungen zugreifen. Insbesondere das Single-Sign-On verspricht mehr Bedienkomfort. mehr...
Baden-Württemberg: Auszeichnung für digitale Baugenehmigung
[10.06.2025] Baden-Württemberg ist vom Zentralen Immobilien Ausschuss für die Digitalisierung der Baugenehmigungsverfahren im Land ausgezeichnet worden. Die Jury würdigte vor allem den Vorbildcharakter der baden-württembergischen Landesbauordnung. mehr...
BMWE: Innovation ohne Bürokratie
[10.06.2025] Das BMWE hat das Innovationsförderprogramm INNO-KOM modernisiert. Seit Juni 2025 läuft die gesamte Antragstellung digital. Zudem können frühere Unterlagen referenziert werden. Insgesamt werden so Forschungseinrichtungen entlastet und Kooperationen mit dem Mittelstand gefördert. mehr...
IT-Planungsrat/FITKO: Was macht das Föderale IT-Architekturboard?
[04.06.2025] Das Föderale IT-Architekturboard macht zentrale Informationen zu Projekten, Beschlüssen und Sitzungen erstmals öffentlich zugänglich. Das Gremium berät seit 2021 den IT-Planungsrat bei strategischen Fragen der föderalen IT-Architektur. mehr...
Gesetzgebung: Digitalcheck wird erweitert
[03.06.2025] Öffentliche Stellen müssen nach EU-Recht für grenzüberschreitende digitale Verwaltungsdienste eine Interoperabilitätsbewertung durchführen. Deren Umsetzung wird nun in den Digitalcheck für Gesetze des Bundes integriert, zur Unterstützung wird die Nationale Kontaktstelle aufgebaut. mehr...
IT-Planungsrat: Bessere Datennutzung in der Verwaltung
[02.06.2025] Der IT-Planungsrat hat erste Ergebnisse zum Schwerpunktthema Datennutzung veröffentlicht. Seit 2022 arbeiten Bund und Länder daran, datenbasierte Verwaltungsprozesse voranzubringen. Weitere Akteurinnen und Akteure können sich jetzt einbringen. mehr...
ÖFIT: Vorschläge zur Verwaltungsreform im Überblick
[02.06.2025] Das Kompetenzzentrum Öffentliche IT und das Unternehmen Agora Digitale Transformation haben den ReformExplorer veröffentlicht. Die interaktive Datenbank bündelt rund 900 Vorschläge und Projekte zur Modernisierung der Verwaltung und zeigt, in welchen Bereichen Ideen eingebracht wurden. mehr...
115: First-Level-Support für Onlinedienste
[28.05.2025] Bei der 115-Teilnehmerkonferenz in Erfurt diskutierten rund 100 Gäste, wie die Behördennummer durch fundierte telefonische Erstinformationen zu Onlinediensten, flächendeckende Erreichbarkeit und KI-gestützten Chatbot-Einsatz weiterentwickelt werden kann. mehr...
NExT-Studie: Netzwerke und Verwaltungstransformation
[26.05.2025] Netzwerke und Communities of Practice können die Verwaltungstransformation entscheidend voranbringen, wenn die Rahmenbedingungen stimmen. Die neue Studie der Plattform NExT zeigt, worin der Mehrwert liegt, was derzeit bremst und wie sich Vernetzung stärken lässt. mehr...
Baden-Württemberg: Ade, Schriftform
[26.05.2025] Nach einem ressortübergreifenden Normenscreening plant das Innenministerium Baden-Württemberg ein Gesetz zum Abbau über 200 verzichtbarer Schriftformerfordernisse. Künftig sollen in vielen Fällen elektronische Erklärungen ausreichen. mehr...
115: Bundesweites Erfolgsprojekt
[22.05.2025] Die Behördennummer 115 ist ein bürgernahes Erfolgsprojekt. Das sagte Thüringens Digitalminister Steffen Schütz im Rahmen der 10. bundesweiten Teilnehmerkonferenz des 115-Verbunds in Erfurt. Das Gastgeberland Thüringen fungiert auch als landesweiter Pilot für den neu konzipierten 115-Chatbot. mehr...
Mecklenburg-Vorpommern: Neue Spitze der Abteilung Digitalisierung
[14.05.2025] Die Landesregierung Mecklenburg-Vorpommern stellt die Weichen für die digitale Zukunft: Marco Anschütz übernimmt ab sofort die Leitung der Abteilung Digitalisierung im Ministerium für Inneres, Bau und Digitalisierung. mehr...
Thüringen: Erster GovTech Campus für Mitteldeutschland
[13.05.2025] Der GovTech Campus Deutschland und das Thüringer Ministerium für Digitales und Infrastruktur haben einen Satelliten des GovTech-Ökosystems im Freistaat gegründet. Dessen Arbeitsschwerpunkte sollen auf der praxis- und digitaltauglichen Gesetzgebung und dem KI-Einsatz liegen. mehr...
ITZBund: Besuch des Digitalministers
[13.05.2025] Drei Tage nach dem Start des neu gebildeten Bundesministeriums für Digitales und Staatsmodernisierung besuchten der Bundesminister für Digitales und zwei seiner Staatssekretäre den IT-Dienstleister des Bundes an dessen Bonner Hauptsitz. mehr...