Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Blick auf zwei aufgeschlagene Seiten des eGovernment-Monitors 2025, headline: "Leistungsfähigkeit des Staates"

eGovernment Monitor 2025: Staatsvertrauen zurückgewinnen

[23.09.2025] Die Initiative D21 hat den neuen eGovernment Monitor vorgestellt. Er zeigt: Digitale Verwaltungsleistungen werden noch immer ungern genutzt. Doch gerade gelungene Digitalisierung im Behördenkontakt kann Vertrauen in Staat und Demokratie stärken. mehr...

eGovernment-Wettbewerb 2025: Die Gewinner stehen fest

[22.09.2025] Die Preisträgerinnen und Preisträger des 24. eGovernment-Wettbewerbs stehen fest. Die ausgezeichneten Projekte wollen konkrete Antworten auf Herausforderungen des Verwaltungsumbaus geben – mit KI, der Digitalisierung von Prozessen und durch bessere Bürgerservices. mehr...

Composite: eine menschliche Hand vor einem hellen Hintergrund mit türkisfarbenen, abstrakten Strukturen, die Hand berührt ein 6_eck auf dem das Wort "Data" steht.

EU Data Act: Umsetzungshilfen für Unternehmen

[17.09.2025] Seit vergangener Woche gilt der EU Data Act. Doch die Bundesregierung hat weder Aufsichtsstrukturen noch Verfahren festgelegt – Unternehmen stehen vor Unsicherheiten. Erste Praxishilfen bieten der Bitkom und die Bundesnetzagentur mit eigenen Infoangeboten. mehr...


Sachsen-Anhalt: KommunalCampus gewinnt Innovationswettbewerb

[15.09.2025] Im Rahmen des CIO-Innovationswettbewerbs sollen in Sachsen-Anhalt digitale und technologische Innovationen für die Landesverwaltung identifiziert und nutzbar gemacht werden. Gewinnerin dieses Jahres ist die Genossenschaft KommunalCampus. mehr...

Miniaturfiguren von Bauarbeitern stehen auf einem Motherboard und "arbeiten".

NExT/DigitalService: Umsetzungserfahrungen teilen

[05.09.2025] In einem neuen Projekt bündeln NExT und DigitalService Umsetzungsexpertise aus der Verwaltung und machen sie für Politik und Öffentlichkeit sichtbar. So soll die Möglichkeit eröffnet werden, von Best Practices und von Umsetzungshindernissen zu lernen – im Sinne einer Fehlerkultur für die Verwaltungstransformation. mehr...

OSBA/ZenDIS: Open-Source-Wettbewerb sucht Publikumsliebling

[01.09.2025] Wie kann Open Source die Verwaltung effizienter machen? Ein neuer Wettbewerb unter dem Motto „Moderne Verwaltung. Innovation. Digitale Souveränität“ sucht die besten Lösungen. Im Oktober soll auch ein Publikumspreis verliehen werden. Das öffentliche Voting startet jetzt. mehr...

Schleswig-Holstein: Steuerbelege digital einreichen

[29.08.2025] Schleswig-Holstein macht den nächsten Schritt in der Digitalisierung von Steuererklärungen. Das Verfahren RABE erlaubt es, Belege zusammen mit der digitalen Steuererklärung hochzuladen. So entfallen etwaige Anforderungen durch das Finanzamt und der Postversand von Papierbelegen. mehr...

Screenshot aus der Antragsstrecke, hier die Version in englischer Sprache

Bayern/cit: Schnell zur Bildungsanerkennung

[13.08.2025] Mit dem Fachkräftemangel steigt der Anteil ausländischer Pflegekräfte im deutschen Gesundheitssystem. Deren Bildungsabschlüsse müssen zunächst formal anerkannt werden. Bayern nutzt eine Low-Code-Lösung, die dieses Verfahren beschleunigt – und wurde nun dafür ausgezeichnet. mehr...

Landwirtin steht auf einem erntereifen Getreidefeld und schaut auf ihr Handy, im Hintergrund ein Mähdrescher.

Sachsen-Anhalt: Digitaler Fortschritt für den Acker

[12.08.2025] In Groß Germersleben in Sachsen-Anhalt ging eine neue digitale Wetterstation in Betrieb. Sie ist Teil eines erweiterten Messnetzes, das Landwirten präzisere Daten für Planung, Pflanzenschutz, Bewässerung und Ernte liefert. mehr...

Personen in Bundeswehruniformen sitzen in einem Büro vor einem Computermonitor.

Fraunhofer FOKUS: Einheitliche Lernumgebung für die Bundeswehr

[07.08.2025] Mit der „Virtuellen Lernumgebung der Bundeswehr“ sollen alle Ausbildungseinrichtungen in ein gemeinsames digitales Ökosystem integriert werden. Fraunhofer FOKUS unterstützt das Projekt seit 2022 mit einer Middleware, die Dienste, Datenflüsse und Zugriffsrechte steuert. mehr...

Frauenhände an einem Laptop mit einem Overlay aus Binärcode.

München/Schleswig-Holstein: Gemeinsam für gute Nutzererlebnisse

[31.07.2025] Im Projekt KERN setzen München und Verwaltungscloud.SH künftig gemeinsam Impulse: Sie übernehmen die Federführung für eine neue Technologieanbindung und stärken so die Entwicklung eines länderübergreifenden UX-Standards für die Verwaltung. mehr...

Weinberge und Neckar bei Stuttgart-Mühlhausen

Baden-Württemberg: Rebflächen-Förderung mit FIONA

[29.07.2025] Weinbauern in Baden-Württemberg, die Fördermittel für die Umstrukturierung und Umstellung von Rebflächen beantragen wollen, steht dazu ab sofort ausschließlich der digitale Weg über das Portal FIONA zur Verfügung. mehr...

Panzepr mit Tarnfleck-Muster fährt über ein Feld.

Bundeswehr/Bitkom: Beschaffung in der digitalen Welt

[28.07.2025] Mit dem Beschluss des Bundeswehr-Planungs- und Beschaffungsbeschleunigungsgesetzes will die Bundesregierung die langwierigen Vergabeverfahren reformieren. Der Digitalverband Bitkom spricht von einem notwendigen Kurswechsel hin zu mehr Digitalisierung und Innovationsfähigkeit in der Verteidigung. mehr...

Eine Reihe von Lkws, die an einer Autobahnraststätte parken

BMV: Datendienst erleichtert Parkplatzsuche

[24.07.2025] Ein neuer Stellplatzinformationsdienst (SID) soll die Parkplatzsuche für Lkw-Fahrerinnen und -Fahrer in Deutschland künftig deutlich vereinfachen. Das System liefert Echtzeitdaten zur Belegung von Lkw-Stellplätzen auf Autobahn-Rastanlagen – direkt aus dem Mautsystem in die Mobilithek des Bundes. mehr...

Das Bild zeigt Minister Manfred Pentz.

Hessen: Ein Jahr Bürokratie-Melder

[21.07.2025] Seit einem Jahr ist in Hessen der erste Bürokratie-Melder Deutschlands online. Entbürokratisierungsminister Manfred Pentz zog eine positive Bilanz: Bürgerinnen und Bürger nutzen den Bürokratie-Melder aktiv und konstruktiv. Viele Meldungen sind in das kürzlich beschlossene Bürokratieabbaugesetz eingeflossen. mehr...