Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Das Bild zeigt Jens Koch, den neuen Präsidenten der Bundesanstalt für den Digitalfunk der Behörden und Organisationen mit Sicherheitsaufgaben (BDBOS).

BDBOS: Jens Koch wird neuer Präsident

[01.10.2024] Bundesinnenministerin Nancy Faeser hat Jens Koch zum neuen Präsidenten der Bundesanstalt für den Digitalfunk der Behörden und Organisationen mit Sicherheitsaufgaben (BDBOS) ernannt. Koch gilt als erfahrener Sicherheitsexperte und tritt sein Amt am 1. Oktober 2024 an. mehr...

Ein unscharf dargestellter Mann mit weißem Hemd und grünlicher Krawatte hält zwei Karten vor sich. Auf der linken steht das Wort Procurement, auf der rechten eine symbolische Illustration für "Beschaffung".

BMI/Bitkom: Schnellerer IT-Einkauf für die öffentliche Hand

[01.10.2024] Nach Verhandlungen mit der durch den Bitkom vertretenen IT-Wirtschaft hat die öffentliche Hand alle elf bisherigen Leistungsbereiche der EVB-IT in einer neuen Rahmenvereinbarung vereint. Zudem steht jetzt auch ein digitales Vertragserstellungstool zur Verfügung, was den Zugang zu öffentlichen Ausschreibungen vereinfachen soll. mehr...

Das Bild zeigt eine Hand mit Smartphone, auf dem die Anwendung pmOWI läuft.

Niedersachsen: Digitale Erfassung von Ordnungswidrigkeiten

[27.09.2024] Mit dem Projekt „elektronischer Datenerfassungsbeleg“ (eDEB) startet Niedersachsen die Digitalisierung der Erfassung von Ordnungswidrigkeiten. Polizei und Kommunen sollen von einem vereinfachten und schnelleren Verfahren profitieren, das den klassischen Papierzettel ablöst. mehr...

Bayern: Open-Source-Lösung für Städtebauförderung

[27.09.2024] Seit März 2024 nutzen das Bayerische Staatsministerium für Wohnen, Bau und Verkehr und die Bezirksregierungen das neue IT-Verfahren Städtebauförderung 2.0. Die von adesso entwickelte Open-Source-Webanwendung optimiert die Verwaltung von Förderprojekten und beschleunigt die Bearbeitungsprozesse. mehr...

Der Screenshot zeigt die Startseite des Förderfinders der bayerischen Staatsregierung. Zu sehen ist eine Eingabemaske, die von Dschungelblättern umrahmt ist.

Bayern: Orientierung im Förderdschungel

[26.09.2024] Bayern hat eine Suchmaschine gestartet, die Bürger, Unternehmen und Institutionen schnell durch den Dschungel der Fördermöglichkeiten führt. Der Förderfinder soll die Suche vereinfachen, modernisieren und beschleunigen. mehr...

Das Bild zeigt den Haupteingang des Landesamts für Digitalisierung, Breitband und Vermessung in München.

Bayern: Neuer IT-Standort in Aichach

[24.09.2024] Das Landesamt für Digitalisierung, Breitband und Vermessung schafft 20 neue IT-Arbeitsplätze im Raum Augsburg. Mit dem Ausbau des IT-Dienstleistungszentrums in Aichach will der Freistaat Bayern die digitale Zukunft vorantreiben und dem Fachkräftemangel entgegenwirken. mehr...

BBK-Warnzentrale: Frau von hinten, die auf ein Display mit Deutschlandkarte zeigt

Bitkom-Umfrage: KI im Katastrophenschutz befürwortet

[13.09.2024] Starkregen, Überschwemmungen, Gewitterstürme – eine bessere Vorhersage von Extremwetter und anderen Naturkatastrophen sowie die zuverlässige Information der Bevölkerung wird immer wichtiger. Der Bitkom untersuchte, welche Vorhersagemethoden und welche Alarmierungswege die Bevölkerung bevorzugt. mehr...

Eine große Menschengruppe hat sich zu einem Gruppenfoto aufgestellt.

Forschungsprojekt InGe: Lagebildinstrument für Gewaltvorfälle

[11.09.2024] Beleidigt, bedroht, angegriffen – immer wieder sind öffentlich Beschäftigte in ihrem Berufsalltag physischer und psychischer Gewalt ausgesetzt. Um solche Vorfälle besser zu erfassen und auszuwerten, hat Baden-Württemberg ein softwaregestütztes Instrument entwickelt. Dieses hat die Pilotierung erfolgreich abgeschlossen und soll bald ausgerollt werden. mehr...

BVA: Digitalisierung des Migrationsmanagements

[10.09.2024] Digitalisierungsmaßnahmen im Migrationsmanagement setzt das Bundesverwaltungsamt um. In den Bereichen Visum, Grenze und Aufenthalt sollen Effizienz und Zukunftsfähigkeit der Systeme weiter steigen. mehr...

Blau gestaltete, große Bühne mit der Aufschrift "eGovernment-Wettbewerb 2024", darauf eine größere Menschengruppe.

E-Government-Wettbewerb 2024: Digitale Vorreiter ausgezeichnet

[09.09.2024] Alljährlich – nun schon zum 23. Mal – zeichnen das Beratungsunternehmen BearingPoint und der Technologieanbieter Cisco im Rahmen des E-Government-Wettbewerbs Projekte aus, die technologisch innovativ den öffentlichen Sektor voranbringen. Nun stehen die Gewinnerprojekte der Jury und des Publikumsvotings fest. mehr...

Sachsen-Anhalt: Digitale Immobilienwertermittlung

[04.09.2024] 

Die elektronische Übersendung von Immobilienkaufverträgen hat sich in Sachsen-Anhalt schnell als neue Verfahrensweise etabliert. mehr...

Thüringen: Fahrtenschreiber-Karten online beantragen

[02.09.2024] In Thüringen können ab sofort Werkstatt- und Unternehmenskarten für digitale Fahrtenschreiber online beantragt werden. Diese sind notwendig, um ein solches Gerät einbauen, warten oder auslesen zu können. Der EfA-Dienst wurde von Thüringen entwickelt. mehr...

Junge Frau mit Basecap kniet auf einer Gemüseanbaufläche mit Mulchfolie.

Baden-Württemberg: Äcker, Apps und Beihilfen

[29.08.2024] In Baden-Württemberg trägt eine App dazu bei, Landwirte von aufwendigem „Papierkram“ zu entlasten. Anträge für Förder- und Beihilfeprogramme können mithilfe der App profil (bw) digital beantragt und verwaltet werden. Insbesondere die Nachweiserbringung wird wesentlich erleichtert. mehr...

ZenDiS/B1 Systems: SaaS-Angebot für openDesk

[28.08.2024] Die open-source-basierte Office-Suite für die öffentliche Verwaltung, openDesk, ist bisher nur für den Eigenbetrieb ohne Service und Support zu haben. Das ändert sich nun: Das ZenDiS hat dem IT-Dienstleister B1 Systems den Zuschlag für eine Enterprise Edition erteilt, dazu gehört auch ein SaaS-Angebot. mehr...

Bundesverwaltungsamt: Beihilfe-App kann jetzt E-Rezept

[22.08.2024] Die Beihilfe-App des Bundesverwaltungsamts soll es Beamtinnen und Beamten erleichtern, finanzielle Unterstützung im Krankheits- und Pflegefall zu beantragen. Mit dem letzten Update ist die Anwendung nun auch in der Lage, E-Rezepte unkompliziert zu verarbeiten. mehr...