Generative KI:
Trainingsdaten in Form bringen


[28.8.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen. (sib)

https://aparavi.com/de

Stichwörter: Panorama, Aparavi, KI, Künstliche Intelligenz

Bildquelle: 123rf.com/peshkova

Druckversion    PDF     Link mailen



Weitere Meldungen und Beiträge aus dem Bereich Panorama
Berlin: Zentraler Kompetenzpool für Open Source
[16.11.2023] Um die digitale Souveränität der Berliner Verwaltung zu stärken, wurde in der Bundeshauptstadt jetzt ein neues Open-Source-Kompetenzzentrum offiziell eröffnet. Der weitere Aufbau soll in den kommenden Monaten erfolgen. mehr...
Berlins CDO Martina Klement (l.) und die stellvertretende ITDZ-Vorständin Anne Lolas bei der offiziellen Einweihung des Berliner Open-Source-Kompetenzzentrums.
BMI: Nutzungsdaten von Online-Services
[13.11.2023] Online-Verwaltungsleistungen müssen nutzerfreundlich sein, um tatsächlich erfolgreich zu sein. Ein Indikator der Nutzungsfreundlichkeit ist die Nutzungshäufigkeit einzelner Dienste. Das nun lancierte Auswertungstool Zentrale Statistik-Komponente erfasst diese systematisch. mehr...
Beispiel einer Auswertung der Nutzungszahlen von Online-Services über die Zentrale Statistik-Komponente (ZSK).
eGovernment Monitor 2023: Die digitale Nutzungslücke bleibt groß
[17.10.2023] Die digitale Verwaltungstransformation geht voran, doch bei den Menschen im Land kommt davon wenig an. Eine Ursache: Hebelprojekte wie digitale Identitäten erzielen nicht den notwendigen Erfolg. Das zeigt der eGovernment Monitor 2023 der Initiative D21 und der TU München. mehr...
Die digitale Verwaltungstransformation geht voran, doch Bürgerinnen und Bürger nutzen digitale Angebote (zu) wenig – dies zeigt der eGovernment Monitor 2023.
HS Bund: Erster DACS-Jahrgang diplomiert
[6.10.2023] Seit drei Jahren büffelt der erste Jahrgang des hochspezialisierten Studiengangs Digital Administration und Cyber Security – nun verabschiedet die HS Bund die Absolventinnen und Absolventen. Das BSI begrüßt die jungen Cyber-Sicherheitsexperten in seinen Reihen. mehr...
CGI: Digitales Einzelfragerecht im Bundestag
[5.10.2023] Das Fragerecht ist ein wichtiges parlamentarisches Kontrollinstrument im Bundestag. Dieser Prozess wurde digitalisiert: Die vom Unternehmen CGI entwickelte Open-Source-Lösung für schriftliche und mündliche Einzelfragen ist komplett in den Regelbetrieb gegangen. mehr...
Suchen...
Aktuelle Meldungen