Generative KITrainingsdaten in Form bringen

[28.08.2023] Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden. Je besser Daten aufbereitet sind, desto effizienter ist die Entwicklung und desto sicherer die spätere KI-Lösung.
Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten

Guter Input ergibt guten Output – diese einfache Regel gilt auch für die Daten, mit denen KI-Anwendungen trainiert werden.

(Bildquelle: 123rf.com/peshkova)

Anwendungen, die Daten mithilfe Künstlicher Intelligenz (KI) oder maschinellem Lernen (ML) verarbeiten, werden derzeit breit diskutiert. Die Debatte konzentriert sich dabei vor allem auf ethische und sicherheitsrelevante Aspekte und damit auf Fragen des richtigen Einsatzes von (generativer) KI. Die Frage nach der Qualität solcher Anwendungen, die wiederum von den Daten abhängt, mit denen die Algorithmen trainiert werden, wird in der öffentlichen Diskussion vernachlässigt. Zu diesem Schluss kommt das Schweizer Data-Intelligence-Unternehmen Aparavi. Aparavi schätzt, dass bis zu 80 Prozent der Daten, die für das KI-Training infrage kommen, unstrukturiert sind. In diesen Beständen verbergen sich nicht nur veraltete Dokumente oder risikobehaftete Daten, sondern auch wichtige und wertvolle Informationen. Solche Datenbestände müssten schon vorab klassifiziert und bereinigt werden.

Sensible Daten aussieben

Eine saubere Data Collection ist für eine sinnvolle, effektive Entwicklung von KI-Apps essenziell. Denn die Qualität des Outputs bei der KI-Entwicklung hängt zwangsläufig von der Qualität des Inputs ab – je gepflegter die Trainingsdaten, desto höher der Anwendungsnutzen. Ideal sind „transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten“, so Aparavi, die auch von Dubletten bereinigt sein sollten. Ebenso wichtig sei es, kritische sensible Daten und Dokumente, die aus rechtlichen Gründen nicht verwendet werden dürften, auszusieben. Dazu gehören beispielsweise personenbezogene Daten oder Inhalte, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren. Um Verfälschungen, aber auch Risiken und Strafzahlungen zu vermeiden, müssten diese identifiziert und aus Datenbeständen entfernt werden, noch bevor die Datenbestände für das Training generativer KI-Anwendungen herangezogen werden.

Entwicklungszeiten abkürzen

Die Nutzung künstlich erzeugter Datensätze, so genannter synthetischer Daten, nimmt zu. Die Fachleute von Aparavi sehen dies als Indikator der Unzufriedenheit von Data Scientists mit dem vorhandenen echten Datenmaterial. Dennoch seien synthetische Daten kein vollwertiger Ersatz für das Training von KI-Anwendungen: Mit Originaldaten könnten Algorithmen und Anwendungen deutlich schneller und effizienter entwickelt werden als mit simulierten Datensätzen.
KI-Entwicklung ist per se ein iterativer Prozess mit hohem Ressourcenbedarf – und verursacht folglich hohe Kosten. Ein schlechter Dateninput verlängert die Entwicklungszeiten und erhöht die Kosten zusätzlich. Ein sauberer, auf relevante, sinnvolle Daten kondensierter Datenbestand kann die Anwendungsentwicklung hingegen beschleunigen und damit auch den finanziellen Aufwand reduzieren. „Clean and Lean Data spielen bei der Entwicklung von KI- und ML-Apps eine überragende Rolle“, sagt der Aparavi-CEO Adrian Knapp. Ob eine KI-Anwendung erfolgreich wird, entscheide sich an den Daten, die sozusagen das Futter für die zu trainierenden Algorithmen darstellen.





Weitere Meldungen und Beiträge aus dem Bereich: Panorama
Eine junge Frau und ein älterer, grauhaariger Mann sitzen gemeinsam vor einem Laptop, auf dessen Bildschirm sie blicken.

Bayern: Beratung für digitale Einsteiger

[19.04.2024] Das bayernweite Projekt „zusammen digital“ will Menschen, die bisher nur geringe digitale Fähigkeiten haben, darin unterstützen, digitale Alltagsangebote zu nutzen. Nun gab der bayerische Digitalminister Fabian Mehring den Startschuss für die nächste Projektphase, bei der 16 weitere der barrierearmen Beratungsorte entstehen sollen. mehr...

Blick auf einen Schreibtisch mit Laptop, Aktenn und einer männlichen Person mit hellem Oberhemd.

Riverbed-Studie: Digitales Erlebnis im öffentlichen Sektor

[17.04.2024] Mit der fortschreitenden Digitalisierung rückt auch das digitale Erlebnis stärker in den Fokus – der Eindruck, den jemand auf Basis der digitalen Interaktion von einem Unternehmen oder einer Organisation gewinnt. Eine Studie beleuchtet, wie dieses Thema im Public Sector gesehen wird. mehr...

Grafik zeigt den ansteigenden Fachkräftemangel bis 2040.

Bitkom: IT-Fachkräftemangel verschärft sich

[15.04.2024] Der Mangel an IT-Fachkräften droht sich dramatisch zu verschärfen. Dies geht aus einer Studie des Bitkom hervor, wonach bis 2040 in Deutschland über 660.000 IT-Fachleute fehlen. Dies betrifft das gesamte Land, auch die Verwaltung. Der Verband benennt gezielte Gegenmaßnahmen – vom Schulunterricht bis hin zur freiwilligen Weiterbeschäftigung im Alter. mehr...

Screenshot der Hamburegr Fluss-App

Hamburg: Flüsse per App beobachten

[10.04.2024] In Hamburg werden Wassergütedaten von Wassergütemessstationen kontinuierlich erfasst und gespeichert. Abrufen lassen sich diese auf einer Website und auch mobil per App. Diese wurde nun aktualisiert, sodass die Daten schneller und übersichtlicher zugänglich sind. mehr...

Zwei Frauen und ein Mann in formaler Kleidung halten eine Urkunde und die Zahlen "115".

Berlin/Brandenburg: Gemeinsam für die 115

[08.04.2024] In Brandenburg ist die zentrale Behördenrufnummer 115 bisher nur in der Stadt Potsdam verfügbar. Das soll sich nun ändern: Der zentrale IT-Dienstleister des Landes Berlin soll diesen Service künftig auch für das Nachbarland bereitstellen. Bis Ende 2024 soll der Basisservice stehen. mehr...

Ein Mann in Polizeiuniform und eine Frau stehen hinter einem Mikrofon.

Sachsen: Ein Jahr Podcast PolizeiFunk

[08.04.2024] Von der Polizei Sachsen gibt es was auf die Ohren: Seit einem Jahr erscheint im Zwei-Wochen-Rhythmus der Podcast PolizeiFunk. Darin geben die zwei Hosts und ihre Studiogäste Einblicke in verschiedene Arbeitsbereiche bei der Polizei. Insbesondere bei jüngeren Hörern kommt das gut an. mehr...

Ein Sensor an einem Baum

Vodafone: Mit 5G und KI den Wald schützen

[28.03.2024] Mithilfe eines Sensornetzwerks werden im Rahmen des Vodafone-Projekts „5G Smart Forestry“ Vital- und Umgebungsdaten von Bäumen erfasst und via 5G in Echtzeit übermittelt. Eine Analyse der Messergebnisse mithilfe von Künstlicher Intelligenz soll es ermöglichen, potenzielle Schädigungen schneller als bisher zu erkennen. mehr...

Flussdiagramm zur Funktionsweise der NFK.

BMI: Monitoring für die Verwaltungsdigitalisierung

[27.03.2024] Mit der Nationalen Feedback-Komponente (NFK) können Portalbetreibende die Bewertung der Nutzungsfreundlichkeit zentral sammeln und messen. Online-Dienste lassen sich so gezielt und kontinuierlich verbessern – nicht nur bei Portalen mit Bezug zum EU-Binnenmarkt. mehr...

Das KI-generierte Bild zeigt einen futuristischen Plenarsaal, in dem die Abgeordneten vor Bildschirmen sitzen.
bericht

Berliner Senat: Ambitioniertes KI-Experiment

[26.03.2024] Das Projekt Parla soll den Weg für intelligentes Wissensmanagement in der öffentlichen Verwaltung ebnen. Die innovative KI-Lösung wird derzeit im Berliner Senat getestet. mehr...

Das Bild zeigt ein Kamerasystem, das in der Ferne ein Waldgebiet überwacht.

Nordrhein-Westfalen: Fire Watch warnt vor Bränden

[22.03.2024] Mit der Eröffnung der ersten Waldbrandüberwachungszentrale Fire Watch rüstet sich Nordrhein-Westfalen für die kommende Waldbrandsaison. Das neue System soll helfen, Brände frühzeitig zu erkennen und zu bekämpfen. mehr...

Montage eines Baums auf einem überdimensionalen Würfel in blauer Cyber-Landschaft.

Bayern: Second-Hand-Laptops für die Polizei

[21.03.2024] Das bayerische Digitalministerium hat 65 ausgemusterte IT-Geräte an das Polizeipräsidium Schwaben Nord weitergegeben. Die Geräte werden außerhalb des Polizeinetzes eingesetzt. Mit der Maßnahme soll der ökologische Fußabdruck der öffentlichen Verwaltung reduziert werden. mehr...

Alle sieben Vertreterinnen und Vertreter des Thüringer Normenkontrollrats, Stand 2024.

Thüringen: Bürokratieentlastung macht Kommunen flexibler

[20.03.2024] Der Thüringer Normenkontrollrat hat seinen ersten Empfehlungsbericht zur Bürokratieentlastung speziell für Kommunen veröffentlicht. Dessen Ziel ist es, kommunalen Gebietskörperschaften Flexibilität zu verschaffen, um effizient und bürgerfreundlich zu arbeiten. Auch den Jahresbericht 2023 legte das Gremium vor. mehr...

Das Bild zeigt die Startseite des Online-Dienstes zur Beantragung von Unterhaltsvorschuss.

Schleswig-Holstein: Online-Anträge für Unterhaltsvorschuss

[14.03.2024] In Schleswig-Holstein können Alleinerziehende ihren Antrag auf Unterhaltsvorschuss jetzt einfach online stellen. Der Dienst ist über das OZG-Portal der Freien Hansestadt Bremen zugänglich. mehr...

bericht

Generative KI: Gamechanger für Behörden

[14.03.2024] Generative KI bringt Behörden zahlreiche Vorteile, etwa bei der Textklassifizierung, Übersetzung oder beim Bürgerservice. Dennoch ist KI kein Allheilmittel und es müssen auch die Herausforderungen in den Blick genommen werden. mehr...

Nahaufnahme eines Fingers, der eine Boost-Taste mit einem Raketensymbol drückt, schwarzer Hintergrund und grünes Licht.

GovTech: Ungenutzte Potenziale

[13.03.2024] Europas Behörden vergeben zu wenig öffentliche Aufträge an GovTech-Unternehmen. Damit bleibt ein großes Innovationspotenzial ungenutzt, das den Public Sector bei Digitalisierung und Modernisierung voranbringen könnte. Zu diesem Schluss kommt eine Untersuchung von Sopra Steria. mehr...