Website-Icon E-Commerce Institut Köln

Es ist Zeit für „datenzentrierte künstliche Intelligenz“

Andrew Ng, ein Pionier des maschinellen Lernens, vertritt die Ansicht, dass die Qualität der Daten, die KI-Systemen zugrunde liegen, dazu beitragen wird, ihre volle Leistungsfähigkeit zu entfalten.

In den letzten 10 Jahren hat die künstliche Intelligenz ein enormes Wachstum erfahren. Internetunternehmen haben riesige Datenmengen gesammelt, die zum Trainieren leistungsstarker maschineller Lernprogramme verwendet wurden. Algorithmen für maschinelles Lernen sind für viele kommerzielle Anwendungen weithin verfügbar, und einige sind Open Source.

Jetzt ist es an der Zeit, sich auf die Daten zu konzentrieren, die diese Systeme antreiben, so der KI-Pionier Andrew Ng, SM ’98, Gründer des Forschungslabors Google Brain, Mitbegründer von Coursera und ehemaliger Chefwissenschaftler bei Baidu.

Ng plädiert für „datenzentrierte KI“, die er als „die Disziplin der systematischen Entwicklung der Daten, die für den Aufbau eines erfolgreichen KI-Systems erforderlich sind“ beschreibt.

KI-Systeme benötigen sowohl Code als auch Daten, und „all der Fortschritt bei den Algorithmen bedeutet, dass es eigentlich an der Zeit ist, mehr Zeit auf die Daten zu verwenden“, sagte Ng auf der jüngsten EmTech Digital-Konferenz, die von MIT Technology Review veranstaltet wurde.

Die Konzentration auf qualitativ hochwertige Daten, die einheitlich gekennzeichnet sind, würde den Wert der KI für Sektoren wie das Gesundheitswesen, die Regierungstechnologie und die Fertigung erschließen, so Ng.

„Wenn ich mir ein Gesundheitssystem oder ein Produktionsunternehmen anschaue, sehe ich, offen gesagt, nirgendwo eine weit verbreitete KI-Anwendung.“ Dies ist zum Teil auf die Ad-hoc-Methode der Datenverarbeitung zurückzuführen, die oft vom Glück oder den Fähigkeiten einzelner Datenwissenschaftler abhängt, sagte Ng, der auch Gründer und CEO von Landing AI ist.

Datenzentrierte KI ist eine neue Idee, die noch immer diskutiert wird, sagte Ng, unter anderem auf einem Workshop zu datenzentrierter KI, den er im vergangenen Dezember veranstaltet hat. Er wies jedoch auf einige allgemeine Probleme hin, die er im Zusammenhang mit Daten sieht:

Unterschiede in der Beschriftung. In Bereichen wie Fertigung und Pharmazie werden KI-Systeme darauf trainiert, Produktfehler zu erkennen. Aber vernünftige, gut ausgebildete Menschen können sich nicht einig sein, ob eine Pille zum Beispiel „gechipt“ oder „zerkratzt“ ist – und diese Mehrdeutigkeit kann das KI-System verwirren. Ebenso kodiert jedes Krankenhaus elektronische Aufzeichnungen auf unterschiedliche Weise. Dies ist ein Problem, wenn KI-Systeme am besten auf einheitliche Daten trainiert werden.

Die Betonung von Big Data. Ein weit verbreiteter Glaube besagt, dass mehr Daten immer besser sind. Aber für einige Anwendungen, insbesondere in der Fertigung und im Gesundheitswesen, müssen nicht so viele Daten gesammelt werden, und kleinere Mengen hochwertiger Daten könnten ausreichen, so Ng. Zum Beispiel gibt es vielleicht nicht viele Röntgenbilder eines bestimmten medizinischen Zustands, wenn nicht so viele Patienten daran leiden, oder eine Fabrik hat vielleicht nur 50 defekte Handys hergestellt.

Für Branchen, die keinen Zugang zu Unmengen von Daten haben, wäre es der Schlüssel zum Funktionieren dieser Algorithmen, wenn man in der Lage wäre, mit kleinen Daten, mit guten Daten und nicht nur mit einem riesigen Datensatz zu arbeiten“, so Ng.

Ad-hoc-Datenkuratierung. Daten sind oft unübersichtlich und fehlerhaft. Seit Jahrzehnten suchen Einzelpersonen nach Problemen und beheben sie auf eigene Faust. „Es lag oft an der Geschicklichkeit eines Einzelnen oder am Glück eines einzelnen Ingenieurs, ob die Aufgabe gut gelöst wurde“, so Ng. „Wenn wir dies durch Prinzipien und [den Einsatz von Werkzeugen] systematischer machen, wird das vielen Teams helfen, mehr KI-Systeme zu bauen.“

Die Kraft der KI freisetzen
Einige dieser Probleme liegen in den Unterschieden zwischen den Unternehmen begründet. Organisationen haben unterschiedliche Arten der Codierung, und Fabriken stellen unterschiedliche Produkte her, so dass ein KI-System nicht für alle funktionieren kann, sagte Ng.

Das Rezept für die Einführung von KI in Software-Internetunternehmen für Verbraucher funktioniert in vielen anderen Branchen nicht, so Ng, weil die Datensätze kleiner sind und ein höherer Anpassungsaufwand erforderlich ist.

„Ich denke, jedes Krankenhaus, jedes Gesundheitssystem braucht ein individuelles KI-System, das auf seinen Daten trainiert ist“, sagte Ng. „Dasselbe gilt für die Fertigung. Bei der tiefen visuellen Fehlerprüfung stellt jede Fabrik etwas anderes her. Daher braucht jede Fabrik ein individuelles KI-Modell, das auf Bildern trainiert wird.“

Bislang lag der Schwerpunkt jedoch auf vielseitig einsetzbaren KI-Systemen, die Milliarden von Dollar an Wert freisetzen.

„Ich sehe viele, sagen wir mal, 1-Millionen- bis 5-Millionen-Dollar-Projekte, von denen zehntausende herumliegen, die niemand wirklich erfolgreich ausführen kann“, sagte Ng. „Jemand wie ich kann nicht 10.000 Ingenieure für maschinelles Lernen einstellen, um 10.000 maßgeschneiderte maschinelle Lernsysteme zu entwickeln.“

Datenzentrierte KI ist ein wichtiger Teil der Lösung, so Ng, da sie den Menschen die Werkzeuge an die Hand geben könnte, die sie benötigen, um Daten zu verarbeiten und ein maßgeschneidertes KI-System zu entwickeln, das sie benötigen. „Das scheint mir das einzige Rezept zu sein, von dem ich weiß, dass es einen großen Teil des Wertes von KI in anderen Branchen freisetzen könnte“, sagte er.

„Ich sehe viele, sagen wir mal, 1-Millionen- bis 5-Millionen-Dollar-Projekte, von denen zehntausende herumliegen, die niemand wirklich erfolgreich ausführen kann“, sagte Ng. „Jemand wie ich kann nicht 10.000 Ingenieure für maschinelles Lernen einstellen, um 10.000 maßgeschneiderte maschinelle Lernsysteme zu entwickeln.“

Datenzentrierte KI ist ein wichtiger Teil der Lösung, so Ng, da sie den Menschen die Werkzeuge an die Hand geben könnte, die sie benötigen, um Daten zu verarbeiten und ein maßgeschneidertes KI-System zu entwickeln, das sie benötigen. „Das scheint mir das einzige Rezept zu sein, von dem ich weiß, dass es einen großen Teil des Wertes von KI in anderen Branchen freisetzen könnte“, sagte er.

Wie datenzentrierte KI helfen kann
Während diese Probleme noch erforscht werden und die datenzentrierte KI sich in der Phase der Ideen und Prinzipien“ befindet, so Ng, werden die Schlüssel wahrscheinlich Werkzeuge und Bildung sein, einschließlich:

Tools zum Auffinden von Inkonsistenzen. Tools könnten sich auf eine Teilmenge – oder einen „Slice“ – von Daten konzentrieren, bei denen es ein Problem gibt, damit Programmierer die Daten konsistenter machen können. Vernünftige Menschen könnten unterschiedliche Bezeichnungen verwenden, aber dieses Problem kann entschärft werden, wenn strittige Bereiche frühzeitig erkannt werden und man sich auf eine gemeinsame Art der Kennzeichnung einigt, so Ng.

Stärkung der Fachexperten. In spezialisierten Bereichen sollten Experten an Bord geholt werden. Beispielsweise sollten Technologen, die künstliche Intelligenz für die Erkennung verschiedener Aspekte von Zellen trainieren, Zellbiologen bitten, Bilder mit dem zu beschriften, was sie sehen – sie kennen Zellen viel besser als die Dateningenieure. „Dadurch können viel mehr Fachleute ihr Wissen in Form von Daten ausdrücken“, so Ng.

Die Entwicklung in Richtung Standardisierung ist etwas, das man im Auge behalten sollte, so Ng, aber die physische Infrastruktur kann ein limitierender Faktor sein. Ein sieben Jahre altes Röntgengerät erzeugt andere Einträge als ein brandneues, und es gibt keine praktischen Wege, um sicherzustellen, dass jedes Krankenhaus Geräte der gleichen Generation verwendet. Es ist auch schwer, zwischen einer Fabrik, die Autoteile herstellt, und einer, die Süßigkeiten produziert, zu standardisieren.

„Die Heterogenität der physischen Umgebung, die nur sehr schwer zu ändern ist, führt zu einer grundlegenden Heterogenität der Daten“, sagte er. „Diese verschiedenen Arten von Daten erfordern unterschiedliche maßgeschneiderte KI-Systeme.

Lesen Sie hier den Originalartikel