03. Februar 2020
3 Min.

Machine Learning Telegram - Januar 2020

Unser neues Format "Machine Learning Telegram" greift Themen auf, die aus unserer Sicht allgemein spannend oder hochgradig relevant für die Thematik rund um maschinelles Lernen und künstliche Intelligenz sind.

Herzlich willkommen zu unserem neuen Format „Machine Learning Telegram“.

In unserer täglichen Arbeit entdecken meine Kollegen und ich ständig Neues. Manches davon sticht mir besonders ins Auge, da es allgemein spannend oder hochgradig relevant für die Thematik rund um maschinelles Lernen und künstliche Intelligenz ist. Seien es neue Tools, Dienste oder größere Versionsupdates, einmal im Monat möchte ich diese Dinge vorstellen und kurz kommentieren.

Pandas 1.0 Release

Pandas ist als Bibliothek und Werkzeug nicht mehr wegzudenken aus dem Python Scientific & Machine Learning Stack, erleichtert es einem doch erheblich das Leben beim Hantieren mit diversen Datenstrukturen. Die bis dato aktuelle Version 0.25.3 war zuletzt im Oktober 2019 erschienen. Mit Version 1.0.0 wird nun eine neue Versionspolitik eingeführt, die meiner Meinung nach eine sinnvolle Operationalisierung darstellt. Erwähnenswert ist hier vor allem, dass Veränderungen der API sich auf die Hauptversionen (major releases) beschränken werden. Die kleineren Releases werden entsprechende Warnungen anzeigen, sollten bestimmte Funktionen veraltet sein. Sehr interessant ist unter Anderem die experimentelle Implementierung für fehlende Werte pandas.NA , die sich gerade im Kontext von Data Science etwas flexibler verhält, als das Numpy Pendant. Eine ausführliche Liste der Änderungen finden Sie hier.

Für die Praxis bedeutet dies zunächst etwas mehr Aufmerksamkeit bei einem Versionswechsel. In solchen Fällen sollten Sie am besten stets auf den aktuellen Minor Release der bisher genutzten Version wechseln und die Warnungen durchgehen.

Ich freue mich über das Release und werde die neue Version in künftigen Projekten nach Möglichkeit einsetzen.

Clearview

Womöglich haben Sie es in den Medien verfolgt: Ein Startup namens Clearview soll Massenweise Bilder von Menschen gesammelt haben und damit eine beachtliche Datenbank geschaffen haben, die für die Gesichtserkennung und eine eindeutige Identifizierung von Individuen genutzt werden kann. Die Zeit Online tituliert gar: Gewaltige Fotodatenbank zeigt, wie gefährlich Gesichtserkennung ist„. Die New York Times spricht von „einem Ende der Privatsphäre, wie wir sie kennen„.

Dies klingt zunächst wie ein real gewordenes Dystopie-Szenario. In der Tat sind die Möglichkeiten, die durch maschinelles Lernen geschaffen werden unüberschaubar vielfältig und können zum Nutzen der Gesellschaft verwendet oder eben für allerlei andere Zwecke instrumentalisiert werden. Die Datenmengen, die erhoben werden wachsen von Tag zu Tag und lassen Rückschlüsse auf unser Leben und unser Verhalten zu. KI Systeme werden immer besser und haben in vielen Bereichen den Menschen in seiner Leistungsfähigkeit, zum Teil schon längst, abgehängt. Umso wichtiger ist ein verantwortungsvoller Umgang mit den Daten, den Technologien und den Möglichkeiten, die sie bieten. Nicht alles, was gemacht werden kann, sollte aus ethischer Sicht auch gemacht werden.

Meine Kollegen und ich stehen für so einen verantwortungsvollen und ethischen Umgang mit den neuen Möglichkeiten und schauen gespannt, aber auch analytisch auf die künftigen Entwicklungen.

Meena ist da

Ich verfolge aufmerksam die Entwicklungen rund um Chatbots. Meena ist ein neuer Conversational Chatbot, oder um genauer zu sein, ein Modell, dass einen solchen antreiben kann. Entwickelt wurde das neuartige Modell von der Google AI Abteilung und sticht in vielerlei Hinsicht die bisherigen Modelle. Im Wesentlichen wurde Meena mit einem riesigen Datensatz (341 GB) von echten, menschlichen Konversationen auf 2.6 Milliarden Parameter trainiert. Dabei kamen Techniken des Data Mining und der Datenbereinigung zum Einsatz, um die Qualität der Datenbasis zu steigern.

Zum Vergleich der Performance zwischen den verschiedenen Systemen wurden zwei Metriken herangezogen. Eine davon ist bereits in der Vergangenheit immer wieder genannt worden: Die Perplexity, also ein Maß dafür, wann das Modell keine korrekte Antwort im eigenen System findet, bzw. mit der menschlichen Eingabe überfordert ist. Je weniger Treffer bei der Wahlmöglichkeit für den nächsten Schritt, also je zielsicherer, umso geringer ist die Perplexität und umso wahrscheinlicher ist eine sinnvolle Antwort. Diese Metrik kann einfach intern im Chat-System automatisch erfasst werden. Daneben wurde eine neue Metrik eingeführt, die Sensibleness and Specificity Average (SSA). Dabei werden die Aussagen des Chatbots von Menschen hinsichtlich des Sinn und ihre Spezifizität bewertet. Dies ist meiner Meinung nach eine sehr gute Metrik, da gerade bei üblichen Chatbots die Antworten häufig unspezifisch ausfallen, da es sich z.B. um eine Fallback-Antwort handelt und/oder schlicht ein tieferes „Verständnis“ des Kontextes fehlt. Ein Beispiel dazu finden Sie im verlinkten Google AI Blogpost.

Der Clou: Google hat nachgewiesen, dass beide Metriken unmittelbar zusammenhängen, indem sie verschiedene Versionen von Meera getestet haben. Je niedriger die Perplexität, desto höher ist der SSA-Wert. Dies eröffnet eine hervorragend Möglichkeit, Chatbots grundsätzlich während ihrer Laufzeit zu evaluieren.

Den Fortschritt in diesem Bereich begrüße ich sehr und freue mich auf bessere Chatbots und neue Möglichkeiten, deren Performance in KI-Monitoring-Konzepte einzubeziehen.

Mehr zum Thema:

In Eigener Sache – Digital Health Webinar

Wir beschäftigen uns in unserer Abteilung seit einiger Zeit mit dem Thema Digital Health und sehen darin großes Potential für die neuen Technologien, unser Leben zu verbessern. In unserem Digital Health Webinar am 11. Februar wollen wir unsere Initiative vorstellen und über unsere Erfahrungen reden.

Sie sind herzlich dazu eingeladen. Und das Beste: Die Teilnahme ist für Sie kostenfrei.

Melden sie sich heute noch an und lassen Sie sich inspirieren!

Zum Webinar

Artikel kommentieren