user-icon Arthur Varkentin
02. März 2020
timer-icon 2 Min.

Machine Learning Telegram - Februar 2020

Unser Format "Machine Learning Telegram" greift Themen auf, die aus unserer Sicht allgemein spannend oder hochgradig relevant für die Thematik rund um maschinelles Lernen und künstliche Intelligenz sind. Themen dieses Mal sind: Clearview, der neue Gartner Quadrant für Data Science & ML und ein paar hilfreiche Ressourcen.

Herzlich willkommen zu einer neuen Ausgabe unseres Formats „ML Telegram“.

In unserer täglichen Arbeit entdecken wir ständig Neues. Manches davon sticht uns besonders ins Auge, da es allgemein spannend oder hochgradig relevant für die Thematik rund um Maschinelles Lernen und künstliche Intelligenz ist. Seien es neue Tools, Dienste oder größere Versionsupdates, einmal im Monat wollen wir diese Dinge vorstellen und kurz kommentieren.

Clearview

In meinem letzten Beitrag bin ich kurz auf die Möglichkeiten und Risiken der Datenaggregation eingegangen, wie sie bei Clearview stattgefunden hat. Inzwischen haben die verschiedenen Plattformbetreiber das Unternehmen aufgefordert, die von ihnen aggregierten Daten aus der Datenbank zu entfernen, was wiederum zusätzlich zu den moralischen auch noch die rechtliche Aspekte eines solchen Vorgehens aufzeigt. Ein weiterer Punkt, ist die Verantwortung, die einhergeht, wenn man große Datenmengen systematisch sammelt und strukturiert. Denn genau das, was Clearviews „Datenschatz“ so attraktiv für seine Endkunden macht, lockt ebenso auch Menschen und Organisationen mit weniger guten Absichten an. Um Angriffe besser abwehren zu können, werden erhöhte Sicherheitstandards benötigt. Dabei muss es sich nicht zwingend nur um digitale Sicherheit handeln. So ist bei Clearview kürzlich erst deren Kundenliste abgegriffen worden. Die Stellungnahme suggeriert, dass dies nicht durch einen Hack der Server geschehen ist. Bei allem Digitalen dürfen wir nicht vergessen, dass es neben der Penetration von Servern immer noch sehr effektive andere Möglichkeiten gibt, wie Social Engineering oder herkömmlicher Diebstähle von Computern oder Datenträgern. Die Sicherheit von schützenswerten Daten darf nicht vernachlässigt werden und sollte einem ganzheitlichen Ansatz folgen, der sowohl modernste als auch klassische Angriffsvektoren berücksichtigt.

Gartner

Diesen Monat ist der Gartner Magic Quadrant for Data Science and Machine Learning Platforms erschienen. Ein Blick darauf lohnt sich, insbesondere, wenn man die Entwicklung über die Jahre verfolgt. Die Anbieter der Data Science und ML Plattformen konkurrieren in verschiedenen Bereichen miteinander, wie z.B. der Benutzerfreundlichkeit und dem Funktionsumfang. Ziel ist es, Data Scientists bei ihrer täglichen Arbeit zu unterstützen. Ich beobachte vor allem zwei große Themen, die einen besonderen Mehrwert bieten. Zum einen werden Werkzeuge bereitgestellt, die unter den Begriff AutoML fallen, also die Wahl der ML-Algorithmen und der Hyperparameter automatisieren, und zum anderen Unterstützen immer mehr Anbieter das DevOps Analogon im Machine-Learning Umfeld MLOps bzw. DataOps. Solche integrierten Lösungen können den Weg von der Exploration zu einem produktiven Einsatz von ML-Modellen erheblich vereinfachen. Die Entwicklungen auf diesem Gebiet schreiten sehr schnell voran, sodass das magische Quadrat nächstes Jahr wieder ganz anders aussehen könnte. Es bleibt spannend!

Ressourcen

An dieser Stelle möchte ich ein paar Ressourcen nennen, die Ihnen in diesem Themenbereich helfen können:

Rules of Machine Learning: Best Practices for ML Engineering

Google stellt eine Vielzahl von Guides und Tutorials für diverse Themenbereiche bereit. Einer davon ist sehr umfangreich und spannend, gerade wenn es um maschinelles Lernen geht:

https://developers.google.com/machine-learning/guides/rules-of-ml

Papers with Code

Sie suchen regelmäßig nach Beispielen für Ihren Anwendungsfall, ob etwas ähnliches in der Richtung bereits gemacht wurde? Bei Papers with Code finden Sie Code-Beispiele zu aktuellen Themen mit einer sehr bequemen Suchfunktion:

https://paperswithcode.com/sota

TensorFlow Hub

Sie arbeiten mit TensorFlow oder haben es demnächst vor? Inzwischen hat Google mit TensorFlow Hub ein Repository für trainierte Modelle geschaffen, das sich nun nach und nach füllt. Die Modelle können sehr einfach in Ihren Code eingebunden und genutzt werden:

https://tfhub.dev/

Artikel kommentieren