
magicplan-AI, eine Reise in die wunderbare Welt des Deep Learning (Teil 2/3)
Teilen
In Teil 1 haben wir gesehen, wie die heutigen Deep-Learning-Tools und Datenökosysteme es einfach machen, einen frühen Prototypen zu erstellen, um die Machbarkeit einer gemeinsamen Deep-Learning-Aufgabe zu beurteilen. Das gesagt, es ist eine Sache, einen funktionsfähigen Prototyp zu haben, der das Potenzial des Ansatzes zeigt; es ist eine andere Sache, ein zuverlässig genuges Niveau der Erkennung zu erreichen, um das Feature Millionen von Nutzern zur Verfügung zu stellen.
Daten und Modelle iterieren, um akzeptable Leistung zu erreichen
Vorstellung relevanter Leistungskennzahlen
Verbesserung / Erweiterung des Trainingsdatensatzes
Spielen mit der Verlustfunktion
Ein Modell im Deep Learning korrekt zu trainieren, hat ebenso viel mit dem richtigen Datensatz zu tun wie mit der richtigen Korrektur, wenn während des Trainings ein Fehler gefunden wird.
Glücklicherweise steht uns eine große Literatur zur Verfügung, die dabei hilft, die richtige Verlustfunktion zu identifizieren, die verwendet werden soll. Noch besser ist, dass im speziellen Fall der Objekterkennung das Facebook Detectron-Projekt einige wichtige Verbesserungen in der Anwendung der richtigen Verlustfunktion, die als Focus Loss bezeichnet wird, identifiziert hat, die für uns sehr einfach umzusetzen waren.
Infolgedessen konnten wir, indem wir die Qualität des Trainingsdatenbankverbesserung mit der Einführung einer besser angepassten Verlustfunktion kombinierten, den F1-Score deutlich verbessern, wie unten veranschaulicht.

F1-Score-Entwicklung according to Training set fixes
Unterschiedliche Architekturen erkunden
Akademische Forschung war im Bereich der Objekterkennung ziemlich aktiv, und es sind mehrere Architekturen für Deep Learning zur Objekterkennung verfügbar. Sie können entlang zweier Achsen gruppiert werden:
A — die Art des Merkmals-Extractors, der das Eingabebild verarbeitet:
Mehrere Architekturen von leicht (MobileNet) bis schwer (Inception, VGG, ResNet)…
je größer der Merkmal-Extractor in Bezug auf die Parameter, desto besser die Beschreibungen, aber desto mehr Speicher und Zeit benötigt es zur Durchführung
B — die Anzahl der Schritte, um die vollständige Erkennung durchzuführen:
direkter Vorwärtsansatz (YOLO, SSD), bei dem ein einzelnes Netzwerk die Begrenzungsrahmen erkennt und sie gleichzeitig klassifiziert,
Zwei-Schritte-Ansatz (Faster RCNN, R-FCN), bei dem ein erstes Netzwerk potenzielle grobe Begrenzungsrahmenkandidaten erkennt, während das zweite die Klassifikation und Feinabstimmung der Begrenzungsrahmen durchführt.
Wie erwartet, desto komplexer die Architektur, desto besser die Leistung (siehe Grafik unten).

Architekturen zur Objekterkennung und Leistungen (COCO-Datensatz) — Quelle
Was wir jedoch ziemlich früh entdeckten, ist, dass selbst für die Inferenzaufgabe (die Aufgabe, das Modell auszuführen, um die Objekterkennung auf einem Bild durchzuführen — nicht die Trainingsaufgabe, die viel mehr Ressourcen erfordert) nicht alle Architekturen den Anforderungen entsprechen, auf einem mobilen Gerät ausgeführt zu werden.
Zwei Gründe dafür:
Im Gegensatz zu modernen GPU-Karten mit mehr als 10Gb RAM hat selbst das neueste iPhone X nur 3Gb RAM,
Echtzeitbeschränkungen bedeuten, dass wir uns keine Objekterkennung leisten können, die länger als 1,0 Sekunden dauert, ohne eine wirklich lästige Verzögerung im Benutzererlebnis zu erzeugen.
Einige Architekturen passen nicht in den Speicher des Geräts. Einige andere tun dies, ABER es dauert mehrere Sekunden, um eine Objekterkennung durchzuführen, was im Szenario der sofortigen Erfassung von Magicplan nicht akzeptabel ist.

Bewertung mehrerer Architekturen
Gelerntes aus Erfahrungen
Im Gegensatz zur ersten „schnellen & einfachen“ Phase erfordert das Spielen mit all den Optionen in den „regalverfügbaren“ Modellen mehrere Bedingungen:
eine gute Methodik, um den Fortschritt objektiv zu messen,
ein gutes Verständnis dafür, was eine gute Trainingskonvergenz ausmacht und was sie brechen kann,
ein gutes Verständnis der zugrunde liegenden Architektur der neuronalen Netze und Knoten,
In unserem Fall hätte dies ohne die Anwesenheit von zwei Vollzeit-PhDs in künstlicher Intelligenz / Deep Learning im Team, die diese Herausforderungen beherrschen, nicht stattfinden können.
Kommende nächste
An diesem Punkt haben wir ein erstklassiges Modell, das gut bei der Objekterkennung arbeitet, aber zu groß ist, um auf einem modernen Smartphone ausgeführt zu werden. Im letzten Teil werden wir die erforderliche Arbeit detaillierter beschreiben, um von einer PC-basierten Lösung zu einer eingebetteten Smartphone-Lösung überzugehen.
Sam Miller
RevOps-Manager
In der magicplan
5 Minuten Lesezeit
Verwandte Artikel
Restaurierung
Wie man Feuchtigkeitskarten richtig erstellt (Wasserschadenjobs)
3 Minuten Lesezeit
Schadenregulierer
Xactimate®, Cotality™, QuickBooks, T&M: Wann und wie man jede effektiv nutzt
5 Minuten Lesezeit
Restaurierung
Lean führen: Wie 2-Personen-Rettungsteams wie Profis agieren können
5 Minuten Lesezeit










