
magicplan-AI, eine Reise in die wunderbare Welt des Deep Learning (Teil 3/3)
In der magicplan
4 Minuten Lesezeit



Teilen
In Teil 2 haben wir gezeigt, wie Sie eine gute Erkennungsgüte eines Deep-Learning-Modells erreichen können, das auf einer leistungsstarken GPU läuft, wenn Sie über die richtige Expertise im Deep Learning-Training verfügen. Leider reicht dies nicht aus, wenn Sie die Funktion auf einem Smartphone implementieren möchten und mit wirklich begrenzten Hardware-Ressourcen sowohl in Bezug auf den Speicher als auch auf die Rechenleistung umgehen müssen.
Die Funktion in ein Smartphone integrieren
Frühere Arbeiten ermöglichten es, ein "ausreichend gutes" Modell zur Objekterkennung von Türen / Fenstern zu entwerfen und zu trainieren. Allerdings kann diese Architektur selbst für den Inferenzteil nur auf leistungsstarken NVIDIA-GPUs ausgeführt werden. Sie ist mit den begrenzten Hardware-Ressourcen von Smartphones, sowohl hinsichtlich der Speicheranforderungen als auch der Verarbeitungszeit, nicht kompatibel. Das ist ein großes Problem, das uns eine Weile festhielt.
Der Remote-Ansatz
Zunächst bestand die überlegte Lösung darin, die GPU-Berechnungen in die Cloud auszulagern.

Remote-GPU-basierte Lösung
Der Hauptvorteil dieses Ansatzes besteht darin, dass der Server über den erforderlichen GPU-Speicher und die Rechenleistung verfügt, um das Modell ordnungsgemäß auszuführen. Daher ist diese Lösung ab dem ersten Tag verfügbar.
Allerdings machten 3 Faktoren diesen Ansatz problematisch:
magicplan ist so konzipiert, dass es sowohl online als auch offline betrieben werden kann. Sich auf eine Remote-Verbindung für die Erkennung von Fenstern / Türen zu verlassen, würde dieses Paradigma verändern,
die Upload- und Download-Dauer erzeugt eine unerwünschte und unvorhersehbare Verzögerung, die während einer Echtzeit-Aufnahmesitzung wirklich ärgerlich sein kann,
es gab eine Unsicherheit in den Kosten für den Einsatz von GPU-Servern in der Cloud, um mit der potenziellen Nachfrage zu skalieren, sobald sie in Produktion gehen.
Dennoch war der Ansatz sehr nützlich, um lokal in einem privaten Netzwerk und unter realen Aufnahmebedingungen die Zuverlässigkeit des Modells zu "simulieren" und zu validieren, dass die Benutzererfahrung akzeptabel war. Letztendlich ermöglichte die Kombination von 3 Lösungen, diese kritische Barriere zu überwinden:
Anwenden eines Quantisierungsansatzes zur Reduzierung des Speicherbedarfs durch Senkung der Gleitkommapräzision,
Anwenden des Lehrer-/Schüler-Ansatzes auf unser Modell, um es auf eine akzeptable Speicherkapazität zu "stutzen", während die gleiche Erkennungsgenauigkeit beibehalten wird,
Teile des Modells von dem TensorFlow-Standard-Framework auf das Apple CoreML-beschleunigte Framework zu verschieben, um die Rechenleistung auf dem Smartphone zu optimieren.
Anwenden des Quantisierungsansatzes
Quantisierung ist die Idee, von Gleitkomma- zu Ganzzahl-Arithmetik überzugehen, wodurch Speicher- und Rechenzeit gespart wird. Dies war ein schneller Erfolg, da TensorFlow einige Werkzeuge bietet, um ein gegebenes Modell sehr einfach zu quantisieren.
Mehr zu diesem Thema: Zhouhan Lin, Matthieu Courbariaux, Roland Memisevic und Yoshua Bengio. Neuronale Netze mit wenigen Multiplikationen. CoRR, abs/1510.03009, 2015.
Anwenden des Lehrer-/Schüler-Ansatzes
Wir müssen dem MILA-Labor danken, mit dem wir in einer von IRAP geförderten Initiative zusammengearbeitet haben, da sie uns diesen Ansatz empfohlen haben, um das Modell zu verkleinern, und es hat funktioniert! Es war entscheidend, die Expertise von MILA zu haben, die uns bei dieser Lösung geleitet hat, eine Lösung, die wir wahrscheinlich sonst nicht in Betracht gezogen hätten.
Dieser fortschrittliche Ansatz ist ziemlich faszinierend. Kurz gesagt, er beruht auf der Idee, dass kleine Modelle während des Trainingsprozesses schlechter generalisieren als große Modelle. Um also ein gutes Training für ein kleines Modell zu haben, hilft es, ein großes Modell Wissen aus seinen internen Schichten in einige interne Schichten des kleinen Modells "destillieren" zu lassen.

Lehrer — Schüler-Implementierung
Mehr zu diesem Thema:
Adriana Romero, Nicolas Ballas, Samira Ebrahimi Kahou, Antoine Chassang, Carlo Gatta und Yoshua Bengio. Fitnets: Hinweise für dünne tiefe Netze. In ICLR, 2015.
Wechsel zum Apple CoreML GPU-beschleunigten Framework
Während Deep-Learning-Frameworks auf PC mit GPU-Beschleunigung ziemlich ausgereift sind, ist dies nicht der Fall, wenn es darum geht, diese Frameworks auf iOS oder Android zu portieren:
Integrierte Versionen der Hauptframeworks (wie TensorFlow Mobile) befinden sich noch in den frühen Phasen und nutzen die HW des Smartphones nicht vollständig aus.
Auf der anderen Seite gibt es Apple CoreM. CoreML ist das offizielle Apple Machine Learning-Framework für iOS, optimiert für die Leistung auf dem Gerät. Leider deckt es heutzutage nur eine begrenzte Teilmenge von Berechnungsoperationen ab, die in TensorFlow implementiert sind.
Darüber hinaus gibt es immer noch kein standardisiertes Interoperabilitätsformat, das es ermöglicht, ein Modell einfach von einem Framework in ein anderes bis zur eingebetteten Implementierung zu portieren, auch wenn Initiativen wie ONNX oder NNEF ihren Weg finden.
Infolgedessen ist der einzige Weg, um das Beste auf iOS herauszuholen, das vollständige Diagramm manuell in mehrere Teile zu refaktorisieren, um den relevanten Teilgraphen einfach zu CoreML zu portieren. Nach all diesen Operationen hat das resultierende SSD-Modell die Leistung des besten R-CNN-Modells, das auf großen GPUs validiert wurde, während es 14 MB groß ist und eine Inferenz von 250 ms auf dem iPhone X durchführt. Eine beeindruckende Leistung!
Frühere Arbeiten ermöglichten es, ein "ausreichend gutes" Modell zur Objekterkennung von Türen / Fenstern zu entwerfen und zu trainieren. Allerdings kann diese Architektur selbst für den Inferenzteil nur auf leistungsstarken NVIDIA-GPUs ausgeführt werden. Sie ist mit den begrenzten Hardware-Ressourcen von Smartphones, sowohl hinsichtlich der Speicheranforderungen als auch der Verarbeitungszeit, nicht kompatibel. Das ist ein großes Problem, das uns eine Weile festhielt.
Der Remote-Ansatz
Zunächst bestand die überlegte Lösung darin, die GPU-Berechnungen in die Cloud auszulagern.

Remote-GPU-basierte Lösung
Der Hauptvorteil dieses Ansatzes besteht darin, dass der Server über den erforderlichen GPU-Speicher und die Rechenleistung verfügt, um das Modell ordnungsgemäß auszuführen. Daher ist diese Lösung ab dem ersten Tag verfügbar.
Allerdings machten 3 Faktoren diesen Ansatz problematisch:
magicplan ist so konzipiert, dass es sowohl online als auch offline betrieben werden kann. Sich auf eine Remote-Verbindung für die Erkennung von Fenstern / Türen zu verlassen, würde dieses Paradigma verändern,
die Upload- und Download-Dauer erzeugt eine unerwünschte und unvorhersehbare Verzögerung, die während einer Echtzeit-Aufnahmesitzung wirklich ärgerlich sein kann,
es gab eine Unsicherheit in den Kosten für den Einsatz von GPU-Servern in der Cloud, um mit der potenziellen Nachfrage zu skalieren, sobald sie in Produktion gehen.
Dennoch war der Ansatz sehr nützlich, um lokal in einem privaten Netzwerk und unter realen Aufnahmebedingungen die Zuverlässigkeit des Modells zu "simulieren" und zu validieren, dass die Benutzererfahrung akzeptabel war. Letztendlich ermöglichte die Kombination von 3 Lösungen, diese kritische Barriere zu überwinden:
Anwenden eines Quantisierungsansatzes zur Reduzierung des Speicherbedarfs durch Senkung der Gleitkommapräzision,
Anwenden des Lehrer-/Schüler-Ansatzes auf unser Modell, um es auf eine akzeptable Speicherkapazität zu "stutzen", während die gleiche Erkennungsgenauigkeit beibehalten wird,
Teile des Modells von dem TensorFlow-Standard-Framework auf das Apple CoreML-beschleunigte Framework zu verschieben, um die Rechenleistung auf dem Smartphone zu optimieren.
Anwenden des Quantisierungsansatzes
Quantisierung ist die Idee, von Gleitkomma- zu Ganzzahl-Arithmetik überzugehen, wodurch Speicher- und Rechenzeit gespart wird. Dies war ein schneller Erfolg, da TensorFlow einige Werkzeuge bietet, um ein gegebenes Modell sehr einfach zu quantisieren.
Mehr zu diesem Thema: Zhouhan Lin, Matthieu Courbariaux, Roland Memisevic und Yoshua Bengio. Neuronale Netze mit wenigen Multiplikationen. CoRR, abs/1510.03009, 2015.
Anwenden des Lehrer-/Schüler-Ansatzes
Wir müssen dem MILA-Labor danken, mit dem wir in einer von IRAP geförderten Initiative zusammengearbeitet haben, da sie uns diesen Ansatz empfohlen haben, um das Modell zu verkleinern, und es hat funktioniert! Es war entscheidend, die Expertise von MILA zu haben, die uns bei dieser Lösung geleitet hat, eine Lösung, die wir wahrscheinlich sonst nicht in Betracht gezogen hätten.
Dieser fortschrittliche Ansatz ist ziemlich faszinierend. Kurz gesagt, er beruht auf der Idee, dass kleine Modelle während des Trainingsprozesses schlechter generalisieren als große Modelle. Um also ein gutes Training für ein kleines Modell zu haben, hilft es, ein großes Modell Wissen aus seinen internen Schichten in einige interne Schichten des kleinen Modells "destillieren" zu lassen.

Lehrer — Schüler-Implementierung
Mehr zu diesem Thema:
Adriana Romero, Nicolas Ballas, Samira Ebrahimi Kahou, Antoine Chassang, Carlo Gatta und Yoshua Bengio. Fitnets: Hinweise für dünne tiefe Netze. In ICLR, 2015.
Wechsel zum Apple CoreML GPU-beschleunigten Framework
Während Deep-Learning-Frameworks auf PC mit GPU-Beschleunigung ziemlich ausgereift sind, ist dies nicht der Fall, wenn es darum geht, diese Frameworks auf iOS oder Android zu portieren:
Integrierte Versionen der Hauptframeworks (wie TensorFlow Mobile) befinden sich noch in den frühen Phasen und nutzen die HW des Smartphones nicht vollständig aus.
Auf der anderen Seite gibt es Apple CoreM. CoreML ist das offizielle Apple Machine Learning-Framework für iOS, optimiert für die Leistung auf dem Gerät. Leider deckt es heutzutage nur eine begrenzte Teilmenge von Berechnungsoperationen ab, die in TensorFlow implementiert sind.
Darüber hinaus gibt es immer noch kein standardisiertes Interoperabilitätsformat, das es ermöglicht, ein Modell einfach von einem Framework in ein anderes bis zur eingebetteten Implementierung zu portieren, auch wenn Initiativen wie ONNX oder NNEF ihren Weg finden.
Infolgedessen ist der einzige Weg, um das Beste auf iOS herauszuholen, das vollständige Diagramm manuell in mehrere Teile zu refaktorisieren, um den relevanten Teilgraphen einfach zu CoreML zu portieren. Nach all diesen Operationen hat das resultierende SSD-Modell die Leistung des besten R-CNN-Modells, das auf großen GPUs validiert wurde, während es 14 MB groß ist und eine Inferenz von 250 ms auf dem iPhone X durchführt. Eine beeindruckende Leistung!
Gelerntes aus Erfahrungen
Wenn es darum geht, Modelle in Smartphones einzubetten, ist die Realität, dass die eingebetteten Frameworks und Interoperabilitäts-Tools noch in den frühen Phasen sind, im krassen Gegensatz zu den Erfahrungen, die wir mit dem POC auf GPU-betriebenen PCs gemacht haben.
Darüber hinaus sind fortgeschrittene Deep Learning-Trainingsmethoden erforderlich, um gute Ergebnisse zu erzielen. Sie benötigen ein auf Deep Learning spezialisiertes Team, um diese fortgeschrittenen Trainingsverfahren zu bewältigen sowie mit Interoperabilität und komplexen Beschleunigungscodes zu arbeiten.
Hier kann eine Zusammenarbeit mit führenden akademischen Organisationen im Bereich KI entscheidend sein, um die richtigen Richtungen und Optionen zu wählen, um die Ziele zu erreichen.
Wenn es darum geht, Modelle in Smartphones einzubetten, ist die Realität, dass die eingebetteten Frameworks und Interoperabilitäts-Tools noch in den frühen Phasen sind, im krassen Gegensatz zu den Erfahrungen, die wir mit dem POC auf GPU-betriebenen PCs gemacht haben.
Darüber hinaus sind fortgeschrittene Deep Learning-Trainingsmethoden erforderlich, um gute Ergebnisse zu erzielen. Sie benötigen ein auf Deep Learning spezialisiertes Team, um diese fortgeschrittenen Trainingsverfahren zu bewältigen sowie mit Interoperabilität und komplexen Beschleunigungscodes zu arbeiten.
Hier kann eine Zusammenarbeit mit führenden akademischen Organisationen im Bereich KI entscheidend sein, um die richtigen Richtungen und Optionen zu wählen, um die Ziele zu erreichen.
Fazit
Unsere Reise im Deep Learning war eine erstaunliche, aber herausfordernde Erfahrung. Wahrlich, die 80 / 20 Regel trifft zu:
es ist einfach, einige ermutigende Ergebnisse zu erzielen, dank der Verfügbarkeit reifer Prototyping-Tools und vorgefertigter Modelle zu Beginn,
wenn es um eine echte App geht, ist man viel mehr auf sich allein gestellt, wenn es darum geht, die Technologie auf einem Smartphone bereitzustellen und fortgeschrittene Trainingstechniken zu verwenden, um kompatible Modelle für die Einschränkungen von Smartphones zu produzieren.
Wir befinden uns jetzt in der Beta-Phase von magicplan-AI. Das bedeutet, dass die Funktion in magicplan 7.2 für iOS aktiv ist!


Das Ziel dieser Beta ist es, den Trainingssatz zu verbessern sowie die Benutzererfahrung besser zu verstehen und herauszufinden, was funktioniert und was geändert werden muss. Es gibt noch erheblichen Aufwand, um es zu einer offiziellen Funktion zu machen, aber wir glauben, dass KI letztendlich Teil des Kerngeschäfts von magicplan werden wird, so wie AR es in den letzten 5 Jahren war.
Egal, ob durch eine Erweiterung ihrer Nutzung (für Steckdosen oder Eckenerkennung) oder durch die Implementierung eines kontinuierlichen Trainingsansatzes für die Modelle, das Sensopia-Forschungsteam hat eine Menge aufregender Deep Learning-Arbeiten vor sich!
Und zu diesem Zweck, wir stellen ein!
Anerkennungen
Ich möchte Jonathan Aigrain und Vahid Ettehadi danken, unseren beiden besten Forschungsingenieure, für ihre hervorragende Arbeit, die magicplan-AI möglich gemacht hat. Es ist ihr Verdienst in erster Linie.
Ich möchte auch Sylvain Laroche vom National Research Council Canada danken für das Vertrauen, das er immer in die Fähigkeiten von Sensopia gezeigt hat. Der NRCC hat uns in kritischen Phasen des Unternehmens im Laufe der Jahre unterstützt und es unserer kleinen Struktur ermöglicht, ehrgeizige Projekte zu realisieren und gleichzeitig die finanziellen Risiken zu mindern.
Schließlich gilt unser Dank Mike Pieper (MILA R&D und Technologietransfer-Team) für all die guten Ratschläge, die er uns gegeben hat. Das hat am Ende den Unterschied gemacht.
Unsere Reise im Deep Learning war eine erstaunliche, aber herausfordernde Erfahrung. Wahrlich, die 80 / 20 Regel trifft zu:
es ist einfach, einige ermutigende Ergebnisse zu erzielen, dank der Verfügbarkeit reifer Prototyping-Tools und vorgefertigter Modelle zu Beginn,
wenn es um eine echte App geht, ist man viel mehr auf sich allein gestellt, wenn es darum geht, die Technologie auf einem Smartphone bereitzustellen und fortgeschrittene Trainingstechniken zu verwenden, um kompatible Modelle für die Einschränkungen von Smartphones zu produzieren.
Wir befinden uns jetzt in der Beta-Phase von magicplan-AI. Das bedeutet, dass die Funktion in magicplan 7.2 für iOS aktiv ist!

Das Ziel dieser Beta ist es, den Trainingssatz zu verbessern sowie die Benutzererfahrung besser zu verstehen und herauszufinden, was funktioniert und was geändert werden muss. Es gibt noch erheblichen Aufwand, um es zu einer offiziellen Funktion zu machen, aber wir glauben, dass KI letztendlich Teil des Kerngeschäfts von magicplan werden wird, so wie AR es in den letzten 5 Jahren war.
Egal, ob durch eine Erweiterung ihrer Nutzung (für Steckdosen oder Eckenerkennung) oder durch die Implementierung eines kontinuierlichen Trainingsansatzes für die Modelle, das Sensopia-Forschungsteam hat eine Menge aufregender Deep Learning-Arbeiten vor sich!
Und zu diesem Zweck, wir stellen ein!
Anerkennungen
Ich möchte Jonathan Aigrain und Vahid Ettehadi danken, unseren beiden besten Forschungsingenieure, für ihre hervorragende Arbeit, die magicplan-AI möglich gemacht hat. Es ist ihr Verdienst in erster Linie.
Ich möchte auch Sylvain Laroche vom National Research Council Canada danken für das Vertrauen, das er immer in die Fähigkeiten von Sensopia gezeigt hat. Der NRCC hat uns in kritischen Phasen des Unternehmens im Laufe der Jahre unterstützt und es unserer kleinen Struktur ermöglicht, ehrgeizige Projekte zu realisieren und gleichzeitig die finanziellen Risiken zu mindern.
Schließlich gilt unser Dank Mike Pieper (MILA R&D und Technologietransfer-Team) für all die guten Ratschläge, die er uns gegeben hat. Das hat am Ende den Unterschied gemacht.
Verwandte Artikel



Restaurierung
Wie man Feuchtigkeitskarten richtig erstellt (Wasserschadenjobs)
3 Minuten Lesezeit



Schadenregulierer
Xactimate®, Cotality™, QuickBooks, T&M: Wann und wie man jede effektiv nutzt
5 Minuten Lesezeit



Restaurierung
Lean führen: Wie 2-Personen-Rettungsteams wie Profis agieren können
5 Minuten Lesezeit

© 2026 magicplan. Alle Rechte vorbehalten.

© 2026 magicplan. Alle Rechte vorbehalten.

© 2026 magicplan. Alle Rechte vorbehalten.
