Projektpartner
Hintergrund
Bei der Handhabung von weichen Materialien, beispielsweise von Kabeln, kommen die Standard-Steuerungs- und Regelungskonzepte an ihre Grenzen. Die zusätzlichen Freiheitsgrade durch das weiche Materialverhalten führen zu einem unteraktuierten System. Der Roboter kann das Material somit nur indirekt beeinflussen.
Modellbasierte Steuerungen sind auf genaue, schnell lösbare Modelle angewiesen, welche oft nicht vorhanden sind. Anstatt inverse Modelle zu suchen, um darauf die Planung und Steuerung zu basieren, kann direkt durch Trial-and-Error nach dem optimalen Verhalten gesucht werden.
Solche modellfreie Ansätze suchen mit Methoden des Maschinellen Lernens direkt nach einem optimalen Mapping von Eingangssignalen auf Steuersignale.
Ziele
Es soll eine Umgebung entworfen werden, um Maschinelles Lernen und Policy-Optimierung für die Handhabung weicher Materialien mit Indus-
trierobotern einsetzbar zu machen. Die Umgebung ist Grundlage für das Erreichen der weiteren Ziele:
- Erlernen von Handhabungsstrategien für Anwendungen mit flexiblen Objekten auf Basis eines anfangs definierten Endzustandes des flexiblen Objektes
- Automatische Optimierung der Handhabungsstrategien auf Basis der in der Ausführung gewonnen Erfahrungen
Lösungsansatz
Reinforcement Learning beschreibt eine Klasse von Problemen, welchen eine Vielzahl von Methoden des Maschinellen Lernens als Lösung gegenüberstehen. Dabei erlernt ein Agent durch Interaktion mit seiner Umgebung eine Strategie durch den Versuch eine Belohnung zu maximieren.
Die meisten Lösungsmethoden des Reinforcement Learning sind modellfrei, d.h. es wird ein direktes Mapping vom aktuellen Zustand zu der möglichst optimalen Aktion gesucht.
Der Lösungsansatz besteht darin, die steuerungstechnische Problemstellung der Handhabung von weichen Objekten, als Reinforcement Learning Problem zu definieren. Dadurch steht eine Vielzahl an interessanten Lösungsmethoden zur Verfügung wie in ABB.3 zu sehen ist. Die Steuerung wird dabei zum Teil in die Lernumgebung integriert, sodass die Lern-Algorithmen möglichst ohne Anpassung verwendet werden können. Der Agent hat somit einen Aktionsraum, welcher durch direkte Ausführung von Steuerungsfunktionen definiert ist.
Erwartete Ergebnisse
- Simulationsumgebung zur Verknüpfung von Hardware-in-the-Loop-Simulationen mit weichen Objekten
- Methode zur Programmierung von Industrierobotern für die Handhabung von weichen Objekten nur durch die Vorgabe eines Endzustands
- Automatisiertes Suchen und Optimieren der Handhabungsstrategie mit zugehörigem Steuerungsprogramm durch Reinforcement Learning
- Präzises Handhaben von weichen Objekten mit möglichst wenigen Trial-and-Error-Durchläufen