Wissenspool-Beitrag

Produktionsplanung mittels Reinforcement Learning

17.11.2022
Lesezeit: ca. 6 min
Beitrag teilen

Was ist Reinforcement Learning?

Beim Reinforcement Learning (RL) (dt.  Bestärkendes Lernen) lernt das System durch belohnende oder bestrafende Rückmeldung optimale Handlungsfolgen auszuführen. Dabei führt das System in einer realen oder simulierten Umgebung eigenständig Aufgaben aus und lernt, welche Handlungen bzw. Aktionen zu einer Maximierung der Belohnung und damit zur bestmöglichen Erfüllung der Aufgabenstellung führen. Schlussendlich ist es das Ziel, mittels Versuch und Irrtum (Trial and Error) für jede Aufgabenstellung die bestmögliche Strategie zu finden.  

Insbesondere in der Industrie lassen sich Einsatzpotentiale für RL finden. So können zum Beispiel Prozesse in unstrukturierten oder komplexen Umgebungen automatisiert werden, für die es bisher noch keine Automatisierungsansätze gab.  

Außerdem vereinfacht RL Planungsvorgänge, wie etwa die Aktionsfolge von Maschinen. So müssen nicht mehr konkrete Aktionsfolgen definiert werden, sondern nur das Ziel selbst und das System lernt selbstständig in jedem Szenario unter variierenden Bedingungen die beste Entscheidung zu treffen.  

Vornehmlich bei komplexeren Wirkungszusammenhängen und variierenden Randbedingungen wird Reinforcement Learning immer häufiger mit Deep Learning ergänzt. Die Kombination Deep Reinforcement Learning kann so variierende, komplexer werdende Aufgaben selbstständig und skalierbar lösen.

Daten als Voraussetzung für die Produktionsplanung mittels Reinforcement Learning

Voraussetzung für den Einsatz von Deep Reinforcement Learning in der Produktionsplanung ist ein möglichst realistisches Umgebungsmodell sowie Daten in hinreichend großer Menge und Qualität.  

Dabei sind in diesem Kontext explizit die Stammdaten, also die Grunddaten eines Unternehmens von zentraler Bedeutung1. Sie sind gewissermaßen das „Gehirn eines Unternehmens“, also unter anderem Kundendaten, Produktdaten und Produktionsdaten. Dabei bestehen die Produktionsdaten zum einen aus der Produktionsanlage (Bearbeitungseinheit, Lagerfähigkeit, Verfügbarkeit, Konnektivität), aus detaillierten Produktionsprozessparametern (Prozesszeiten, Prozessraten), Produktionskosten sowie Produktionsziele2.  

Diese essentiellen Daten müssen zentral und konsistent abgelegt sein, damit alle Abteilungen darauf zugreifen können. Auf Basis konsistenter Stammdaten kann so ein Informationsmodell der Produktion entwickelt werden. In diesem Modell werden alle relevanten Informationen rund um die Produktion und die laufenden Prozesse festgehalten. Dies umfasst den Status der Produktionsressourcen, Qualitätsparameter, Produktionskosten, Prozesszeiten, Zielgrößen (wie etwa die Kosten) mit zugehörigen Ressourcen und Prozessanforderungen (z.B. Toleranzen)2

Mithilfe von RL soll dann die Produktionsplanung automatisiert und somit optimiert werden – und zwar im Hinblick auf nachhaltige Aspekte wie Ressourceneffizienz und CO2-Austoß sowie Effizienz und Kosten.  

Nun kann der RL-Agent in der virtuellen Umgebung mit dem vorhanden Informationsmodell trainiert und auf das jeweilige Ziel optimiert werden. Der Trainingsprozess ist dann abgeschlossen, wenn der Agent seine Strategie zur maximalen Belohnung identifiziert hat. Der fertige RL-Agent kann im nächsten Schritt in die reale Umgebung integriert werden. Bei der Produktionsplanung können dem Planer somit Vorschläge für neue Abfolgen oder Belegungen gemacht werden.  Schlussendlich unterstützt ein RL-Agent den Menschen bei der Erstellung der Produktionspläne und erreicht damit kürzere Durchlaufzeiten, gleichmäßigere Auslastungen und eine verbesserte Termintreue. Ein RL-Agent erreicht häufig bessere Ergebnisse als aktuell gängige Verfahren wie Optimierungsalgorithmen oder -heuristiken.

Quellenverzeichnis

1. Legner, Christine, and Boris Otto. “Stammdaten-Management.” Das Wirtschaftsstudium (WISU) 236.4 (2007): 562-568. 

2. Maravelias, Christos T., and Charles Sung. “Integration of production planning and scheduling: Overview, challenges and opportunities.” Computers & Chemical Engineering 33.12 (2009): 1919-1930.]  

Autor
Manuel A. Heid

Dieser Beitrag wurde von Manuel A. Heid verfasst. Er ist Researcher am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und hat sich im Projekt Mittelstand-Digitalzentrum mit der Einführung KI-basierter Lösungen in Unternehmen beschäftigt sowie KMU auf dem Weg zum Einsatz dieser Lösungen im Bereich der optischen Qualitätskontrolle unterstützt.

Manuel A. Heid