Wissenspool-Beitrag

Chatbots – Technologie und Anwendungen

21.09.2022
Lesezeit: ca. 16 min
Beitrag teilen

Technologie-Steckbrief

Einleitung

Innerhalb weniger Jahre sind Sprachassistenten fester Bestandteil unseres Alltags geworden. Assistenten wie Siri (Apple), Alexa (Amazon) oder der Google Assistant werden von Millionen von Nutzern eingesetzt, um alltägliche Aufgaben zu erledigen und integrieren somit Künstliche Intelligenz nahtlos in unseren Alltag. Beispiele für Anwendungen sind nicht nur auf die Steuerung von Smartphones (z.B. Anlegen von Terminen, Steuerung von Apps, Abfrage von Wetter) beschränkt. Es gibt Assistenten, die mit dem Smart Home verknüpft sind und Zugriff auf Heizung, Rollläden oder Türsteuerung ermöglichen. Intelligente Assistenten kommen im Auto zum Einsatz, wo sie benutzt werden, um die Navigation zu steuern, aber auch um Autofunktionen wie die Klimaanlage oder Fenster zu aktivieren. Solche virtuellen Assistenten werden auch als Chatbots bezeichnet. Ein Chatbot ist ein Computerprogramm, welches über gesprochene oder geschriebene Sprache mit einem Nutzer kommuniziert und bestimmte Aufgaben erledigen oder Informationen beschaffen kann.

Beschreibung der KI-Technologie & KI-Methode/n/-Komponenten

Die meisten Chatbots von bekannten Anbietern wie Google, Amazon oder Apple sind große Serveranwendungen. Daten werden auf den Server geladen und dort weiterverarbeitet. Millionen von Nutzern können gleichzeitig auf den Chatbot zugreifen.

Man unterscheidet verschiedene Basiskonzepte von Chatbots: Zum einen gibt es ziel-orientierte Chatbots, die dafür geschaffen wurden, bestimmte, hoch spezialisierte Aufgaben zu übernehmen. Die oben genannten Chatbots und virtuellen Assistenten fallen in diese Kategorie, da sie dazu benutzt werden, dem Nutzer bei bestimmten Anliegen zu assistieren. Auf der anderen Seite existieren Social Bots, deren Ziel ist, eine angenehme Konversation mit dem Benutzer zu führen und eher einem Unterhaltungszweck dienen. Beispiele sind Chatbots, die in Dienste wie den Facebook-Messenger integriert sind und nahezu natürlichsprachliche Unterhaltungen mit Benutzern führen können. Auch Computerprogramme, die automatisch Posts und Blogs in sozialen Medien liken und kommentieren, werden zu den Social Bots gezählt.

Technologisch lassen sich Chatbots in intent-basierte und datengetriebene Bots unterteilen.

Intent-basierte Bots

Intent-basierte Bots versuchen, aus einer Benutzereingabe verschiedene Informationen zu extrahieren und auf dessen Grundlage bestimmte, zielgerichtete Aktionen auszuführen. Dabei sind sie modular aus verschiedenen Einzelkomponenten aufgebaut, die in Abbildung 1 dargestellt sind. Die erste Komponente ist die Intent-Erkennung. Dies ist ein maschinelles Lernmodell oder neuronales Netzwerk, das aus einer vorbestimmten Menge an Intents einen passenden Intent oder eine Aktion heraussucht, die zu der Eingabe des Benutzers passt. Fiktive Beispiele hierfür wären Wetter-abfragen für eine Eingabe wie„Wie ist das Wetter in Berlin?“, Internetsuche-starten („Gib‘ mir Infos zu Barack Obama“) oder Wecker-stellen („Stell‘ meinen Wecker auf 6 Uhr 30“). Bestimmte identifizierte Intents erfordern, dass Zusatzinformationen mitgeliefert werden, damit eine Aktion ausgeführt werden kann. Der Intent Wecker-stellen erfordert beispielsweise eine Uhrzeit und Wetter-abfragen erfordert eine Ortsangabe. Die zweite Komponente, die Entitäts-Erkennung, ist darauf spezialisiert, diese Informationen aus der Benutzereingabe zu extrahieren. Diese Aufgabe wird auch als Slot Filling oder Entity Recognition bezeichnet und in der Regel auch von einem maschinellen Lernmodell oder neuronalen Netz erledigt. Sobald Intent und Entitäten erkannt wurden, werden sämtliche Informationen an das dritte Modul weitergereicht, den Dialog-Manager. Der interpretiert die Kombination aus Intent und Entitäten und führt (in der Regel basierend auf vordefinierten Regeln) bestimmte Aktionen aus. Außerdem erzeugt er Template-basiert eine Antwort, welche dann von der letzten Komponente, der Antwort-Generierung, ausformuliert und via Text oder Sprache ausgegeben wird.

Intent-basierte Bots sind in ihrer Funktion eingeschränkt, da sie nur eine vorgefasste Anzahl an Nutzer-Intentionen erkennen und dementsprechend agieren können. Dafür sind sie modular einsetzbar und einfach um neue Funktionen und Intentionen erweiterbar. Außerdem agieren sie in der Regel in den vorgesehenen Einsatzbereichen sehr präzise.

Abbildung 1: Komponenten eines intent-basierten Chatbots

Datengetriebene Bots

Datengetriebene Bots sind in der Regel mächtige neuronale Netzwerke, die auf Basis von Datenbanken mit Millionen von Beispielinteraktionen und -dialogen trainiert werden, wie in Abbildung 2 zu sehen. Hierbei lernt das neuronale Netz, welche Antworten typischerweise auf bestimmte Fragen oder Aussagen gegeben werden und kann dann auf Userinput reagieren. Das Netzwerk kann einen Userinput einlesen und erzeugt eine Antwort direkt auf Grundlage des aus den Trainingsdaten gelernten Verhaltens. Hierbei kommen keine expliziten Module zum Einsatz. Die Antwort wird end-to-end erzeugt, d.h. aus einer Texteingabe wird direkt eine Textausgabe erzeugt und lokal gespeichert. Datengetriebene Bots sind hinsichtlich ihrer Interaktionsmöglichkeiten nicht beschränkt, sondern können auf jeglichen Input reagieren. Wenn sehr viele Trainingsdaten vorhanden sind, können solche Bots nahezu menschlich reagieren und sehr realistische Antworten erzeugen. Dafür ist es schwieriger, ihnen ein bestimmtes Verhalten oder bestimmte Reaktionen anzutrainieren, da das in der Regel nur möglich ist, indem besonders viele entsprechende Trainingsbeispiele in das Netzwerk gegeben werden. Außerdem ist ihr Verhalten in der Regel nur schwer interpretierbar, da die Antworten direkt aus dem neuronalen Netzwerk erzeugt werden, welches nicht interpretierbar ist.

Abbildung 2: Ein datengetriebener Chatbot basiert in der Regel auf einem neuronalen Netz, das mit einer Vielzahl an Beispielinteraktionen trainiert wurde. Das neuronale Netz generiert aus einer Eingabe direkt eine Ausgabe.

Weiterführende Technologien

Chatbots werden in der Regel auf vielfältige Weise mit anderen sprachtechnologischen Anwendungen kombiniert. Eine einfache Erweiterung ist die Erweiterung auf gesprochene Sprache. Hierbei werden zwei Module hinzugefügt: Ein Modul, das gesprochene Sprache in Text umwandelt, wird vor den Chatbot gesetzt (Spracherkennung). Ein weiteres Modul wird hinter den Chatbot geschaltet, das gesprochene Sprache aus Text erzeugt (Spracherzeugung).

Außerdem werden für komplexere Fragen in der Regel hoch spezialisierte Question Answering– oder Information Retrieval (Informationsabruf)-Komponenten eingesetzt. Diese haben Zugriff auf eine Wissensdatenbank (z.B. Wikipedia), können natürlich-sprachliche Fragen interpretieren und Antworten aus der Datenbank extrahieren. Implementiert werden solche Systeme in der Regel auch als neuronale Netze.

Mögliche Anwendungsbereiche

  • Mögliche betriebliche Einsatzbereiche:
    • Service, Kundenmanagement
    • Forschung und Entwicklung
    • Marketing und Vertrieb
  • Kleine Auswahl möglicher Branchen: Informations- und Kommunikationstechnologie, Medien, Tourismus

Nutzen und Voraussetzungen für KMU

Der größte Nutzen in der Benutzung von Chatbot-Technologie für KMU besteht darin, Service- und Kundenmanagement-Aufgaben automatisieren zu können. Außerdem wird erhöhte Sichtbarkeit erzeugt und potenziellen Kunden signalisiert, dass das Unternehmen modern ist und es nicht scheut, neue KI-Technologien einzusetzen.

Voraussetzungen sind das Vorhandensein einer geeigneten Serverstruktur, auf der ein Chatbot gehostet werden muss. Außerdem müssen idealerweise Kompetenzen im Bereich der Programmierung eines Chatbots vorhanden sein. Komplexere KI-Technologien sind eher bei komplexen Dialogverläufen nötig und können teilweise direkt verwendet werden. Toolkits wie RASA bieten KMU einen schnellen Einstieg in die Technologie, sowie die Möglichkeit, schnell einfache Bots zu entwickeln.

Anwendungsbeispiel

Gründe für den KI-Einsatz

Oft fehlt Geflüchteten und Migrant:innen ein einfacher Zugang zu wichtigen Informationen in Bereichen wie Asyl, Unterbringung, Gesundheit, Bildung und Arbeit. Die Vielzahl an Quellen und Informationsangeboten ist dabei nicht immer hilfreich. Die Suche nach bestimmten Informationen ist oft zeitaufwendig und anstrengend, vor allem unter Berücksichtigung sprachlicher Barrieren.

Mit dem Portal www.handbookgermany.de betreibt der Verein “Neue deutsche Medienmacher e.V.” ein mehrsprachiges Informationsportal für Geflüchtete und Migrant:innen, das viele Informationen zentral bündelt und weiterführende Informationsangebote verlinkt. Im Projekt ERICS haben wir für das Portal den Chatbot „Eike“ entwickelt, der den Zugang zu wichtigen Informationen über eine leicht zu bedienende, ansprechende Nutzerschnittstelle bereitstellt. KI-Methoden wurden eingesetzt, um einen natürlichen, text-basierten Dialog zu ermöglichen.

Beschreibung der Anwendung

Im Rahmen von ERICS haben wir in Zusammenarbeit mit Forschern der Aalto University (https://www.aalto.fi/en) einen Chatbot entwickelt, der den Zugang zu Informationen des Online-Portals Handbookgermany.de erleichtern sollte. Das Ziel war die Entwicklung einer einfühlsamen und ansprechenden visuellen Benutzerschnittstelle, die einen einfachen Zugang zu wichtigen Informationen über natürlich-sprachliche Eingaben ermöglicht. Der Chatbot sollte außerdem Nutzerfeedback sammeln, um über die Zeit hinweg zu lernen, bessere Antworten zu generieren.

Der Chatbot wurde mithilfe des oben bereits erwähnten Open Source Frameworks RASA entwickelt. Dazu wurde ein Frage-Antwort-Modell basierend auf häufig gestellten Fragen trainiert und durch einen klassischen Suchalgorithmus (TF-IDF) ergänzt. Bei einer Nutzeranfrage bestimmt unser System die drei besten Antworten-Kandidaten. Es wird der erste Kandidat ausgegeben, wenn die Wahrscheinlichkeit hoch ist, dass die Anfrage dadurch direkt beantwortet wird. Ansonsten werden alle drei Kandidaten ausgegeben. Der Nutzer kann die Qualität bzw. Korrektheit der Antworten direkt im Chat-Fenster bewerten.

Der Chatbot „Eike“ war bis zum Re-Launch des Portals im Sommer 2022 erreichbar (4 Jahre).

Vorteile im Unternehmen durch den KI-Einsatz

Der Chatbot „Eike“ konnte nach zwei Monaten Laufzeit bereits über 1000 Nutzer erreichen.

Herausforderungen

Die größte Herausforderung bei der Entwicklung eines Chatbots wie „Eike“ ist, dass die Inhalte sich ständig ändern bzw. erweitern können. Dabei wurde der Ansatz verfolgt Nutzerfeedback direkt im Interaktionsdesign des Chatbots zu verankern, um die Inhalte direkt auswerten und entsprechend anpassen zu können. Eine weitere Herausforderung war die Entwicklung eines, für die Zielgruppe ansprechenden Designs. Das Design für den Chatbot „Eike“ wurde im Rahmen eines Co-Design Workshops von den Projektpartnern an der Aalto University entwickelt.

Wie wurde im Unternehmen Akzeptanz für den KI-Einsatz geschaffen?

Die projektverantwortlichen Mitarbeiter wurden in das Design und die Entwicklung des Chatbots mit einbezogen. Nach einem iterativen Entwicklungsprozess wurde der Chatbot auf der Webseite bereitgestellt.

Autor
Simon Ostermann

Dieser Beitrag wurde von Simon Ostermann verfasst. Er ist Senior Researcher am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und Lab Manager für den Forschungsbereich Multilingualität und Sprachtechnologie. Seine Forschung konzentriert sich auf natural language understanding und die Evaluierung und Modellierung von Weltwissen in der Sprachverarbeitung.

Simon Ostermann
Autor
Günter Neumann

Dieser Beitrag wurde von Günter Neumann verfasst. Er ist Principal Researcher and Research Fellow am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und Professor für Sprachtechnologie an der Universität des Saarlandes. Seine Forschung konzentriert sich auf Methoden des maschinellen Lernens im Bereich der Fragebeantwortung und Informationsextraktion.

Günter Neumann
Autor
Michael Barz

Dieser Beitrag wurde von Michael Barz verfasst. Er ist Researcher im Fachbereich Interaktives Maschinelles Lernen (IML) am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und leitet dort eine Forschungsgruppe zum Thema intelligente multimodale Benutzerschnittstellen.

Michael Barz