Wissenspool-Beitrag

Automatische Textzusammenfassung

26.12.2022

Lesezeit: ca. 12 min

Lesen kostet Zeit. In einer Welt, in der es ein Überangebot an Informationen gibt, sind Zusammenfassungen von Informationen wünschenswert. Eine der anspruchsvollsten Aufgaben im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), ist das automatische Zusammenfassen von Textdaten, die Automatic Text Summarization (ATS). Eine automatische Zusammenfassung sollte hierbei den Inhalt eines Textes komprimiert wiedergeben, wobei wichtige Aspekte beibehalten und unwichtige Details verworfen werden. Hierbei unterscheidet man zwischen zwei grundsätzlichen Ansätzen.

Extractive Summarization

Stellen Sie sich vor, Sie würden in einem Text die wichtigsten Sätze mit einem Textmarker hervorheben, diese dann entnehmen (extrahieren) und in einem neuen Dokument zusammenfügen. Genau das ist die Idee bei der „Extractive Summarization“. In Darstellung 1 ist die Architektur eines solchen Systems aufgezeigt. Die Erstellung einer Zusammenfassung funktioniert hierbei folgendermaßen:

Pre-processing: Wie vor den meisten Aufgaben der natürlichen Sprachverarbeitung wird der Text zuerst in eine geordnete Form gebracht. Dieses „Pre-processing“ beinhaltet beispielsweise die Aufteilung des Textes in einzelne Wörter (Tokenisierung), sowie die Überführung aller Wörter in ihre Grundform (Lemmatisierung). Dies dient dazu, dass beispielsweise die Wortformen „Text“ und „Textes“ als identisch erkannt werden.
Erstellen einer textuellen Repräsentation: Anschließend wird der Text in eine geeignete Repräsentation überführt. Eine beispielhafte Vorgehensweise ist, die Sätze als „bag-of-words“ darzustellen, d.h. als eine Aufzählung der in dem Satz vorkommenden Wörter mit der Anzahl ihres Auftretens, ohne Beachtung der Reihenfolge.
„Scoring“ der Sätze: Das Herzstück eines „Extractive Summarization“-Systems ist die Beurteilung darüber, welche der Sätze eines Textes wichtig bzw. aussagekräftig, und welche weniger wichtig sind. Hierbei gibt es viele verschiedene Methoden, die Sätze in eine Reihenfolge zu bringen. Beispielhaft zu nennen sind statistische Methoden, bei denen wichtige Sätze und Wörter aus dem Ausgangstext auf der Grundlage der statistischen Analyse einer Reihe von Merkmalen extrahiert werden. Der „wichtigste“ Satz könnte beispielsweise als derjenige definiert werden, welcher am häufigsten vorkommt. Da dieses Aussuchen der wichtigsten Sätze eng mit der Informationsextraktion verwandt ist, möchte ich den interessierten Leser an dieser Stelle auf einen Artikel über dieses Thema verweisen.
Extraktion von hoch bewerteten Sätzen: Nach der Sortierung der Sätze muss nun noch entschieden werden, welche und wie viele Sätze aus dem Originaltext zur Erstellung der Zusammenfassung verkettet werden. Oft wird die Anzahl der Sätze durch eine vorher gewählte Komprimierungsrate bestimmt, mit der die gewünschte Länge der Zusammenfassung im Vergleich zur Länge des Originaltextes bezeichnet wird. Typischerweise wird die Reihenfolge der ausgewählten Sätze entsprechend des Eingabetextes beibehalten.
Post-Processing: In einem letzten Schritt kann der zusammengesetzte Text nochmal überarbeitet werden. Beispielweise durch die Neuordnung der extrahierten Sätze, oder durch das Ersetzen von Pronomen durch Eigennamen. Hierbei wird beispielsweise der Satz „Er isst einen Apfel“ nach „Peter isst einen Apfel“ überführt, weil ersteres durch das Wegfallen von Zwischensätzen unverständlich geworden sein könnte und die Referenz des Pronomens nicht mehr klar ersichtlich ist.

Figure 1: Der Prozess der „Extractive Summarization“¹

„Extractive Summarization“ ist eine relativ einfache Herangehensweise, die typischerweise für hohe Präzision sorgt. Allerdings ist der fehlende Zusammenhang zwischen den einzelnen Sätzen oftmals ein Problem. Außerdem ist es fast unmöglich, eine starke Kompression des Textes zu erzielen, um zum Beispiel ein Buch in wenigen Sätzen zusammenfassen. Ungeeignet ist diese Herangehensweise außerdem für Texte, die viel Interpretation benötigen.

Abstractive Summarization

Eine andere Herangehensweise besteht darin, den Originaltext zuerst in eine, typischerweise nicht textuelle, Zwischen-Repräsentation zu überführen, die die Semantik des Textes enkodiert. Aus dieser wird dann die Zusammenfassung erstellt, indem völlig neue Sätze generiert werden. Ein Beispiel für eine hochkomprimierte, abstraktive Zusammenfassung des Stückes „Romeo und Julia“ von Shakespeare könnte Folgende sein: „Mädchen und Junge verlieben sich. Familien hassen sich. Viel Drama und beide sterben.“². Diese Herangehensweise kann im Idealfall hochqualitative Zusammenfassungen generieren, die menschengemachten Zusammenfassungen sehr ähnlich sind. Allerdings ist die technische Umsetzung hochanspruchsvoll, da die Maschine (a) den Inhalt und die wichtigsten Konzepte eines Textes erfassen muss, und (b) neue Sätze generieren muss, um den Inhalt zu paraphrasieren.

Wie bei den meisten anspruchsvollen Aufgaben in der natürlichen Sprachverarbeitung wird „Abstractive Summarization“ heutzutage praktisch ausschließlich durch neuronale Netze und bestimmte Deep-Learning-Architekturen umgesetzt. In Darstellung 2 ist die Architektur eines solchen Systems aufgezeigt, wobei die Erstellung einer Zusammenfassung folgendermaßen abläuft:

Erstellen einer Zwischenrepräsentation: Im ersten Schritt nach dem Pre-processing (s.o.) wird der Originaltext in eine Zwischenrepräsentation überführt, mit dem Ziel den Inhalt des Textes zu erfassen. Hierzu werden vortrainierte Sprachmodelle, zum Beispiel BERT³, verwendet, die die Wörter des Originaltextes in sogenannte kontextualisierte, kontinuierliche Wordrepräsentationen oder Worteinbettungen, übersetzen. Die Idee hierbei ist, Wörter als hochdimensionale Vektoren darzustellen, wobei semantisch ähnlichen Wörtern auch ähnliche Vektoren zugewiesen werden. Somit kann man von dem Abstand zwischen zwei Worteinbettungen auf die semantische Beziehung zwischen den zugehörigen Wörtern schließen. Die Bedeutung eines Wortes lässt sich also durch algebraische Operationen erschließen, was auch Maschinen möglich ist.
Erstellen der Zusammenfassung: Die Zwischen-Repräsentation des Textes wird anschließend in ein neuronales Netz gegeben. Dieses wurde zuvor mithilfe großer Mengen manuell erstellter Paare aus Originaltext und Zusammenfassung darauf trainiert, passende Zusammenfassungen in natürlicher Sprache zu generieren. Die Länge und der Stil der automatisch generierten Zusammenfassung ist hierbei eine direkte Konsequenz der zuvor verwendeten Trainingsdaten. Auch die Qualität des Modells wird neben der Auswahl einer passenden Architektur primär durch die Qualität und Quantität der Trainingsdaten bestimmt. Dies beruht darauf, dass Systeme zur automatischen Textzusammenfassung wie alle neuronalen Netze keinerlei kreative Fähigkeiten entwickeln, sondern lediglich ein direktes Produkt ihrer Erfahrungen sind.

Figure 2: Der Prozess der „Abstractive Summarization“¹

Mithilfe von „Abstractive Summarization“ lassen sich komprimierte, paraphrasierte Zusammenfassungen erstellen, die näher an manuellen, menschgemachten Zusammenfassungen liegen. Außerdem ist durch die Generierung neuer Sätze eine stärkere Komprimierung als bei extraktiven Methoden möglich. Allerdings ist die Erstellung einer qualitativ hochwertigen abstrakten Zusammenfassung aufgrund der benötigten Technologien (noch) sehr schwierig⁴.

Hybride Ansätze

Natürlich können beide Ansätze auch zu hybriden Ansätzen der automatischen Textzusammenfassung kombiniert werden. Hierbei wird typischerweise mithilfe von „Extractive Summarization“ in einem ersten Schritt der Umfang des Textes reduziert, bevor dann Methoden der „Abstractive Summarization“ angewendet werden.

Ausreifung der Technologie

In einem Überblicksartikel zu der Technologie aus dem Jahre 2021 stellen die Autoren fest, dass „die generierten Zusammenfassungen trotz aller entwickelten Methoden immer noch weit von Menschen erzeugten Zusammenfassungen entfernt sind“¹. Trotzdem gibt es bereits viele vielversprechende Ansätze und erfolgversprechende Ergebnisse. Eines der neusten dieser vielversprechenden Modelle ist BertSum.

Anwendung in der Industrie

Textzusammenfassungs-Methoden können im Prinzip überall dort verwendet werden, wo Informationen in Form von Prosatexten vorliegen, z.B. News, Berichte, Dokumentationen, Wissensquellen, Marktanalysen und Personalmanagement (Auswahl von Bewerbern aus einem großen Pool o.ä.).

Quellenverzeichnis

1. Wafaa S. El-Kassas, Cherif R. Salama, Ahmed A. Rafea, and Hoda K. Mohamed. “Automatic text summarization: A comprehensive survey”. Expert Systems with Applications, Volume 165 (2021).

2. https://learnattack.de/journal/zusammenfassung-von-romeo-und-julia/

3. Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).

4. Hou, L., Hu, P., & Bei, C. (2017). Abstractive Document Summarization via Neural Model with Joint Attention. Paper presented at the Natural Language Processing and Chinese Computing, Dalian, China.

Autorin

Tanja Bäumel

Tanja Bäumel ist Computerlinguistik-Forscherin mit einem multidisziplinären Hintergrund in Computerlinguistik, Informatik und Kognitionswissenschaft, aktuell im Forschungsbereich „Multilingualität und Sprachtechnologie“ am Deutschen Forschungszentrum für Künstliche Intelligenz. Sie forscht auf dem Gebiet der erklärbaren künstlichen Intelligenz (XAI), mit Schwerpunkt auf der Interpretierbarkeit groß angelegter vortrainierter Sprachmodelle.

Wissenspool-Beitrag

Künstliche Intelligenz

Wie bringen wir KI menschzentriert auf den betrieblichen Hallenboden?

6 Zukunftsthesen Dieser Text entstand im Rahmen des 3. Vernetzungstreffens der Zukunftszentren am 15.05.2024 in Darmstadt. Unter dem Titel: „Wie bringen wir KI auf den betrieblichen Hallenboden?“ wurden dort im Rahmen eines World Cafés Thesen zu Aspekten der beraterischen Praxis in den Zukunftszentren aufgestellt und diskutiert. Mit welchen praktischen Herausforderungen sind die Beraterinnen der Zukunftszentren […]

Wissenspool-Beitrag

Künstliche Intelligenz

Künstliche Intelligenz im Mittelstand – Die KI-Studie von Mittelstand-Digital

Seit 2017 hat sich die Anzahl von Unternehmen, die KI nutzen verdoppelt – auch kleine und mittlere Unternehmen stellen sich daher vermehrt die Frage, ob und wie künstliche Intelligenz im Arbeitskontext nutzbar ist. Im Dezember 2023 veröffentlichte Mittelstand-Digital im Auftrag des Bundesministeriums für Wirtschaft und Klimaschutz hierzu die Erhebung ihrer Begleitforschung unter dem Titel „Künstliche […]

Wissenspool-Beitrag

Künstliche Intelligenz

KI-Tools für die Erstellung von Dokumenten: Entlastung oder zusätzliche Ausgabe?

Gut aufgearbeitete und visuell ansprechende Präsentationen und Dokumente sind unverzichtbare Werkzeuge für Kommunikation und Zusammenarbeit in der digitalen Arbeitswelt. Doch während die Nachfrage nach hochwertigen Inhalten steigt, wächst auch der Bedarf an effizienteren Methoden zu ihrer Erstellung. Bisher war die Erstellung von Dokumenten und Präsentationen ein zeitaufwändiger Prozess, der oft manuelle Eingaben, Formatierungen und Recherchen […]

Wissenspool-Beitrag

Künstliche Intelligenz

Stärkere Reglementierung von Künstlicher Intelligenz in der Europäischen Union

Die erste Hürde für das erste KI-Gesetz der Welt ist genommen. Am 13.03.2024 stimmte das Europäische Parlament in Straßburg mehrheitlich für den, schon bereits 2021 von der EU-Kommission vorgelegten, Gesetzentwurf zur Regulierung des Einsatzes von KI. Nun fehlt nur noch die Zustimmung des Europäischen Rats und die KI-Verordnung würde bereits 20 Tage nach der Veröffentlichung […]

Wissenspool-Beitrag

Künstliche Intelligenz

Maschinelles Lernen leicht gemacht: Grundlagen und Anwendungen für Ihr mittelständisches Unternehmen

Künstliche Intelligenz (KI) mag auf den ersten Blick kompliziert erscheinen, tatsächlich verbirgt sich dahinter aber eine Welt voller Möglichkeiten, insbesondere in den Bereichen Machine Learning und Deep Learning. Lassen Sie uns diese Konzepte gemeinsam beleuchten und verstehen:

Wissenspool-Beitrag

Qualifizierung und Fachkräfte, Künstliche Intelligenz

Fachkräfte gewinnen mit Daten und Künstlicher Intelligenz

Der Fach- und Arbeitskräftemangel wird zu einer immer größeren Herausforderung in vielen Branchen. Besonders in der deutschen Sozial- und Gesundheitswirtschaft fehlen bereits heute zahlreiche Fachkräfte und es ist zu erwarten, dass sich dieser Trend zukünftig weiter fortsetzt. Gleichzeitig steigt die Zahl der pflege- und hilfsbedürftigen Menschen, was die Versorgungslücke in der Sozialwirtschaft vergrößert. Um dem […]

Wissenspool-Beitrag

Künstliche Intelligenz, Soziale Verantwortung

KI in der Pflege – Gefahr von Diskriminierung

Die Technologien, die landläufig unter den Begriff „Künstliche Intelligenz“ gefasst werden, dringen in immer mehr Bereiche unserer Arbeit vor – wir haben hier im Blog zum Beispiel bereits auf Einsatzmöglichkeiten im Personalbereich hingewiesen. Gerade bei diesem Thema besteht jedoch die Gefahr, dass der Einsatz von KI Diskriminierungen reproduziert und innovative Ansätze blockiert. Hier geht’s zum […]

Wissenspool-Beitrag

Künstliche Intelligenz

Das neue KI-Gesetz der Europäischen Union: Leitlinien als ein Werkzeug der Umsetzung im Unternehmen

Leitlinien für eine KI-Rahmenvereinbarung Die Implementierung von KI in Unternehmen muss den neuen Bestimmungen des …

Wissenspool-Beitrag

Qualifizierung und Fachkräfte, Künstliche Intelligenz

Enorme Veränderungen durch KI: Beschäftigte müssen geschult werden

Künstliche Intelligenz (KI) verändert unser Leben. Ob in der Medizin, beim Online-Shopping, im Straßenverkehr oder beim Schreiben von Texten: Das Potenzial von KI ist enorm. Überall dort, wo viele Daten verfügbar sind, verändert KI die Art und Weise, wie Menschen Aufgaben erledigen können. In einer Umfrage unter deutschen Erwachsenen im Alter bis zu 75 Jahren gibt ein Drittel der Personen […]

Wissenspool-Beitrag

Künstliche Intelligenz, Qualifizierung und Fachkräfte

„KI kann Personalteams darin unterstützen, das Potenzial von Menschen zu entdecken“

ANNA KAISER Unternehmerin und Mitglied im Rat der Arbeitswelt Anna Kaiser ist Gründerin und ehemalige CEO des Tech-Start-ups Tandemploy. Heute fungiert sie als Angel Investorin sowie Vice President EMEA, Innovation & Strategy beim globalen Tech-Unternehmen Phenom. Sie ist Mitglied verschiedener Gremien, darunter der Beirat Junge Digitale Wirtschaft des Bundesministeriums für Wirtschaft und Klimaschutz sowie der […]

Wissenspool-Beitrag

Künstliche Intelligenz, Qualifizierung und Fachkräfte

KI in produzierenden Unternehmen: Nutzen für Unternehmen und Beschäftigte

Künstliche Intelligenz (KI) gilt als eine der wichtigen Zukunftstechnologien. Deshalb befassen sich viele Studien mit ihrem Einfluss auf die Arbeitswelt. Im Zentrum steht häufig die Frage, wie KI “human friendly” eingesetzt werden kann – also so, dass keine Arbeitsplätze abgebaut werden oder sich die Arbeit zusätzlich intensiviert. Das ifaa – Institut für angewandte Arbeitswissenschaft e.V. untersuchte in einer Online-Befragung […]

Wissenspool-Beitrag

Qualifizierung und Fachkräfte, Künstliche Intelligenz

Einstieg in KI für Reiseunternehmen – unsere Ideenwerkstatt

Das 25-köpfige Team der HORiZONTE GmbH in Münster bietet Ferienfreizeiten, Gruppenreisen und Klassenfahrten inkl. Beförderung und Reiseleitung in Gruppenhäuser und Zeltcamps verschiedener Reiseziele in Europa an. Das Reisekonzept beinhaltet Rundum-Pakete inklusive Busbeförderung und landeskundige Servicereiseleitung vor Ort. Individuelle Wünsche von Klassenlehrern, Vereinsmitarbeitenden oder Jugendfreizeitorganisatoren werden bei der Reiseplanung gerne berücksichtigt. Seit 1982 steht die HORiZONTE GmbH für einen […]

Alle Wissenspool Beiträge