Was ist ein großes Sprachmodell (Large Language Model, LLM)?
Definition: Großes Sprachmodell
Ein großes Sprachmodell (Large Language Model, LLM) ist ein Deep-Learning-Algorithmus, der eine Vielzahl von Aufgaben im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) ausführen kann. Große Sprachmodelle verwenden Transformationsmodelle und werden mit riesigen Datensätzen trainiert, daher auch der Name (Groß). Auf diese Weise können sie Texte oder andere Inhalte erkennen, übersetzen, vorhersagen oder generieren.
Große Sprachmodelle werden manchmal auch als neuronale Netze (NNs) bezeichnet, da es sich um Computingsysteme handelt, die vom menschlichen Gehirn inspiriert wurden. Diese neuronalen Netze verwenden ein Netzwerk aus mehrschichtigen Knoten, genau wie unsere Neuronen.
Große Sprachmodelle können nicht nur darauf trainiert werden, KI-Anwendungen (Künstliche Intelligenz) menschliche Sprache beizubringen, sondern eigenen sich für eine Vielzahl weiterer Aufgaben, etwa die Analyse von Proteinstrukturen, das Schreiben von Softwarecode und vieles mehr. Genau wie das menschliche Gehirn müssen große Sprachmodelle vorab trainiert und dann feinjustiert werden, um Probleme wie Textklassifizierung, Beantwortung von Fragen, Dokumentzusammenfassung und Textgenerierung zu lösen. Diese Problemlösungsfähigkeiten können dann in Bereichen wie Gesundheits- und Finanzwesen oder Entertainment eingesetzt werden. Dort werden große Sprachmodelle in einer Vielzahl von NLP-Anwendungen eingesetzt, wie etwa für Übersetzungen, Chatbots, KI-Assistenten und vieles mehr.
Große Sprachmodelle haben außerdem eine Vielzahl von Parametern, die den Erinnerungen entsprechen, die das Modell beim Training sammelt. Sie können sich diese Parameter wie die Wissensdatenbank des Modells vorstellen.
Was ist ein Transformationsmodell?
Ein Transformationsmodell ist die gängigste Architekturform eines großen Sprachmodells. Es besteht aus einem Encoder und einem Decoder. Transformationsmodelle verarbeiten Daten, indem zunächst die Eingabe tokenisiert und anschließend parallele mathematische Gleichungen verwendet werden, um Beziehungen zwischen den Token zu ermitteln. Auf diese Weise kann der Computer dieselben Muster erkennen, die auch ein Mensch für dieselbe Fragestellung sehen würde.
Transformationsmodelle verwenden Selbstbeobachtungsmechanismen, mit denen das Modell schneller lernen kann als herkömmliche Modelle, wie etwa Modelle mit Lang- und Kurzzeitgedächtnis. Mit der Selbstbeobachtung kann das Transformationsmodell unterschiedliche Satzteile oder auch den gesamten Kontext von Sätzen berücksichtigen, um Vorhersagen zu treffen.
Wichtige Komponenten von großen Sprachmodellen
Große Sprachmodelle bestehen aus mehrschichtigen neuronalen Netzen. Rekurrente Schichten, Feedforward-Schichten, Einbettungsschichten und Beobachtungsschichten arbeiten zusammen, um Eingabetexte zu verarbeiten und Ausgabeinhalte zu erzeugen.
Die Einbettungsschicht generiert Einbettungen aus dem Eingabetext. Dieser Teil des großen Sprachmodells erfasst die semantische und syntaktische Bedeutung der Eingabe, damit das Modell den Kontext verstehen kann.
Die Feedforward-Schicht (Feedforward Layer, FFN) eines großen Sprachmodells besteht aus mehreren vollständig miteinander verbundenen Schichten, die die Eingabeeinbettungen transformieren. Damit helfen diese Schichten dem Modell, Abstraktionen auf höheren Ebenen zu erfassen, wie beispielsweise die Absichten der Nutzer bei der Texteingabe.
Die rekurrente Schickt wertet die Wörter im Eingabetext nacheinander aus. Sie erfasst die Beziehungen zwischen Wörtern in einem Satz.
Mit dem Beobachtungsmechanismus kann sich ein Sprachmodell auf einzelne Teile des Eingabetexts konzentrieren, die für die aktuelle Aufgabe relevant sind. Mit dieser Schicht kann das Modell besonders exakte Ausgaben generieren.
Transformationen in Ihren Suchanwendungen einsetzen
Wir unterscheiden drei verschiedene Arten von großen Sprachmodellen:
- Allgemeine oder rohe Sprachmodelle sagen das nächste Wort anhand der Sprache in den Trainingsdaten vorher. Diese Sprachmodelle werden eingesetzt, um Informationen abzurufen.
- Mit Anweisungen justierte Sprachmodelle werden trainiert, um Antworten auf die in der Eingabe enthaltenen Anweisungen vorherzusagen. Auf diese Weise können Standpunktanalysen durchgeführt oder Texte oder Code generiert werden.
- Mit Dialogen justierte Sprachmodelle werden trainiert, um Dialoge zu führen, indem die nächste Antwort vorhergesagt wird. Mögliche Einsatzbereiche sind Chatbots oder KI für Unterhaltungen.
Was ist der Unterschied zwischen großen Sprachmodellen und generativer KI?
Generative KI ist ein Oberbegriff für KI-Modelle, die in der Lage sind, Inhalte zu generieren. Generative KI kann Text, Code, Bilder, Video und Musik generieren. Beispiele für generative KI sind Midjourney, DALL-E und ChatGPT.
Große Sprachmodelle sind eine Art von generativer KI, die mit Texten trainiert wird und Textinhalte generiert. ChatGPT ist ein beliebtes Beispiel für eine generative Text-KI.
Alle großen Sprachmodelle sind eine Art von generativer KI1.
Wie funktionieren große Sprachmodelle?
Große Sprachmodelle basieren auf Transformationsmodellen: Sie erhalten Eingaben, kodieren diese Eingaben und dekodieren sie anschließend, um Vorhersagen auszugeben. Aber bevor ein großes Sprachmodell Texteingaben erhalten und Vorhersagen ausgeben kann, muss es trainiert werden, um allgemeine Funktionen zu erfüllen, und feinjustiert, um spezifische Aufgaben zu erfüllen.
Training: Große Sprachmodelle werden vorab mit großen Textkorpora von Wikipedia, GitHub oder anderen Websites trainiert. Diese Datensätze enthalten Billionen von Wörtern, und ihre Qualität beeinflusst die Leistung des Sprachmodells. In dieser Phase lernt das große Sprachmodell unbeaufsichtigt, da es die ihm zugeführten Datensätze ohne spezifische Anweisungen verarbeitet. Bei diesem Prozess lernt der KI-Algorithmus des LLM die Bedeutung von Wörtern und die Beziehungen zwischen Wörtern. Außerdem lernt es, Wörter kontextbasiert voneinander zu unterscheiden. Es lernt beispielsweise, zu verstehen, ob mit „August“ ein Monat oder der Name einer Person gemeint ist.
Feinjustierung: Um ein großes Sprachmodell für spezifische Aufgaben vorzubereiten, etwa für Übersetzungen, muss es für die jeweilige Aktivität feinjustiert werden. Bei der Feinjustierung wird die Leistung bestimmter Aufgaben optimiert.
Die Anweisungsjustierung (Prompt-Tuning) dient einem ähnlichen Zweck wie die Feinjustierung. Dabei wird ein Modell mit wenigen oder gar keinen Anweisungen für eine bestimmte Aufgabe trainiert. Die Anweisungen werden an das LLM gerichtet. Beim Trainingsverfahren mit wenigen Anweisungen lernt das Modell anhand von Beispielen, Vorhersagen zu treffen. Bei einer Standpunktanalyse könnten beispielsweise die folgenden Anweisungen verwendet werden:
Customer review: This plant is so beautiful!
Customer sentiment: positive
Customer review: This plant is so hideous!
Customer sentiment: negative
Das Sprachmodell versteht anhand der semantischen Bedeutung von „hideous“ (hässlich) und durch das bereitgestellte Gegenbeispiel, dass der Kundenstandpunkt im zweiten Beispiel „negativ“ ist.
Beim alternativen Zero-Shot-Modell werden keine Beispiele angegeben, um dem Sprachmodell beizubringen, wie es auf Eingaben antworten soll. Stattdessen wird die Frage formuliert als „Der Standpunkt in ‚Diese Pflanze ist total hässlich‘ ist ...“. Damit ist eindeutig angegeben, welche Aufgabe vom Sprachmodell erwartet wird, ohne jedoch Problemlösungsbeispiele zu liefern.
Anwendungsfälle für große Sprachmodelle
Große Sprachmodelle können für verschiedene Zwecke verwendet werden:
- Informationsabruf: Denken Sie etwa an Bing oder Google. Wenn Sie eine dieser Suchfunktionen nutzen, wird dabei ein großes Sprachmodell eingesetzt, um Informationen als Antwort auf Ihre Abfrage zu liefern. Das Modell ruft Informationen ab und kann die Antwort anschließend im Unterhaltungsstil zusammenfassen und kommunizieren.
- Standpunktanalyse: Im Bereich der natürlichen Sprachverarbeitung können Unternehmen große Sprachmodelle nutzen, um die Stimmung in Textdaten zu analysieren.
- Textgenerierung: Generative KI wie etwa ChatGPT verwendet große Sprachmodelle und generiert Texte auf Basis von Eingaben. Diese Anwendungen können auf Anfrage hin Textbeispiele generieren. Zum Beispiel: „Schreibe ein Gedicht über Palmen im Stil von Emily Dickinson.“
- Codegenerierung: Codegenerierung ist ebenso wie Textgenerierung ein Anwendungsbereich von generativer KI. LLMs verstehen Muster und können daher eingesetzt werden, um Code zu generieren.
- Chatbots und KI für Unterhaltungen: Dank großen Sprachmodellen können Kundenservice-Chatbots oder Unterhaltungs-KIs mit Kunden interagieren, die Bedeutung von Fragen oder Antworten interpretieren und entsprechende Antworten liefern.
Neben diesen Anwendungsfällen können große Sprachmodelle auch Sätze vervollständigen, Fragen beantworten und Texte zusammenfassen.
Angesichts dieser vielfältigen Anwendungsmöglichkeiten werden große Sprachmodelle in einer Vielzahl von Bereichen eingesetzt:
- Technologie: Große Sprachmodelle werden überall eingesetzt, von der Beantwortung von Anfragen durch Suchmaschinen bis hin zur Unterstützung von Entwicklern beim Schreiben von Code.
- Gesundheitswesen und Wissenschaft: Große Sprachmodelle sind in der Lage, Proteine, Moleküle, DNA und RNA zu verstehen. Dadurch können LLMs helfen, Impfstoffe zu entwickeln, Heilmittel für Krankheiten zu finden und präventive Medikamente zu verbessern. LLMs werden außerdem als medizinische Chatbots eingesetzt, um Patienten aufzunehmen oder einfache Diagnosen zu stellen.
- Kundenservice: LLMs werden branchenübergreifend im Kundenservice eingesetzt, etwa in Form von Chatbots oder Unterhaltungs-KI.
- Marketing: Marketingteams können LLMs einsetzen, um Standpunktanalysen durchzuführen und im Handumdrehen Ideen für Kampagnen, Beispiele für Pitching-Texte und vieles mehr zu generieren.
- Rechtswesen: Große Sprachmodelle unterstützen Anwälte, Anwaltsgehilfen und juristische Mitarbeiter von der Suche in riesigen Textdatensätzen bis hin zur Erstellung juristischer Texte.
- Bankwesen: LLMs helfen Kreditkartenunternehmen bei der Betrugserkennung.
Vorteile von großen Sprachmodellen
Mit ihrem breiten Anwendungsspektrum sind große Sprachmodelle außerordentlich vorteilhaft, um Probleme zu lösen, da sie Informationen in einem klaren und für die Nutzer leicht verständlichen Unterhaltungsstil liefern.
Breites Anwendungsfeld: LLMs werden unter anderem in den Bereichen Sprachübersetzung, Satzvervollständigung, Standpunktanalysen, Beantwortung von Fragen und mathematische Gleichungen eingesetzt.
Fortlaufende Verbesserung: Die Leistung von großen Sprachmodellen nimmt ständig zu, da die Modelle wachsen, wenn weitere Daten und Parameter hinzugefügt werden. Je mehr die Modelle lernen, desto besser werden sie. Außerdem sind große Sprachmodelle zu sogenanntem „Im-Kontext-Lernen“ fähig. Nachdem das Anfangstraining eines LLM abgeschlossen wurde, kann das Modell mit wenigen Anweisungen ohne weitere Parameter anhand der Anweisungen lernen. Auf diese Weise lernt das Modell fortlaufend weiter.
LLMs lernen schnell: Beim Im-Kontext-Lernen entwickeln sich große Sprachmodelle schnell weiter, weil sie keine zusätzlichen Gewichtungen, Ressourcen und Parameter für das Training benötigen. „Schnell“ bedeutet in diesem Fall, dass sie mit wenigen Beispielen auskommen.
Einschränkungen und Herausforderungen von großen Sprachmodellen
Große Sprachmodelle gaukeln uns manchmal vor, dass sie Bedeutungen verstehen und exakt darauf antworten können. Große Sprachmodelle sind jedoch nach wie vor ein technologisches Tool, daher gilt es verschiedene Herausforderungen zu berücksichtigen.
Halluzinationen: Eine Halluzination tritt auf, wenn ein LLM eine Ausgabe generiert, die falsch ist oder nicht der Nutzerabsicht entspricht. Beispiele sind LLMs, die sich als Menschen ausgeben, Emotionen vortäuschen oder dem Nutzer ihre Liebe erklären. Große Sprachmodelle sagen die nächsten syntaktisch richtigen Wörter oder Sätze vorher und können daher menschliche Absichten nicht vollständig interpretieren. Dadurch entstehen manchmal sogenannte Halluzinationen.
Sicherheit: Große Sprachmodelle bergen erhebliche Sicherheitsrisiken, wenn sie nicht angemessen verwaltet oder überwacht werden. Sie können private Informationen von Personen offenlegen, an Phishing-Betrugsmaschen teilnehmen oder Spam produzieren. Böswillige Nutzer können einer KI ihre Ideologien oder Vorurteile einprogrammieren und sie zur Verbreitung von Fehlinformationen einsetzen. Dies kann verheerende globale Folgen haben.
Verzerrungen: Die Daten, mit denen ein Sprachmodell trainiert wurde, beeinflussen die Ausgaben des Modells. Wenn die Daten also nur eine einzige Bevölkerungsgruppe enthalten oder nicht vielfältig genug sind, dann sind die Ausgaben des großen Sprachmodells ebenfalls nicht besonders vielfältig.
Einwilligung: Große Sprachmodelle werden mit Billionen von Datensätzen trainiert, die unter Umständen nicht ausschließlich unter Einwilligung beschafft wurden. Beim Scraping von Daten aus dem Internet kommt es vor, dass große Sprachmodelle Urheberrechtslizenzen ignorieren, sich schriftliche Inhalte aneignen und proprietäre Inhalte wiederverwenden, ohne dafür die Erlaubnis der ursprünglichen Besitzer oder Künstler einzuholen. In den Ausgaben gibt es keine Möglichkeit, die Datenherkunft nachzuverfolgen und oft werden die Ersteller nicht genannt. Dies kann urheberrechtliche Probleme für Nutzer nach sich ziehen.
Außerdem kann es passieren, dass LLMs personenbezogene Daten auslesen, wie etwa Namen von Motiven oder Fotografen aus den Beschreibungen von Fotos, was die Privatsphäre verletzen kann2. LLMs wurden bereits mehrfach aufgrund von Urheberrechtsverletzungen verklagt, inklusive einer prominenten Klage von Getty Images3.
Skalierung: Es ist oft zeit- und ressourcenaufwändig, große Sprachmodelle zu skalieren und zu warten.
Bereitstellung: Für die Bereitstellung großer Sprachmodelle sind Deep Learning, ein Transformationsmodell, verteilte Soft- und Hardware sowie allgemeine technische Fachkenntnisse erforderlich.
Beispiele für beliebte große Sprachmodelle
Einige große Sprachmodelle haben die Welt im Sturm erobert. Viele von ihnen werden inzwischen in verschiedensten Branchen eingesetzt. Sie haben bestimmt schon von ChatGPT gehört, einer Art von Chatbot mit generativer KI.
Weitere Beispiele für beliebte LLMs:
- PaLM: Das Pathways Language Model (PaLM) von Google ist ein Transformationssprachmodell, das logische und arithmetische Schlussfolgerungen ziehen, Witze erklären, Code generieren und Texte übersetzen kann.
- BERT: Das Sprachmodell „Bidirectional Encoder Representations from Transformers“ (BERT) wurde ebenfalls von Google entwickelt. Dieses transformationsbasierte Modell kann natürliche Sprache verstehen und Fragen beantworten.
- XLNet: Als Permutationssprachmodell generiert XLNet Ausgabevorhersagen in zufälliger Reihenfolge und unterscheidet sich daher von BERT. XLNet beurteilt die Muster kodierter Token und sagt anschließend Token in zufälliger anstatt sequenzieller Reihenfolge voraus.
- GPT: Generative Pre-Trained Transformers (generative, vorab trainierte Transformationen) sind vermutlich die bekannteste Art von großen Sprachmodellen. Die von OpenAI entwickelte GPT ist ein beliebtes Grundmodell, dessen durchnummerierte Iterationen jeweils Verbesserungen gegenüber der Vorgängerversion sind (GPT-3, GPT-4 usw.). Dieses Modell kann für bestimmte Downstream-Aufgaben feinjustiert werden. Beispiele für solche Justierungen sind EinsteinGPT, das von Salesforce für CRM entwickelt wurde, und BloombergGPT von Bloomberg für den Finanzbereich.
Zukünftige Fortschritte im Bereich der großen Sprachmodelle
Mit der Einführung von ChatGPT sind große Sprachmodelle ins Rampenlicht gerückt und haben Spekulationen und hitzige Debatten darüber ausgelöst, wie die Zukunft aussehen könnte.
Angesichts immer weiter wachsenden und immer ausgefeilter antwortenden großen Sprachmodellen gibt es zahlreiche Bedenken über die Auswirkungen dieser Fortschritte auf den Arbeitsmarkt. Es besteht kein Zweifel daran, dass große Sprachmodelle in der Lage sein werden, Personen in bestimmten Bereichen zu ersetzen.
In den richtigen Händen können große Sprachmodelle die Produktivität und Effizienz von Prozessen steigern, wobei jedoch bestimmte ethische und gesellschaftliche Fragen nicht übergangen werden dürfen.
Wir präsentieren die Elasticsearch Relevance Engine
Die Elasticsearch Relevance Engine (ESRE) ist ein speziell für KI-gestützte Anwendungen erstelltes Relevanzmodul, das die aktuellen Einschränkungen von LLMs überwindet. Mit ESRE können Entwickler eigene semantische Suchanwendungen erstellen, eigene Transformationsmodelle verwenden und NLP und generative KI kombinieren, um ihren Kunden ein herausragendes Sucherlebnis zu bieten.
Die Elasticsearch Relevance Engine ist der Turbo für Ihre Relevanz
Ressourcen zum Thema große Sprachmodelle
- Sprachmodelle in Elasticsearch
- Übersicht über natürliche Sprachverarbeitung (Natural Language Processing, NLP) im Elastic Stack
- Mit dem Elastic Stack kompatible Modelle von Drittanbietern
- Anleitung zu trainierten Modellen im Elastic Stack
- Fünf technische Komponenten der Bildähnlichkeitssuche
Fußnoten
1 Myer, Mike. „Are Generative AI and Large Language Models the Same Thing?“ (Sind generative KI und große Sprachmodelle dasselbe?, in englischer Sprache) Quiq, 12. Mai 2023, quiq.com/blog/generative-ai-vs-large-language-models/.
2 Sheng, Ellen. „In generative AI legal Wild West, the courtroom battles are just getting started“ (Im juristischen Wildwest der generativen KI haben die Gerichtsschlachten angefangen, in englischer Sprache) CNBC, 3. April 2023, https://www.cnbc.com/2023/04/03/in-generative-ai-legal-wild-west-lawsuits-are-just-getting-started.html (Abgerufen am 29. Juni 2023)
3 Erklärung von Getty Images (in englischer Sprache), Getty Images, 17. Jan 2023 https://newsroom.gettyimages.com/en/getty-images/getty-images-statement (Abgerufen am 29. Juni 2023)