LLM-Funktionen mit Zusammenfassung vergleichen

André Cipriani Bandarra

Alexandra Klepper

Veröffentlicht: 30. Oktober 2024

Die Entwicklung von Funktionen mit Large Language Models (LLMs) unterscheidet sich erheblich von der herkömmlichen Softwareentwicklung. Entwickler müssen lernen, Prompts zu erstellen, um nicht deterministische Ergebnisse zu verarbeiten, Eingaben vorzuverarbeiten und Ergebnisse nachzubearbeiten.

Eine der Herausforderungen, die Sie uns mitgeteilt haben, ist, dass das Testen der Ausgabe von LLMs und die Bestimmung der Gültigkeit und Qualität zeitaufwendig ist. Entwickler greifen häufig darauf zurück, die Ausgabe mithilfe verschiedener Eingaben im Batch-Verfahren zu generieren und sie dann manuell zu validieren.

Ein skalierbarerer Ansatz zur Bewertung der Ergebnisse verschiedener Modelle und Prompts ist die LLM as a Judge-Technik. Bei dieser Methode wird die Modellvalidierung nicht von Menschen, sondern von einem anderen LLM durchgeführt. Das zweite LLM muss ein größeres, cloudbasiertes LLM sein, das wahrscheinlich bessere Schlussfolgerungsfähigkeiten hat.

In diesem Dokument wird die Zusammenfassung verwendet, um zu veranschaulichen, wie Sie verschiedene Modelle vergleichen können. Außerdem wird die Qualitätsverbesserung von Gemma zu Gemma 2 gezeigt.

Modelle für den Vergleich auswählen und Daten vorbereiten

Wir haben die Zusammenfassungsfunktionen von drei Modellen bewertet. Wir haben die Ergebnisse von zwei offenen Modellen von Google verglichen, die clientseitig ausgeführt werden können: Gemma und Gemma 2, beide mit 2 Milliarden Parametern. Zum Vergleich haben wir auch ein größeres, leistungsfähigeres cloudbasiertes Modell bewertet: Gemini 1.5 Flash.

Wir haben einen Datensatz mit 2.225 BBC-Artikeln verwendet, die Bereiche wie Wirtschaft, Unterhaltung, Politik, Sport und Technik abdecken, und für jeden Artikel eine Zusammenfassung mit den ausgewählten Modellen erstellt. Für alle Modelle wurde derselbe Prompt verwendet:

Fasse den Artikel in einem Absatz zusammen.

Wir haben die Originalartikel und die generierten Zusammenfassungen in einer Datenbank gespeichert, damit sie in jedem Schritt leicht zugänglich sind.

Modell zum Analysieren und Bewerten von Zusammenfassungen auswählen

Um die Qualität der Zusammenfassungen zu analysieren, haben wir Gemini 1.5 Flash verwendet, um die von Gemma 2B und Gemma 2 2B erstellten Zusammenfassungen zu bewerten. Unser spezifischer Ansatz basiert auf der Ausrichtung, die Teil des DeepEval-Messwerts für die Zusammenfassung ist.

Übereinstimmung ist ein Messwert, der angibt, wie oft die in einer Zusammenfassung enthaltenen Aussagen im Originalinhalt, auf dem die Zusammenfassung basiert, belegt werden.

Wir haben den Evaluierungsprozess in zwei Schritte unterteilt. Zuerst haben wir das Modell aufgefordert, jede Zusammenfassung in separate Aussagen zu unterteilen. Anschließend haben wir das Modell aufgefordert, zu ermitteln, ob jede Aussage durch den Originalartikeltext belegt wird.

Aussagen aus Zusammenfassungen extrahieren

Wir haben Gemini 1.5 Flash gebeten, längere Texte in separate Aussagen aufzuteilen. Beispiel:

Everton-Verteidiger David Weir hat die Diskussionen über die Teilnahme am europäischen Fußball heruntergespielt, obwohl sein Team nach dem Sieg gegen Liverpool auf dem zweiten Platz der Premiership liegt.

Gemini 1.5 Flash hat diesen Satz in die folgenden Aussagen unterteilt:

„David Weir spielt als Verteidiger für Everton.“
„Everton liegt derzeit auf dem zweiten Platz in der Premiership.“
„Everton hat Liverpool in einem kürzlich stattgefundenen Spiel geschlagen.“
„David Weir hat die Diskussionen über die Teilnahme von Everton am europäischen Fußball minimiert.“

Aussagen validieren

Anschließend haben wir Gemini 1.5 Flash gebeten, den ursprünglichen Satz zu analysieren, im Vergleich zu den aufgeteilten Aussagen. Das Modell hat die Gültigkeit der einzelnen Aussagen so klassifiziert:

Ja: Die Aussage wird durch den Originaltext gestützt.
Nein. Die Aussage widerspricht dem Originaltext.
Keine Ahnung. Es ist nicht möglich, zu überprüfen, ob die Aussage unterstützt wird oder ob sie dem Originaltext widerspricht.

Ergebnisse analysieren

Aus diesem Prozess sind zwei Messwerte hervorgegangen, mit denen die Modelle verglichen werden können:

Übereinstimmung: Wie oft hat das Modell Zusammenfassungen erstellt, die Aussagen enthalten, die durch den Originaltext gestützt werden?
Umfang: Die durchschnittliche Anzahl der Aussagen in einer vom Modell generierten Zusammenfassung.

Diagramm zum Vergleich von Modellumfang und ‑abstimmung. — Abbildung 1. Vergleich von Gemma 2B, Gemma 2 2B und Gemini 1.5 Flash, die alle gut abschneiden.

Ausrichtung

Wir haben die Übereinstimmung berechnet, indem wir die Anzahl der Zusammenfassungen gezählt haben, die mindestens eine Aussage mit „Nein“ enthalten, und diese Zahl durch die Gesamtzahl der Zusammenfassungen geteilt haben.

Das Modell Gemini 1.5 Flash hat die höchsten Abstimmungs-Scores von über 92%. Das bedeutet, dass es sich sehr gut an Fakten hält und keine Dinge erfindet.

Gemma 2 2B hat einen respektablen Wert von 78,64%, was auf eine gute Genauigkeit hinweist. Die vorherige Version von Gemma 2B hat einen niedrigeren Alignment-Wert, was bedeutet, dass sie eher Informationen enthält, die nicht durch den Originaltext unterstützt werden.

Umfang

Wir haben die Modellvielfalt berechnet, indem wir die Anzahl der Aussagen gemittelt haben, die das Modell für jede Zusammenfassung generiert hat.

Gemma 2 2B hat mit 9,1 den höchsten Richness-Wert.Das bedeutet, dass die Zusammenfassungen mehr Details und wichtige Punkte enthalten. Das Gemini 1.5-Flash-Modell hat ebenfalls hohe Richness-Werte, die 8,4 übersteigen. Gemma 2B hatte niedrigere Richness-Werte, was darauf hindeutet, dass das Modell möglicherweise nicht so viele wichtige Informationen aus dem Originaltext erfasst.

Fazit

Wir haben festgestellt, dass kleinere Modelle, die clientseitig ausgeführt werden können, z. B. Gemma 2 2B, Ausgaben von hoher Qualität generieren können. Cloudbasierte Modelle wie Gemini 1.5 Flash eignen sich hervorragend für die Erstellung von Zusammenfassungen, die auf den Originalartikel abgestimmt sind und eine beträchtliche Menge an Informationen enthalten. Der Unterschied sollte jedoch in Bezug auf Anwendungsleistung, Datenschutz und Sicherheitsanforderungen sowie andere Fragen abgewogen werden, die Sie sich stellen, wenn Sie entscheiden, ob Sie clientseitige KI entwickeln sollten.

Die Fähigkeiten der Gemma-Modellfamilie haben sich deutlich weiterentwickelt. Gemma 2B kann umfassendere und besser abgestimmte Zusammenfassungen als Gemma 2B erstellen.

Anwendungsfälle bewerten

In diesem Dokument wurde nur an der Oberfläche dessen gekratzt, was mit der LLM-Technik als Judge möglich ist. Auch bei der Zusammenfassung können Sie weitere Messwerte berücksichtigen. Die Ergebnisse können dann abweichen. Sie können die Abdeckung beispielsweise bewerten, indem Sie mit einem Prompt die wichtigsten Punkte eines Artikels ermitteln und dann mit einem anderen Prompt prüfen, ob diese Punkte in jeder Zusammenfassung behandelt werden.

Bei anderen Anwendungsfällen wie dem Schreiben oder Umschreiben von Text oder der Retrieval-Augmented Generation (RAG) können die Ergebnisse für dieselben Messwerte unterschiedlich sein oder es sollten andere Messwerte für die Bewertung verwendet werden.

Überlegen Sie bei der Implementierung dieses Ansatzes, wie ein Mensch die Ausgabe bewerten würde, um zu ermitteln, welche Messwerte für Ihre Anwendungsfälle am besten geeignet sind. Es lohnt sich auch, vorhandene Frameworks wie DeepEval zu prüfen, die möglicherweise bereits eine Reihe von Messwerten enthalten, die für Ihren Anwendungsfall geeignet sind.

Haben Sie LLM als Richter zur Bewertung von Modellen implementiert? Teilen Sie uns Ihre Ergebnisse auf Twitter unter @ChromiumDev mit oder auf LinkedIn.