Identifizierung von Dekarbonisierungsversprechen mittels LLM's

Projektübersicht

Diese Bachelorarbeit untersucht den Einsatz moderner Large Language Models (LLM's) zur Identifikation freiwilliger Dekarbonisierungsversprechen von Unternehmen anhand von US-amerikanischen Wirtschafts-Nachrichtenartikeln (2005–2023). Ziel ist es, mittels automatisierter Klassifikation Unterschiede in der semantischen Leistungsfähigkeit und Präzision verschiedener LLMs herauszuarbeiten.

Die Arbeit entstand im Kontext eines laufenden Forschungsprojekts unter der Betreuung von Prof. Dr. Ole Wilms (Universität Hamburg) und basiert auf einer Submenge des Datensatzes Corporate Green Pledges von Bauer et al. (2024).

Genutzte Technologien & Tools

Python – Datenanalyse, Modell-Setup, Auswertung
Transformermodelle (LLMs) – Gemma 2, Llama 3.1, ClimateBERT-NetZero, GPT-4
Huggingface / Ollama – für Zugriff auf und Arbeit mit spezialisierten Modellen
TikZ / Matplotlib – Visualisierung der Klassifikationsergebnisse
Pandas / NumPy – Datenmanagement
Scikit-learn – Metriken & Konfusionsmatrix
tqdm* - Python-Bibliothek, zur Messung von Zeitspannen von Schleifen (Klassifikations-Schleife)

Projektstruktur

.
├── data/                      # Datensatz-Ausschnitt mit 1000 Artikeln
├── src/                       # Python-Code zur Vorverarbeitung, Modellanbindung, Klassifikation
├── models/                    # LLM-Konfigurationen und Aufrufe (Huggingface, Ollama, API)
├── results/                   # Grafiken, Metriken, Konfusionsmatrizen
├── Bachelorarbeit.pdf         # Offizielles PDF der Abschlussarbeit
└── README.md

Kern-Features & Erkenntnisse

LLM-Komparative Analyse:
- Vergleich von GPT-4 mit offenen Modellen wie Gemma 2, Llama 3.1 und ClimateBERT-NetZero
- Fokus auf semantisches Verständnis, klassifikatorische Präzision und promptbasierte Optimierung
Klassifikationsmetrik:
- Präzision, Recall, F1-Score, Spezifität, Accuracy
- Konfusionsmatrizen zur Validierung gegen Human-Coding
Prompt Engineering:
- Vergleich des Originalprompts aus der Forschungsarbeit mit angepassten Prompt-Varianten
- Nachweis einer messbaren Verbesserung der Klassifikationsgüte durch gezielte Promptanpassung

Genutzte Modelle & Quellen

🔗 Gemma 2
🔗 Llama 3.1
🔗 ClimateBERT-NetZero
🔗 GPT-4 (Closed Source; Ergebnisse über Forschungskooperation verfügbar)

Ergebnisse

Modell	Accuracy	Precision	Recall	F1-Score
GPT-4	0.89	0.30	0.74	0.43
Gemma 2	0.92	0.00	0.00	0.00
Llama 3.1	0.84	0.22	0.69	0.33
ClimateBERT-NetZero	--	--	--	--

Interpretation:

GPT-4 zeigte die beste Recall-Leistung (0.74) und insgesamt eine solide Klassifikationsqualität, auch wenn die Präzision moderat ausfiel – ein typisches Merkmal für generalisierte Modelle bei unscharfen Klassifikationsaufgaben.
Gemma 2 erreichte zwar eine hohe Accuracy (0.92), scheiterte jedoch vollständig an der semantischen Erkennung der Zielklasse (Precision/Recall/F1 = 0.00). Dies unterstreicht, dass Accuracy allein als Metrik irreführend sein kann.
Llama 3.1 schnitt besser ab als Gemma 2 und konnte mit einem Recall von 0.69 relevante Artikel häufiger korrekt erkennen – jedoch mit geringer Präzision.
ClimateBERT-NetZero wurde nicht in die metrische Vergleichstabelle aufgenommen, da es ausschließlich zur kontextbasierten Vorauswahl relevanter Artikel diente und keine Promptanpassung oder Vergleichbarkeit mit den anderen Modellen möglich war.
Ein wesentlicher praktischer Befund dieser Arbeit ist, dass die Laufzeit des Klassifikationsprozesses bei Gemma 2 und Llama 3.1 ohne angepasste Prompts um den Faktor 1,5 höher lag. Grund dafür war, dass die Modelle ohne gezielte Prompt-Instruktion häufig ganze generative Textausgaben anstelle der erwarteten binären Klassifikationen („yes“ / „no“) zurücklieferten. Erst durch die Einbettung von vier präzisen Klassifikationsbeispielen im Prompt gelang eine stabile Ausgabeform, die zugleich die semantische Kontexttreue und Modellpräzision erheblich verbesserte. Besonders deutlich zeigte sich dies bei Gemma 2, das ohne diese Anpassung keinerlei verwertbare Klassifikationsergebnisse lieferte.

Zielgruppen & Anwendungsfälle

Data Scientists & Machine Learning Engineers, die LLMs im wirtschaftlichen Kontext einsetzen möchten
Klimawissenschaftliche Forschung & Policy-Analyse, für die automatisierte Bewertung von Corporate Pledges relevant ist
NLP-Forscher*innen, die sich mit Prompt-Engineering und LLM-Performance in spezialisierten Domänen befassen

Persönliches Statement

Diese Arbeit repräsentiert meine Expertise in der Anwendung moderner NLP-Verfahren im Kontext realweltlicher wirtschaftlicher Fragestellungen. Neben einer fundierten Analyse und Evaluierung von LLMs habe ich praktisch relevante Erkenntnisse zur Promptgestaltung und Modellwahl abgeleitet, die sich direkt in die Industrie oder weiterführende Forschung übertragen lassen.

📬 Kontakt:
Marcel Weschke
LinkedIn • marcel.weschke@gmail.com

Description

Bachelor's thesis project applying state-of-the-art Large Language Models (LLMs) for Natural Language Processing (NLP) tasks in the field of Data Science. This work analyzes corporate climate pledges in US financial news using models like GPT-4, Gemma 2, Llama 3.1, and ClimateBERT. Includes prompt engineering experiments, classification metrics, and Python-based implementation. A showcase of applied AI for real-world sustainability analysis.

Readme 1.9 MiB

README.md Unescape Escape