# Identifizierung von Dekarbonisierungsversprechen mittels LLM's

## Projektübersicht

Diese Bachelorarbeit untersucht den Einsatz moderner **Large Language Models (LLM's)** zur Identifikation freiwilliger Dekarbonisierungsversprechen von Unternehmen anhand von US-amerikanischen Wirtschafts-Nachrichtenartikeln (2005–2023). Ziel ist es, mittels automatisierter Klassifikation Unterschiede in der semantischen Leistungsfähigkeit und Präzision verschiedener LLMs herauszuarbeiten.

Die Arbeit entstand im Kontext eines laufenden Forschungsprojekts unter der Betreuung von **Prof. Dr. Ole Wilms (Universität Hamburg)** und basiert auf einer Submenge des Datensatzes [Corporate Green Pledges von Bauer et al. (2024)](http://dx.doi.org/10.2139/ssrn.5027881 "Corporate Green Pledges von Bauer et al. (2024)").

## Genutzte Technologien & Tools

- **Python** – Datenanalyse, Modell-Setup, Auswertung
- **Transformermodelle (LLMs)** – Gemma 2, Llama 3.1, ClimateBERT-NetZero, GPT-4
- **Huggingface / Ollama** – für Zugriff auf und Arbeit mit spezialisierten Modellen
- **TikZ / Matplotlib** – Visualisierung der Klassifikationsergebnisse
- **Pandas / NumPy** – Datenmanagement
- **Scikit-learn** – Metriken & Konfusionsmatrix
- **tqdm*** - Python-Bibliothek, zur Messung von Zeitspannen von Schleifen (Klassifikations-Schleife)
## Projektstruktur

```bash
.
├── data/                      # Datensatz-Ausschnitt mit 1000 Artikeln
├── src/                       # Python-Code zur Vorverarbeitung, Modellanbindung, Klassifikation
├── models/                    # LLM-Konfigurationen und Aufrufe (Huggingface, Ollama, API)
├── results/                   # Grafiken, Metriken, Konfusionsmatrizen
├── Bachelorarbeit.pdf         # Offizielles PDF der Abschlussarbeit
└── README.md
```

## Kern-Features & Erkenntnisse

- **LLM-Komparative Analyse**:
  - Vergleich von GPT-4 mit offenen Modellen wie *Gemma 2*, *Llama 3.1* und *ClimateBERT-NetZero*
  - Fokus auf **semantisches Verständnis**, **klassifikatorische Präzision** und **promptbasierte Optimierung**
- **Klassifikationsmetrik**:
  - Präzision, Recall, F1-Score, Spezifität, Accuracy
  - Konfusionsmatrizen zur Validierung gegen Human-Coding
- **Prompt Engineering**:
  - Vergleich des Originalprompts aus der Forschungsarbeit mit angepassten Prompt-Varianten
  - Nachweis einer messbaren **Verbesserung der Klassifikationsgüte** durch gezielte Promptanpassung

## Genutzte Modelle & Quellen

- 🔗 [Gemma 2](https://ollama.com/library/gemma2)
- 🔗 [Llama 3.1](https://ollama.com/library/llama3.1)
- 🔗 [ClimateBERT-NetZero](https://huggingface.co/climatebert/netzero-reduction)
- 🔗 GPT-4 (Closed Source; Ergebnisse über Forschungskooperation verfügbar)

## Ergebnisse

| Modell             | Accuracy | Precision | Recall | F1-Score |
|-------------------|----------|-----------|--------|----------|
| GPT-4             | 0.83     | 0.81      | 0.85   | 0.83     |
| Gemma 2           | 0.68     | 0.62      | 0.75   | 0.68     |
| Llama 3.1         | 0.74     | 0.71      | 0.77   | 0.74     |
| ClimateBERT-NetZero | 0.79   | 0.76      | 0.80   | 0.78     |

 **Promptanpassungen führten bei Gemma und Llama zu bis zu +12% F1-Verbesserung** gegenüber Originalprompten.

## Zielgruppen & Anwendungsfälle

- **Data Scientists & Machine Learning Engineers**, die LLMs im wirtschaftlichen Kontext einsetzen möchten
- **Klimawissenschaftliche Forschung & Policy-Analyse**, für die automatisierte Bewertung von Corporate Pledges relevant ist
- **NLP-Forscher*innen**, die sich mit Prompt-Engineering und LLM-Performance in spezialisierten Domänen befassen

## Persönliches Statement

Diese Arbeit repräsentiert meine Expertise in der Anwendung moderner NLP-Verfahren im Kontext realweltlicher wirtschaftlicher Fragestellungen. Neben einer fundierten Analyse und Evaluierung von LLMs habe ich **praktisch relevante Erkenntnisse zur Promptgestaltung und Modellwahl** abgeleitet, die sich direkt in die Industrie oder weiterführende Forschung übertragen lassen.

---

📬 **Kontakt**:  
Marcel Weschke  
[LinkedIn](https://www.linkedin.com/in/marcel-weschke-550185147/ "Profile") • <a href="mailto:marcel.weschke&amp;#64;gmail.com">marcel.weschke&#64;gmail.com</a>