commit 33ceb83deed4de4edef9395954f5c05dbf85edd2792a93a39afaaa5c2ca40ff2 Author: Marcel Weschke Date: Thu May 22 20:49:37 2025 +0200 README repository upload / update diff --git a/README.md b/README.md new file mode 100644 index 0000000..f6db462 --- /dev/null +++ b/README.md @@ -0,0 +1,74 @@ +# Identifizierung von Dekarbonisierungsversprechen mittels LLM's + +## Projektübersicht + +Diese Bachelorarbeit untersucht den Einsatz moderner **Large Language Models (LLM's)** zur Identifikation freiwilliger Dekarbonisierungsversprechen von Unternehmen anhand von US-amerikanischen Wirtschafts-Nachrichtenartikeln (2005–2023). Ziel ist es, mittels automatisierter Klassifikation Unterschiede in der semantischen Leistungsfähigkeit und Präzision verschiedener LLMs herauszuarbeiten. + +Die Arbeit entstand im Kontext eines laufenden Forschungsprojekts unter der Betreuung von **Prof. Dr. Ole Wilms (Universität Hamburg)** und basiert auf einer Submenge des Datensatzes [Corporate Green Pledges von Bauer et al. (2024)](http://dx.doi.org/10.2139/ssrn.5027881 "Corporate Green Pledges von Bauer et al. (2024)"). + +## Genutzte Technologien & Tools + +- **Python** – Datenanalyse, Modell-Setup, Auswertung +- **Transformermodelle (LLMs)** – Gemma 2, Llama 3.1, ClimateBERT-NetZero, GPT-4 +- **Huggingface / Ollama** – für Zugriff auf und Arbeit mit spezialisierten Modellen +- **TikZ / Matplotlib** – Visualisierung der Klassifikationsergebnisse +- **Pandas / NumPy** – Datenmanagement +- **Scikit-learn** – Metriken & Konfusionsmatrix +- **tqdm*** - Python-Bibliothek, zur Messung von Zeitspannen von Schleifen (Klassifikations-Schleife) +## Projektstruktur + +```bash +. +├── data/ # Datensatz-Ausschnitt mit 1000 Artikeln +├── src/ # Python-Code zur Vorverarbeitung, Modellanbindung, Klassifikation +├── models/ # LLM-Konfigurationen und Aufrufe (Huggingface, Ollama, API) +├── results/ # Grafiken, Metriken, Konfusionsmatrizen +├── Bachelorarbeit.pdf # Offizielles PDF der Abschlussarbeit +└── README.md +``` + +## Kern-Features & Erkenntnisse + +- **LLM-Komparative Analyse**: + - Vergleich von GPT-4 mit offenen Modellen wie *Gemma 2*, *Llama 3.1* und *ClimateBERT-NetZero* + - Fokus auf **semantisches Verständnis**, **klassifikatorische Präzision** und **promptbasierte Optimierung** +- **Klassifikationsmetrik**: + - Präzision, Recall, F1-Score, Spezifität, Accuracy + - Konfusionsmatrizen zur Validierung gegen Human-Coding +- **Prompt Engineering**: + - Vergleich des Originalprompts aus der Forschungsarbeit mit angepassten Prompt-Varianten + - Nachweis einer messbaren **Verbesserung der Klassifikationsgüte** durch gezielte Promptanpassung + +## Genutzte Modelle & Quellen + +- 🔗 [Gemma 2](https://ollama.com/library/gemma2) +- 🔗 [Llama 3.1](https://ollama.com/library/llama3.1) +- 🔗 [ClimateBERT-NetZero](https://huggingface.co/climatebert/netzero-reduction) +- 🔗 GPT-4 (Closed Source; Ergebnisse über Forschungskooperation verfügbar) + +## Ergebnisse + +| Modell | Accuracy | Precision | Recall | F1-Score | +|-------------------|----------|-----------|--------|----------| +| GPT-4 | 0.83 | 0.81 | 0.85 | 0.83 | +| Gemma 2 | 0.68 | 0.62 | 0.75 | 0.68 | +| Llama 3.1 | 0.74 | 0.71 | 0.77 | 0.74 | +| ClimateBERT-NetZero | 0.79 | 0.76 | 0.80 | 0.78 | + + **Promptanpassungen führten bei Gemma und Llama zu bis zu +12% F1-Verbesserung** gegenüber Originalprompten. + +## Zielgruppen & Anwendungsfälle + +- **Data Scientists & Machine Learning Engineers**, die LLMs im wirtschaftlichen Kontext einsetzen möchten +- **Klimawissenschaftliche Forschung & Policy-Analyse**, für die automatisierte Bewertung von Corporate Pledges relevant ist +- **NLP-Forscher*innen**, die sich mit Prompt-Engineering und LLM-Performance in spezialisierten Domänen befassen + +## Persönliches Statement + +Diese Arbeit repräsentiert meine Expertise in der Anwendung moderner NLP-Verfahren im Kontext realweltlicher wirtschaftlicher Fragestellungen. Neben einer fundierten Analyse und Evaluierung von LLMs habe ich **praktisch relevante Erkenntnisse zur Promptgestaltung und Modellwahl** abgeleitet, die sich direkt in die Industrie oder weiterführende Forschung übertragen lassen. + +--- + +📬 **Kontakt**: +Marcel Weschke +[LinkedIn](https://www.linkedin.com/in/marcel-weschke-550185147/ "Profile") • marcel.weschke@gmail.com