Update README.md
This commit is contained in:
20
README.md
20
README.md
@@ -50,12 +50,22 @@ Die Arbeit entstand im Kontext eines laufenden Forschungsprojekts unter der Betr
|
||||
|
||||
| Modell | Accuracy | Precision | Recall | F1-Score |
|
||||
|-------------------|----------|-----------|--------|----------|
|
||||
| GPT-4 | 0.83 | 0.81 | 0.85 | 0.83 |
|
||||
| Gemma 2 | 0.68 | 0.62 | 0.75 | 0.68 |
|
||||
| Llama 3.1 | 0.74 | 0.71 | 0.77 | 0.74 |
|
||||
| ClimateBERT-NetZero | 0.79 | 0.76 | 0.80 | 0.78 |
|
||||
| GPT-4 | 0.89 | 0.30 | 0.74 | 0.43 |
|
||||
| Gemma 2 | 0.92 | 0.00 | 0.00 | 0.00 |
|
||||
| Llama 3.1 | 0.84 | 0.22 | 0.69 | 0.33 |
|
||||
| ClimateBERT-NetZero | -- | -- | -- | -- |
|
||||
|
||||
**Promptanpassungen führten bei Gemma und Llama zu bis zu +12% F1-Verbesserung** gegenüber Originalprompten.
|
||||
### Interpretation:
|
||||
|
||||
- **GPT-4** zeigte die **beste Recall-Leistung** (0.74) und insgesamt eine solide Klassifikationsqualität, auch wenn die Präzision moderat ausfiel – ein typisches Merkmal für generalisierte Modelle bei unscharfen Klassifikationsaufgaben.
|
||||
|
||||
- **Gemma 2** erreichte zwar eine hohe Accuracy (0.92), scheiterte jedoch vollständig an der semantischen Erkennung der Zielklasse (Precision/Recall/F1 = 0.00). Dies unterstreicht, dass **Accuracy allein als Metrik irreführend sein kann**.
|
||||
|
||||
- **Llama 3.1** schnitt besser ab als Gemma 2 und konnte mit einem Recall von 0.69 relevante Artikel häufiger korrekt erkennen – jedoch mit geringer Präzision.
|
||||
|
||||
- **ClimateBERT-NetZero** wurde nicht in die metrische Vergleichstabelle aufgenommen, da es **ausschließlich zur kontextbasierten Vorauswahl relevanter Artikel diente** und **keine Promptanpassung** oder Vergleichbarkeit mit den anderen Modellen möglich war.
|
||||
|
||||
- Ein wesentlicher praktischer Befund dieser Arbeit ist, dass **die Laufzeit des Klassifikationsprozesses bei Gemma 2 und Llama 3.1 ohne angepasste Prompts um den Faktor 1,5 höher lag**. Grund dafür war, dass die Modelle ohne gezielte Prompt-Instruktion häufig ganze generative Textausgaben anstelle der erwarteten **binären Klassifikationen („yes“ / „no“)** zurücklieferten. Erst durch die Einbettung von vier präzisen Klassifikationsbeispielen im Prompt gelang eine stabile Ausgabeform, die zugleich die **semantische Kontexttreue und Modellpräzision erheblich verbesserte**. Besonders deutlich zeigte sich dies bei Gemma 2, das ohne diese Anpassung keinerlei verwertbare Klassifikationsergebnisse lieferte.
|
||||
|
||||
## Zielgruppen & Anwendungsfälle
|
||||
|
||||
|
||||
Reference in New Issue
Block a user