Donnerstag, 05 März 2026 14:22

Science Artikel berichtet über Qualitätstests von KI-Modellen Empfehlung

In einem Science-Artikel wird über die derzeitigen Bewertungsmaßstäbe von auf neuronalen Netzen basierende KI-Programme (Large language models, LLM) berichtet, um zukünftig unabhängig wissenschaftlich arbeiten zu können.

 

Grafik: Computer-generiert.


Wissenschaftler:innen arbeiten daran, dass künstlichen Intelligenz (KI) eines Tages selbst neue wissenschaftliche Fragen stellt, Experimente entwirft und im optimalen Fall sogar selbst durchführt. Um die Leistung, Qualität oder Effizienz ihrer LLMs zu testen, nutzen Forscher:innen sogenannte Benchmark-Tests, also eine Art standardisierte Prüfungen. Zur Beurteilung müssen die Antworten durch den Menschen überprüfbar sein. Benchmarktests gibt es immer mehr. Sie bestehen z.B. aus unzähligen Fragen aus den Grenzbereichen des menschlichen Wissens oder wissenschaftliche Prüfungsfragen aus den Naturwissenschaften auf Expertenniveau. Es gibt aber auch eher praktische Prüfungen zur Fähigkeit, Projekte und Hypothesen zu entwickeln. 

Die Ergebnisse lassen die KI-Entwickler:innen offen, fallen bislang jedoch durchmischt aus. Bei komplexen Aufgaben tun sich LLM schwer; die Fähigkeiten seien davon abhängig, wie die Modelle Informationen abrufen. Es sei zudem sinnvoll, ein Portfolio an Benchmarks zu nutzen.

Quelle und weitere Informationen:
Zhao, C. (2026). How will we know if AI is smart enough to do science? New tests gauge whether large language models can use their deep troves of knowledge to actually make discoveries. Science 27.02.2026. doi: 10.1126/science.znoj7w3. https://www.science.org/