Der Textgenerator ChatGPT ist derzeit in aller Munde. Schlau soll er sein. Und Texte oft besser entwickeln können als Menschen. Jetzt wurde die Künstliche Intelligenz in echten Prüfungen geprüft - in den USA und in Bayern. Die Ergebnisse überraschen.

Das Wichtigste in Kürze ChatGPT wurde echten Prüfungen in den USA und Bayern ausgesetzt.

Der Chatbot ist noch längst kein Einser-Kandidat

Besonders schlechte Ergebnisse erzielte er im bayerischen Abitur.

Immer wieder wird dem Chatbot ChatGPT unterstellt, er sei unfehlbar. Dass diese gewagte These (noch) nicht stimmt, ist nun schwarz auf weiß gezeigt worden. Die Künstliche Intelligenz darf ruhig noch zulegen, wenn es um gute Ergebnisse und damit um hervorragende Zensuren geht. Geprüft wurde ChatGPT bei einem Examen für Mediziner in den USA und in verschiedenen bayerischen Abituraufgaben.

Besser als manch Student:in

Laut "Spiegel" konnte sich ChatGPT bei einem Examen für angehende Mediziner in den USA erstaunlich gut behaupten. Zugegeben - die Bedingungen waren vereinfacht, da die Prüfung an die Möglichkeiten der Künstlichen Intelligenz angepasst waren. Insgesamt bestand die Prüfung aus drei doch anspruchsvollen Teilen und ChatGPT konnte Ergebnisse erzielen, die beachtlich - wenn auch nicht erstklassig - waren. Der Chatbot erreichte mehrfach die Mindestpunktzahl und übertraf da sicher die einen oder anderen Student:innen.

Bayrisches Abitur zu anspruchsvoll

Anders bei einer Prüfung in Bayern. In dem Bundesland, das gerne von sich behauptet, das anspruchsvollste Abitur im Bundesgebiet auszugeben, sollte sich ChatGPT ebenfalls beweisen und die Allgemeine Hochschulreife abliefern. Zusammen mit dem Bayerischen Rundfunk und bayerischen Gymnasiallehrern musste sich der Chatbot in einer Abiturprüfung aus dem Jahr 2022 behaupten. Ausgerechnet die Textanalyse wurde mit nur drei Punkten bewertet, was einer 5 entspricht. Der Arbeit von ChatGPT attestierte Patrick Dorn "viel Gelaber", wie "Spiegel" den bewertenden Lehrer zitiert.

Beachtenswerte Ergebnisse konnte der Chatbot allerdings im Fach Geschichte erzielen - alles in allem gab es neun Punkte. Entspricht einer 3+. Die schwächste Prüfung legte die Künstliche Intelligenz in Informatik ab. Unverständlicherweise. Mit nur zwei Punkten konnte die Leistung bewertet. Das bedeutet wohl: Ehrenrunde für ChatGPT.