AI Leaders A: WKN A2P37J | AI Leaders C: WKN A2PF0M
AI Leaders A: WKN A2P37J
AI Leaders C: WKN A2PF0M
AI Leaders C: WKN A2PF0M
Sehr geehrte Investoren und Freunde,
Der AI Leaders konnte in den letzten 12 Monaten einen Wertzuwachs von 30,25% erzielen und liegt bei einem Fondsvolumen von 114 Mio.
Den größten Anteil stellen US-Aktien mit einem Anteil von 73%, gefolgt von Japan und Europa mit 8,94 bzw. 8,8% dar.
Bei den Top 10 gibt es bedingt durch die Wertentwicklung und Portfolioanpassungen immer wieder kleine Veränderungen. Nintendo, Walmart und Arista haben es in den letzten Wochen wieder in die Top 10 geschafft.
Bei der Gewichtung der größten Branchen, kam es zu leichten Änderungen.
Im Vergleich zu anderen KI-Aktienfonds zeigt der AI-Leaders seine Stärken mit einer niedrigen Volatilität und äußerst stabilen Wertzuwachs, seitdem TOPAS (seit September 2022) für das Risikomanagement eingesetzt wird.
Auch im Vergleich zu den bekannten Indices wie S&P 500 und MSCI World zeigt der AI-Leaders eine stabile Outperformance.
Bedingt durch das hohe Wachstum unserer 168 Aktien und der breiten Diversifikation sehen wir die weitere Entwicklung des AI-Leaders äußerst positiv auch, wenn immer auch mit kurzfristigen Schwankungen gerechnet werden muss.
Bild: Midjourney angeregt durch THE DECODER
Ein internationales Forscherteam hat mit „Humanity’s Last Exam“ (HLE) einen Maßstab für die Bewertung von neuen KI-Systemen vorgestellt. Der Test umfasst 3.000 Fragen aus über hundert Fachgebieten und wurde von fast tausend Experten aus 500 Institutionen in 50 Ländern entwickelt. 42 Prozent der Fragen stammen aus dem mathematischen Bereich.
Die Fragen durchliefen einen zweistufigen Filterprozess: Zunächst wurden 70.000 Fragen ausgewählter KI-Modelle vorgelegt. Konnten sie diese nicht lösen, was bei 13.000 Fragen der Fall war, wurden sie von menschlichen Prüfern verfeinert und verifiziert. Für qualitativ hochwertige Fragen erhielten die Experten zwischen 500 und 5.000 Dollar.
Selbst die fortschrittlichsten KI-Modelle wie GPT-4o, Claude 3.5 oder Gemini erreichen Trefferquoten von weniger als 10 Prozent. GPT-4o löst nur 3,3 Prozent der Aufgaben korrekt, OpenAIs o1 erreicht 9,1 Prozent und Gemini kommt auf 6,2 Prozent. Die Tatsache, dass nur Fragen in den Benchmark aufgenommen wurden, die die Modelle zunächst nicht lösen konnten, erschwerte den Test insgesamt.
Der „Humanity’s Last Exam“ Benchmark zeigt deutliche Leistungsunterschiede zwischen verschiedenen KI-Modellen in akademischen Tests. Während die Modelle bei GPQA, MATH und MMLU relativ gut abgeschnitten werden, bleiben die HLE-Ergebnisse durchweg niedrig. | Bild: via HLE
Besonders auffällig ist die Diskrepanz zwischen tatsächlicher Leistung und Selbsteinschätzung der KI-Systeme. Die Modelle zeigen ein extremes Überbewusstsein mit Kalibrierungsfehlern von über 80 Prozent. Das bedeutet, sie sind sich ihrer Antworten sehr sicher, liegen aber meist falsch. Diese Selbstsicherheit bei völlig falschen Antworten erschwert den Umgang mit generativen KI-Systemen.
DeepSeek-R1 (nur gegen Text getestet) erreicht mit 9,4 % die höchste Genauigkeit, während Gemini Thinking den höchsten Kalibrierungsfehler von 93,9 % aufweist. | Bild: via HLE
Das Projekt ist eine Kooperation zwischen dem gemeinnützigen Center for AI Safety und dem Start-up Scale AI. Initiiert wurde der Test von Dan Hendrycks, Direktor des Center for AI Safety (CAIS) und Berater des xAI-Startups von Elon Musk.
Die Entwickler gehen davon aus, dass KI-Systeme bis Ende 2025 mehr als 50 Prozent der Fragen korrekt beantworten könnten. Dann wären sie „Weltklasse-Orakel“, die Expertenfragen in jedem Bereich präziser als Menschen beantworten könnten.
Subbarao Kambhampati weist auf die grundlegenden Grenzen dieses Leistungstests hin. Der ehemalige Präsident der Association for the Advancement of Artificial Intelligence (AAAI) betonte: „Die Essenz der Menschheit liegt nicht in einem statischen Test.“
Das eigentlich Menschliche sei vielmehr die Fähigkeit, sich kontinuierlich weiterzuentwickeln und Fragen zu stellen und zu beantworten, die frühere Generationen sich nicht einmal vorstellen konnten.
Kritisch äußert sich auch KI-Experte Niels Rogge. Er hält Benchmarks dieser Art für den falschen Ansatz: „Ich will keine KI, die nutzlose Fragen über Sehnenknochen in ihren Gewichten speichert.“ Ich werde einen ‚Praktikanten‘, wie Andrej Karpathy es vorschlägt.“
Der ehemalige OpenAI-Entwickler Andrej Karpathy schreibt, dass solche Tests beliebt seien, weil sie einfach zu erstellen, zu bewerten und zu verbessern seien. Im Gegensatz dazu waren Tests für die wirklich wichtigen KI-Fähigkeiten – wie das Lösen komplexer, kohärenter Aufgaben, selbst auf Praktikantenniveau – erstaunlich schwer zu entwickeln. Der Name „Humanity’s Last Exam“ sei übertrieben und irreführend.
Karpathy sieht in den Ergebnissen akademisch anspruchsvoller Benchmarks eine neue Facette des Moravec-Paradoxons: Während KI-Systeme bei komplexen Aufgaben mit klaren Regeln – wie Schach – brillieren können, scheitern sie oft an einfache Probleme, die Menschen mühelos bewältigen können.
Auch die Entwickler des Benchmarks warnen vor vorschnellen Interpretationen: Selbst wenn, wie prognostiziert, KI-Modelle bis Ende 2025 mehr als 50 Prozent der HLE-Fragen richtig beantworten könnten, sei dies noch kein Beweis für „künstliche allgemeine Intelligenz“.
Der Test bewerte zwar Expertenwissen und wissenschaftliches Verständnis, aber nur in Form strukturierter akademischer Probleme. Offene Forschungsfragen oder kreative Problemlösungen sind nicht Teil der Prüfung. „Humanity’s Last Exam“ könnte zwar die letzte akademische Prüfung dieser Art sein, aber längst nicht der letzte Maßstab für KI-Fähigkeiten.
„Es gibt eine große Kluft zwischen dem Bestehen einer Prüfung und der Arbeit als praktizierender Physiker und Forscher. Selbst eine KI, die diese Fragen beantworten kann, ist möglicherweise nicht bereit, bei der Forschung zu helfen, die von Natur aus weniger strukturiert ist“, sagt Kevin Zhou von der UC Berkeley gegenüber der New York Times.
Der Test soll Wissenschaftlern und politischen Entscheidungsträgern als Referenzpunkt dienen, um KI-Fähigkeiten besser einschätzen zu können. Dies ist wichtig für fundierte Diskussionen über Entwicklungspfade, potenzielle Risiken und notwendige Regulierungsmaßnahmen.
Bild: Midjourney prompted by THE DECODER
Ein Tool namens Parlex kann eine „parlamentarische Stimmungsprüfung“ durchführen und prognostizieren, welche Themen bei den eigenen Hinterbänklern auf Schwierigkeiten stoßen könnten.
Es ist Teil einer Reihe von KI-Systemen, die unter dem Namen „Humphrey“ für Minister und Beamte entwickelt werden, darunter Minute zur Zusammenfassung von Ministerbesprechungen, Lex zur Analyse von Gesetzesauswirkungen, Redbox zur Automatisierung von Vorlagen an Minister und Consult zur Verbesserung des Konsultationsprozesses .
Die Regierung wird am Dienstag Reformen ankündigen, die den Einsatz von Technologie in öffentlichen Diensten ausweiten sollen, etwa bei der Registrierung von Todesfällen oder in Jobcentern.
Premierminister Keir Starmer stellte letzte Woche einen Plan vor, der nach Ansicht einiger Minister vorsieht, KI in die „Adern der Nation zu leiten“. Dazu sollen auch anonymisierte NHS-Gesundheitsdaten für Forscher und Innovatoren zur Verfügung gestellt werden, um ihre KI-Modelle zu trainieren. Die Regierung erhofft sich davon einen wirtschaftlichen Aufschwung von bis zu 470 Milliarden Pfund im nächsten Jahrzehnt.
Herzliche Grüße aus Stuttgart
Tilmann Speck
Christian Hintz
Gerd Schäfer