Google „Gemini“ tritt den Kampf gegen Open AI´s GPT-4 an

Google „Gemini“ tritt den Kampf gegen Open AI´s GPT-4 an

In der sich stetig weiterentwickelnden Welt der Künstlichen Intelligenz (KI) markiert das Erscheinen von „Gemini“, dem neuesten und fortschrittlichsten Modell von Google und DeepMind, einen bedeutenden Meilenstein. Dieses neue KI-System repräsentiert nicht nur eine Weiterentwicklung in der technischen Leistungsfähigkeit, sondern auch in der Art und Weise, wie KI mit verschiedenen Informationsarten interagiert und verarbeitet. Das am 6. Dezember vorgestellte Modell wird somit zum Hauptkonkurrenten von GPT-4.

„Gemini“, als multimodales KI-Modell konzipiert, vermag es, nahtlos zwischen Text, Bildern, Videos, Audio und Code zu wechseln. Dies ist eine bedeutende Abkehr von traditionellen Ansätzen, bei denen separate Komponenten für verschiedene Modalitäten trainiert und dann zusammengesetzt wurden. Stattdessen wurde „Gemini“ von Grund auf mit dem Ziel entwickelt, diese unterschiedlichen Informationsarten zu verstehen und zu verarbeiten.

Die Bedeutung dieses Fortschritts lässt sich kaum überschätzen. Die Fähigkeit, komplexe Informationen aus einer Vielzahl von Quellen zu verstehen und zu verarbeiten, verspricht, die Art und Weise, wie wir mit KI interagieren, grundlegend zu verändern. Dies wird besonders deutlich in Anwendungen wie der Bild- und Videoanalyse, wo „Gemini“ bereits bestehende Modelle übertroffen hat. In der Tat zeigt „Gemini“ auf vielen akademischen Benchmarks, die in der Forschung und Entwicklung von Großsprachmodellen (LLMs) verwendet werden, Leistungen, die über den aktuellen Stand der Technik hinausgehen.

Dieses beindruckende Video verdeutlicht die unglaubliche multimodale Leistungsfähigkeit von Gemini:

Wie stark ist Gemini im Vergleich zu GPT-4?

In Bezug auf die technische Leistungsfähigkeit stellt „Gemini“ einen entscheidenden Fortschritt gegenüber früheren KI-Modellen dar, insbesondere im Vergleich zu OpenAI's GPT-4. Das wird besonders deutlich, wenn man sich die Benchmarks ansieht, bei denen „Gemini“ gegen GPT-4 antritt.

„Gemini“ wurde in einer Vielzahl von Benchmarks getestet, um seine Leistungsfähigkeit zu evaluieren. Bemerkenswerterweise hat „Gemini Ultra“, die leistungsfähigste Version des Systems, in 30 der 32 weit verbreiteten akademischen Benchmarks, die in der Forschung und Entwicklung großer Sprachmodelle verwendet werden, Ergebnisse erzielt, die über dem aktuellen Stand der Technik liegen. Diese umfassen eine breite Palette von Aufgaben, von der natürlichen Bild-, Audio- und Videoverständnis bis hin zur mathematischen Argumentation.

Besonders beeindruckend ist, dass „Gemini Ultra“ als erstes Modell besser abschneidet als menschliche Expert:innen im MMLU (Massive Multitask Language Understanding) Benchmark, der eine Kombination von 57 Themen wie Mathematik, Physik, Geschichte, Recht, Medizin und Ethik umfasst, um sowohl Weltwissen als auch Problemlösungsfähigkeiten zu testen. Mit einer Punktzahl von 90,0% übertrifft es menschliche Experten in diesem anspruchsvollen Test.

Darüber hinaus erreicht „Gemini Ultra“ eine Bestleistung von 59,4% im neuen MMMU-Benchmark, der multimodale Aufgaben aus verschiedenen Bereichen umfasst, die bewusstes Nachdenken erfordern. Dies zeigt „Gemini's“ Fähigkeit, komplexe multimodale Aufgaben zu lösen, die über das reine Textverständnis hinausgehen.

Im Vergleich dazu hat GPT-4, das neueste Modell von OpenAI, auch beeindruckende Ergebnisse in verschiedenen Benchmarks gezeigt, aber „Gemini“ scheint in vielen Bereichen, insbesondere in multimodalen Aufgaben und in der Verarbeitung komplexer, diversifizierter Daten, einen Schritt weiter zu gehen.

Es ist wichtig zu erwähnen, dass Benchmarks nur ein Aspekt bei der Bewertung der Leistungsfähigkeit von KI-Modellen sind. Sie bieten zwar einen quantitativen Maßstab für bestimmte Fähigkeiten, können jedoch nicht die gesamte Bandbreite der Leistungsfähigkeit und Anwendbarkeit eines KI-Systems erfassen. So sind beispielsweise Aspekte wie Benutzerfreundlichkeit, Vielseitigkeit in realen Anwendungen und ethische Überlegungen ebenso wichtig.

Sundar Pichai, CEO von Google und Alphabet, betont die Bedeutung dieser Entwicklung. Er sieht die aktuelle AI-Transformation als die tiefgreifendste technologische Verschiebung unserer Zeit, noch bedeutsamer als der Übergang zu Mobilgeräten oder das Internet. Pichai betont das Potenzial von KI, Chancen für Menschen überall auf der Welt zu schaffen, Innovation und wirtschaftlichen Fortschritt voranzutreiben und Wissen, Lernen, Kreativität und Produktivität in einem bisher unerreichten Maßstab zu steigern. Es ist an dieser stelle wohl nicht nötig zu erwähnen, dass auch der heimische Tourismus durch diese Neuerungen ordentlich durchgewirbelt und geleichermaßen vor neue Chancen und Herausforderungen gestellt wird.

„Gemini“ wird es in drei verschiedenen Größen geben: Ultra, Pro und Nano. Während „Gemini Ultra“ für hochkomplexe Aufgaben konzipiert ist, eignet sich „Gemini Pro“ für ein breites Spektrum von Aufgaben. „Gemini Nano“ ist besonders effizient für Aufgaben auf mobilen Geräten und wird bereits in neuen Features wie „Summarize“ in der Recorder-App und „Smart Reply“ in Gboard auf Pixel 8 Pro-Smartphones eingesetzt. Google skaliert damit die Nutzung von AI-Modellen von leistungsstarken Rechnern bis hinunter zu unseren Handys.

Wie schon erwähnt, ist die Leistung von „Gemini“ nicht nur auf die Verarbeitung von Text beschränkt. Das System zeigt auch in der Programmierung herausragende Fähigkeiten. Es versteht, erklärt und generiert hochwertige Codes in den beliebtesten Programmiersprachen wie Python, Java, C++ und Go. Dies hat zur Entwicklung von „AlphaCode 2“ geführt, einem fortgeschrittenen Code-Generierungssystem, das bei Programmierwettbewerben nahezu die doppelte Anzahl von Problemen im Vergleich zu seinem Vorgängermodell lösen kann. Tests haben auch gezeigt, dass Gemini sich zu den Top 95% Programmierern zählen darf. Werden wir also künftig unsere Marktforschung komplett der AI übergeben können, die selbst komplexe Analysen eigenständig durchführen kann?

Darüber hinaus wurde „Gemini“ auf der AI-optimierten Infrastruktur von Google unter Verwendung der hausintern entwickelten Tensor Processing Units (TPUs) v4 und v5e trainiert. Dies macht „Gemini“ zu einem der zuverlässigsten, skalierbarsten und effizientesten Modelle für das Training und die Bereitstellung. Die Ankündigung des leistungsstärksten, effizientesten und skalierbarsten TPU-Systems von Google, Cloud TPU v5p, wird die Entwicklung von „Gemini“ weiter beschleunigen und Entwickler:innen sowie Unternehmenskund:innen ermöglichen, groß angelegte generative KI-Modelle schneller zu trainieren.

In puncto Sicherheit und Verantwortung hat Google bei „Gemini“ nicht gespart. Das Modell hat die umfassendsten Sicherheitsbewertungen aller Google-KI-Modelle durchlaufen, einschließlich Tests auf Voreingenommenheit und Toxizität. Google arbeitet mit einer vielfältigen Gruppe externer Experten und Partnern zusammen, um die Modelle auf eine breite Palette von Problemen zu testen und setzt Benchmarks wie „Real Toxicity Prompts“ ein, um Sicherheitsprobleme während der Trainingsphase von „Gemini“ zu diagnostizieren und sicherzustellen, dass seine Ausgabe den Richtlinien entspricht.

Die Verfügbarkeit von „Gemini“ wird sich in den kommenden Monaten weiter ausdehnen. Es wird in mehr Google-Produkten und -Diensten wie Search, Ads, Chrome und Duet AI integriert. Ab dem 13. Dezember können Entwickler und Unternehmenskunden auf „Gemini Pro“ über die Gemini API in Google AI Studio oder Google Cloud Vertex AI zugreifen. Für „normale Nutzer:innen“ ist Gemini Pro derzeit nur über den Umweg eines VPN möglich, indem man Google Bard nutzt. Erst in den kommenden Wochen wird dieses Modell auch in Europa in Bard integriert sein.

Die Einführung von „Gemini“ ist ein entscheidender Schritt in der Entwicklung der KI und der Beginn einer neuen Ära für Google. Das Unternehmen arbeitet weiterhin hart daran, die Fähigkeiten seiner Modelle für zukünftige Versionen zu erweitern, einschließlich Fortschritten in Planung und Gedächtnis und einer Erhöhung des Kontextfensters für die Verarbeitung noch mehr Informationen.

Abschließend lässt sich sagen, dass „Gemini“ nicht nur ein weiteres KI-Modell ist, sondern ein Wendepunkt in der Art und Weise, wie wir KI einsetzen und verstehen. Mit seiner Fähigkeit, komplexe Informationen aus einer Vielzahl von Quellen nahtlos zu verarbeiten und zu interpretieren, steht „Gemini“ an der Schwelle, die Art und Weise, wie Milliarden von Menschen leben und arbeiten, grundlegend zu verändern und ein neues Zeitalter der Innovation und Kreativität einzuläuten.