ChatGPT ist nun multimodal

ChatGPT ist nun multimodal

In der neuen Blog-Serie „AI-Radar im Tourismus“ geben wir regelmäßig Einblicke zu aktuellen KI-Themen und Entwicklungen. Dieses Mal stellen wir die neuen Erweiterungen von OpenAI’s ChatGPT vor.

Die digitale Welt präsentiert ständig Innovationen, die das Potenzial haben, den Tourismus auf den Kopf zu stellen. Ein aktuelles Beispiel dafür ist die Erweiterung von OpenAI’s ChatGPT um neue Sprach- und Bildfunktionen. Diese neuen Funktionen ermöglichen es nun ChatGPT, die Welt ein wenig mehr so zu erleben, wie wir es tun: Es kann jetzt sehen (indem es Bilder versteht), hören (indem es gesprochene Sprache versteht), sprechen (indem es mit den Nutzern in einen Dialog tritt) und Bilder basierend auf Text generieren. Zudem hat OpenAI die Browsing-Funktion von ChatGPT aktiviert, wodurch es auf aktuelle Online-Informationen zugreifen kann. Im Folgenden wollen wir einen Blick darauf werfen, wie diese frischen Features GPT-Plus-Nutzern künftig das Leben erleichtern werden und wie sie den Tourismus beeinflussen können.­
 

ChatGPT nimmt das Gespräch auf

Mit der Einführung der Voice Conversation Funktion wird es nun möglich, in einen direkten, gesprochenen Dialog mit ChatGPT zu treten. Dafür setzt OpenAI ein Modell zur automatischen Spracherkennung ein, um gesprochene Worte in Text umzuwandeln. Mithilfe eines Text-zu-Sprache-Modells werden die Antworten dann wieder in Audioausgaben umgewandelt. Im touristischen Alltag eröffnet das eine Fülle von Möglichkeiten:
Gäste werden sich nähere Informationen zu Attraktionen in ihrer Sprache ausgeben lassen und ihre Fragen beantworten. Oder, GPT wird als Übersetzungstool fungieren und die Sprachbarriere in der Gästekommunikation überwinden. 

ChatGPT erfasst nun auch Bilder

Mit der neuen Bildkonversationsfunktion können Sie Bilder an ChatGPT senden und Fragen oder Anweisungen dazu geben. Diese Funktion wird durch die multimodalen Modelle GPT-3.5 und GPT-4 nun frei geschaltet. Diese Modelle setzen dabei ihre Sprachverständnisfähigkeiten auf eine Vielfalt von Bildern ein, die sowohl textuelle als auch visuelle Elemente enthalten. Insbesondere diese Funktion wird für den Tourismus erhebliche Auswirkungen haben. Einerseits ermöglicht dies den Gästen erneut Fragen auf Bildbasis zu stellen. Ein Schnappschuss von einer Attraktion, gesendet an ChatGPT, genügt, um nähere Details und Informationen darüber zu erhalten. Die Speisekarte steht nicht in der Sprache des Gastes zur Verfügung? Kein Problem, denn GPT-V liefert die Übersetzung basierend auf dem Foto davon. Diese Technologie kann jedoch auch für die Marktforschung oder das Marketing verwendet werden. Etwa, wenn Bildinhalte automatisch analysiert werden sollen, wie das Beispiel unten zeigt. Angenommen, dass derartige Analysen über Tausende von Instagram-Posts durchgeführt werden, können diese Texte weiter analysiert werden, um zum Beispiel Bildwelten von Touristen besser zu verstehen. Mit der Möglichkeit, Bilder beschreiben zu lassen bzw. diese zu „verstehen“, können zahlreiche Fragestellungen beantwortet werden, die ein besseres Marketing zulassen. (Kreativität bei den Analysemöglichkeiten ist hier gefragt!)

Antwort von GPT-4v

Das Bild zeigt eine Winterszene in einem Skigebiet. Im Hintergrund sind schneebedeckte Berge und Skipisten sichtbar, auf denen einige Skilifte installiert sind. Der Himmel ist klar und blau, und Sonnenstrahlen fallen auf die Szene.
Im Vordergrund sind mehrere Personen zu sehen, die sich auf einer Terrasse oder in einem Außenbereich eines Gebäudes aufhalten. Zwei Personen im Mittelpunkt des Bildes stoßen mit Gläsern an, die mit einem orangefarbenen Getränk gefüllt sind. Eines der Gläser hat einen Strohhalm. Die Person auf der linken Seite trägt eine auffällige orangefarbene Jacke und eine Mütze mit einem Bommel. Die Person auf der rechten Seite trägt eine Sonnenbrille und eine pelzbesetzte Kappe oder Mütze.
In der Nähe gibt es weitere Personen, die ebenfalls Winterbekleidung tragen, darunter Skibrillen und Jacken. Einige von ihnen schauen in Richtung der beiden Hauptpersonen.
Auf der rechten Seite des Bildes ist ein Tresen oder eine Bar sichtbar, auf dem verschiedene Flaschen und Getränke stehen. Es gibt auch ein Schild mit einem Warnhinweis darauf.
Das gesamte Bild vermittelt eine fröhliche und gesellige Stimmung, als ob die Menschen nach einem Tag auf den Pisten eine gute Zeit zusammen verbringen.

ChatGPT bekommt Internet-Zugang

Mit der reaktivierten Browsing-Funktion wird die Informationsbasis von ChatGPT erweitert, indem der Zugriff auf aktuelle Online-Daten ermöglicht wird und nicht mehr nur auf Informationen bis September 2021 begrenzt ist. Dieses neue Feature könnte sich im touristischen Alltag als besonders nützlich erweisen, da somit Echtzeit-Informationen zur Verfügung stehen. 

Sicherheit und Privatsphäre

Trotz der spannenden neuen Features dürfen Fragen nach der Sicherheit der Daten und der Privatsphäre der Nutzer:innen dieser Technologien nicht außer Acht gelassen werden, insbesondere in einem so datenintensiven Bereich wie dem Tourismus.

OpenAI verweist dabei auf die stufenweise Einführung der Funktionen, die es ermöglicht, Feedback zu erhalten und die Systeme anzupassen, um eine sichere und datenschutzkonforme Nutzung zu sichern. Des Weiteren haben Nutzer:innen von ChatGPT mittlerweile auch die Möglichkeit, den Chatverlauf zu deaktivieren, um ihren Datenschutz zu verbessern und mitzuentscheiden, ob ihre Daten zum Training der Modelle von OpenAI verwendet werden dürfen. 

Zukunftsaussichten

Die neuen Funktionen für ChatGPT markieren einen Fortschritt hin zu einer intuitiven digitalen Reiseerfahrung. Im Rahmen des OpenAI DevDay im November 2023, der ersten Konferenz des Unternehmens dieser Art, sollen weitere KI-Modelle vorgestellt werden. Professor Hochreiter von der Johannes Kepler Universität in Linz, ein Pionier moderner KI-Systeme, zeigt sich zudem ambitioniert, OpenAI’s GPT-Modelle mit einem überlegenen Modell herauszufordern. Für uns bleibt es spannend zu beobachten, wie diese Entwicklungen die Interaktion zwischen Reiseunternehmen und ihren Kunden sowie das Erfahrungsspektrum der Reisenden nachhaltig beeinflussen werden.