Die Google I/O ist jedes Jahr eines der wichtigsten Tech-Events. Auf der Entwicklerkonferenz präsentiert Google traditionell die neuesten Innovationen und gibt einen Ausblick auf kommende Produkte. Auch 2024 gab es auf der Google I/O wieder viele spannende Ankündigungen.

In seiner Keynote sprach Google CEO Sundar Pichai über die “Gemini-Ära”, in der sich das Unternehmen gerade befinde. Gemini ist ein zukunftsweisendes KI-Modell von Google, das multimodal arbeitet und Text, Bilder, Videos und Code verarbeiten kann. Laut Pichai stellt Gemini einen großen Schritt dar, um jeden Input in einen beliebigen Output umzuwandeln. Dieser Blog-Post gibt eine kompakte Übersicht über die wichtigsten vorgestellten Neuerungen.

Neue KI-Funktionen für die Google Suche

Google hat angekündigt, dass die KI-basierten Übersichten in der Suche, die bisher nur im Testmodus verfügbar waren, jetzt für alle Nutzer in den USA ausgerollt werden. Diese neue Funktion namens “AI Overviews” ermöglicht es Nutzern, komplexere Suchanfragen zu stellen und präzisere, personalisierte Antworten zu erhalten.

Liz Reid, die verantwortliche Top-Managerin bei Alphabet, erklärte die Philosophie hinter den Neuerungen mit dem Slogan “Wir übernehmen das Googeln für dich”. Nutzer können nun mehrere Fragen in einer einzigen Suchanfrage stellen – zum Beispiel nicht nur “Wo gibt es Pilates-Studios in Boston?”, sondern auch “Wie komme ich dorthin und wie kann ich einen Termin buchen?”. Die Software-Algorithmen von Google, die bisher vor allem relevante Weblinks zu den Suchanfragen der Nutzer auswählten, werden nun durch Gemini KI-Modelle ergänzt oder ersetzt. Statt einer Liste von Links bekommen Nutzer auf komplexere Anfragen jetzt eine “KI-basierte Übersicht”, die einen personalisierten Fließtext, ausgewählte Links und Produktvorschläge enthält.

Google möchte damit die Bedenken von Website-Betreibern zerstreuen, dass die KI-Zusammenfassungen den Traffic von ihren Seiten abziehen könnten. In Tests hätten die “AI Overviews” sogar mehr und vielfältigere Links enthalten als üblich, und die Nutzer hätten auch häufiger auf diese Links geklickt, berichtete Google-Managerin Hema Budaraju. Die neuen KI-Funktionen in der Google Suche werden zunächst in den USA in englischer Sprache eingeführt. Es wird erwartet, dass sie “bald” auch nach Europa und Deutschland kommen. Laut Liz Reid sollen die AI Overviews bis Ende des Jahres mehr als eine Milliarde Menschen erreichen.

Gemini Live und Project Astra

Google zeigte auf der I/O 2024 zwei spannende neue KI-Projekte, die einen Ausblick auf die Zukunft von KI-Assistenten geben.

Das erste Projekt heisst Gemini Live und baut auf den multimodalen Fähigkeiten von Gemini auf. Mit Gemini Live können Nutzer*innen mit ihrer Stimme ausführliche Gespräche mit der KI führen. Dank der neuesten Sprachmodelle von Google versteht Gemini den Nutzer besser und antwortet auf natürliche Weise. Man kann Gemini sogar unterbrechen, während es antwortet, und es passt sich den Sprechmustern an. Aber das ist erst der Anfang. Google möchte die Geschwindigkeits- und Videoverständnisfunktionen von Project Astra in die Gemini-App integrieren. Wenn man live geht, kann man die Kamera öffnen, sodass Gemini sieht, was man sieht, und in Echtzeit auf die Umgebung reagiert.

Jeder Nutzer verwendet Gemini auf seine eigene Art und Weise. Deshalb führt Google eine neue Funktion ein, mit der man Gemini an die eigenen Bedürfnisse anpassen und persönliche Experten zu jedem gewünschten Thema erstellen kann. Google nennt diese “Gems”. Sie sind einfach einzurichten. Man tippt einfach auf “Gem erstellen”, schreibt einmal die Anweisungen und kann jederzeit darauf zurückgreifen. Gems sind eine große Zeitersparnis, wenn man auf bestimmte Weise immer wieder mit Gemini interagieren möchte. Sie können als Yoga-Kumpel, persönlicher Souschef, kluger Mathe-Tutor, Peer-Reviewer für den Code und vieles mehr fungieren. Gems werden in den kommenden Monaten eingeführt.

Das zweite spannende KI-Projekt, das Google vorstellte, ist Project Astra. Dabei handelt es sich um einen Prototyp eines KI-Assistenten, der Objekte aus Videofeeds erkennen und sogar Code von Computerbildschirmen verstehen kann.

In einer beeindruckenden Demo navigierte ein Astra-Nutzer durch Googles Londoner Büro und interagierte mit der App in natürlicher Sprache. Einer der beeindruckendsten Momente des Videos war, als der Assistent die fehlende Brille des Nutzers korrekt identifizierte, bevor dieser sie erwähnte. Das Video endete mit einer überraschenden Wendung, die darauf hindeutet, dass Google möglicherweise an einem Konkurrenzprodukt zu Metas Ray-Ban-Smartglasses arbeitet.

Generative KI für Bilder, Videos und Musik

Neben Text kann generative KI auch beeindruckende Ergebnisse in den Bereichen Bild, Video und Musik erzielen. Auf der Google I/O 2024 stellte das Unternehmen mehrere neue Tools und Modelle vor, die zeigen, wie weit die Technologie in diesen Bereichen bereits ist.

Imagen 3: Fotorealistische Bilder auf Knopfdruck

Mit Imagen 3 präsentierte Google die neueste Version seines Text-to-Image Modells. Imagen nutzt die Fähigkeiten von Gemini, um aus Textbeschreibungen fotorealistische Bilder zu erzeugen. Dabei übertrifft es in Qualität und Detailgrad deutlich die Vorgängerversionen. Imagen 3 ermöglicht es, mit wenigen Worten komplexe Szenen zu beschreiben, die das Modell dann in Bilder umsetzt. Zum Beispiel kann man Imagen bitten: “Erzeuge ein Foto eines Raumschiffs, das auf einem fremden Planeten mit zwei Monden am Himmel landet.” Selbst solch fantasievolle Szenen setzt Imagen 3 überzeugend um, inklusive korrekter Perspektive und Beleuchtung. Google sieht grosses Potenzial für Imagen im kreativen Bereich, etwa in der Werbung, im Grafikdesign oder in der Spieleentwicklung. Imagen 3 wird zunächst ausgewählten Partnern zur Verfügung gestellt, soll aber noch in diesem Jahr für alle Nutzer verfügbar sein.

Veo: Videogenerierung der nächsten Generation

Auch bei der Generierung von Videos macht Google beeindruckende Fortschritte. Mit Veo stellte das Unternehmen ein neues Modell vor, das Videos allein auf Basis von Textbeschreibungen erzeugen kann. Ähnlich wie Imagen bei Bildern, setzt Veo geschriebene Szenen in Bewegtbild um. Dabei stimmt es Objekte, Charaktere und Umgebungen aufeinander ab und sorgt für realistische Bewegungen und Übergänge. Die erzeugten Videos wirken wie aufwendig produzierte Filmsequenzen. In einer Demo zeigte Google, wie Veo eine Unterwasser-Szene mit Delfinen und Tauchern generierte – allein auf Basis einer kurzen Textbeschreibung. Das Ergebnis war von echten Aufnahmen kaum zu unterscheiden. Veo eröffnet völlig neue Möglichkeiten für die Videoproduktion und visuelle Effekte. Google betonte, dass bei Veo besonderer Wert auf den verantwortungsvollen Umgang und den Schutz vor Missbrauch gelegt wurde. So werden alle generierten Videos mit einem unsichtbaren digitalen Wasserzeichen versehen, um sie als KI-generiert zu kennzeichnen.

Musik-KI: Kreativität ohne Grenzen

Auch die Musikproduktion erreicht mit generativer KI eine neue Stufe. Google zeigte mit dem “Music AI Sandbox” ein Werkzeug, das es ermöglicht, durch Texteingabe völlig neue Musikstücke zu komponieren. Music AI Sandbox versteht musikalische Konzepte wie Genre, Instrumente, Tempo und Stimmung. So kann man dem System Anweisungen geben wie: “Komponiere einen fröhlichen Popsong mit Klavierbegleitung und einer einprägsamen Melodie.” Innerhalb weniger Sekunden generiert die KI dann einen völlig neuen Song. Auch das Generieren von Variationen und Alternativen ist möglich. Musiker und Produzenten können so schnell neue Ideen ausprobieren und ihre Kreativität entfesseln. Music AI Sandbox soll noch in diesem Jahr als Beta für ausgewählte Nutzer starten.

“Ask Photos”: Neue KI-Funktion für Google Fotos

Google Fotos, das vor fast neun Jahren gestartet wurde und mittlerweile über 6 Milliarden Fotos und Videos pro Tag verarbeitet, bekommt ein großes KI-Upgrade. Mit der neuen Funktion “Ask Photos” können Nutzer ihre Fotos und Videos durch natürliche Fragen durchsuchen. Gemini, Googles fortschrittlichstes KI-Modell, steckt dahinter und erkennt den Kontext und Inhalt der Bilder, um passende Antworten zu liefern.

Bisher konnten Nutzer in Google Fotos zwar nach Personen, Orten oder Dingen suchen, aber oft war das ein mühsamer manueller Prozess. Mit Ask Photos wird die Suche intuitiver. Statt nach einem bestimmten Wahrzeichen wie dem “Eiffelturm” zu suchen, können Nutzer die KI jetzt bitten: “Zeig mir das beste Foto aus jedem Nationalpark, den ich besucht habe.” Die KI analysiert dann Faktoren wie Beleuchtung, Unschärfe und Hintergrund, um die besten Fotos zu finden und mit Standort- und Datumsdaten abzugleichen.

Ask Photos geht aber über die reine Suche hinaus. Nutzer können Fragen stellen, die ein tiefes Verständnis des Fotoinhalts erfordern. Eltern könnten die KI zum Beispiel fragen, welche Themen es bei den letzten vier Geburtstagsfeiern ihres Kindes gab. Die KI erkennt dann Details wie Dekorationen im Hintergrund oder auf der Geburtstagstorte. Außerdem kann sie Text in Fotos verarbeiten, um noch genauere Ergebnisse zu liefern.

Pichai zeigte auch eindrucksvoll, wie Ask Photos die Entwicklung der Schwimmfähigkeiten seiner hypothetischen Tochter Lucia über die Jahre zusammenfassen kann. Die KI stellte Highlights aus Fotos und Videos zusammen und zeigte so Lucias Fortschritte.

Gemini 1.5 Pro mit mehr Kontext

Für Entwickler hatte Google-CEO Sundar Pichai auf der I/O 2024 ebenfalls gute Neuigkeiten: Die verbesserte Version von Gemini 1.5 Pro mit einem Kontextfenster von 1 Million Token ist ab sofort weltweit für Entwickler verfügbar. In der privaten Vorschau können ausgewählte Entwickler sogar ein erweitertes Kontextfenster von bis zu 2 Millionen Token testen. Damit eröffnen sich völlig neue Möglichkeiten für anspruchsvolle KI-Anwendungen.Gemini 1.5 Pro kann im Vergleich zum Vorgänger Gemini 1.0 Pro die 35-fache Datenmenge verarbeiten. Konkret bedeutet das:

  • 700.000 Wörter statt 20.000
  • 30.000 Codezeilen statt 850
  • 11 Stunden Audio statt 20 Minuten
  • 1 Stunde Video statt 1,5 Minuten

Durch das grössere Kontextfenster kann Gemini 1.5 Pro komplexere Zusammenhänge erfassen und Anweisungen über längere Zeiträume “im Gedächtnis behalten”. Das ermöglicht ganz neue Anwendungsfälle, bei denen das Modell auf einen deutlich umfangreicheren Kontext zugreifen muss.

 

Gemini 1.5 Flash und Gemini 1.5 Pro Verbesserungen

Google stellte auf der I/O 2024 das neue Gemini 1.5 Flash Modell vor. Es ist für definierte Aufgaben optimiert, bei denen Geschwindigkeit und Effizienz Priorität haben. Trotz seiner leichteren Bauweise im Vergleich zu 1.5 Pro ist es in der Lage, multimodal über große Datenmengen zu argumentieren und bietet eine beeindruckende Qualität für seine Größe. 1.5 Flash wurde von 1.5 Pro durch einen Prozess namens “Distillation” trainiert, bei dem das wesentliche Wissen und die Fähigkeiten eines größeren Modells auf ein kleineres, effizienteres Modell übertragen werden. Es eignet sich hervorragend für Zusammenfassungen, Chat-Anwendungen, Bild- und Videobeschriftungen, Datenextraktion aus langen Dokumenten und Tabellen und mehr.
 
Gleichzeitig gab es eine Reihe von Qualitätsverbesserungen am Gemini 1.5 Pro Modell in den Bereichen Übersetzung, Coding, logisches Schlussfolgern, Planung, Konversation über mehrere Runden hinweg sowie Audio- und Bildverständnis. Dadurch werden bessere Ergebnisse in öffentlichen und internen Benchmarks erzielt.
 
Beide Modelle, 1.5 Pro und 1.5 Flash, sind ab sofort in über 200 Ländern und Gebieten in der Vorschau verfügbar. Die allgemeine Verfügbarkeit ist für Juni geplant. Sie unterstützen nativ multimodale Fähigkeiten und ermöglichen es Nutzern, Text, Bilder, Audio und Video nahtlos zu kombinieren.

Eine Antwort hinterlassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert