- 10x-Klasse
- Posts
- Google Astra vs. GPT-4omni - wer gewinnt die nächste Runde?
Google Astra vs. GPT-4omni - wer gewinnt die nächste Runde?
Lesezeit: ~ 6 Min.
Lesezeit: ~ 6 Min.
Moin – endlich wieder aus Hamburg,
Indien war richtig … anders. Es ist faszinierend, wenn man sieht, wie anders die (Arbeits-)Kultur dort ist, doch man versteht schnell, warum so viele Unternehmen inzwischen ihre Arbeit dorthin outsourcen. Ein Tipp: Es ist sicher nicht nur wegen der niedrigen Löhne & Gehälter.
Da ich Samstag aufgrund des Flughafenchaos in München deutlich verspätet angekommen bin und meine Partnerin leider krank geworden ist, fällt der Deep Dive heute aus.
Was habe ich trotzdem für euch?
Diese Woche überwogen die großen Veröffentlichungen von OpenAI und Google, wohingegen es weniger kleine Neuigkeiten gab.
👀 Falls du die letzte Ausgabe verpasst hast: Wie du mit einem Prompt unendlich unwiderstehliche perfekt zugeschnittene Inhalte generierst
Chart der Woche: Wie Organisationen von der Einführung generativer KI profitiert haben
Beitrag der Woche: Google vs. OpenAI - Runde 2
Der kuratierte Bereich: News von Anthropic & Microsoft
Deep Dive: Entfällt heute aufgrund von Krankheit
CHART DER WOCHE
📊 Wie Organisationen von der Einführung generativer KI profitiert haben
Mehr als sechs von zehn Organisationen, die KI nutzen, sagen, dass sie die Effizienz verbessert hat, und 59 % sagen, dass sie die Kundenerfahrung verbessert hat, laut einem neuen Bericht von Scale AI. Außerdem sagen fast die Hälfte der Befragten, dass LLMs ihnen geholfen haben, Ideen für neue Produkte oder Dienstleistungen zu entwickeln — ein Beweis für die Brainstorming-Fähigkeiten der KI.
Nur etwa 1/3 der Unternehmen gibt an, dass sich ihr Gewinn und Umsatz dank KI verbessert haben, was zeigt, dass Effizienzsteigerung einfacher ist (wie man etwas macht) als Effektivitätssteigerung (was man macht).
Den gesamten Report kannst du hier einsehen: Jetzt reinschauen →
DER BEITRAG DER WOCHE
📰 Google vs. OpenAI - Runde 2
Behält OpenAI weiterhin die Oberhand?
Spoiler: ja.
Sprache ist das wichtigste Kommunikationsmittel, das wir haben. Und somit ist es nur richtig, dass ein Leser, Martin, sich über die bisher schwache Sprachsteuerung beschwerte:
Email von Martin
Ich antwortete, dass man heute bereits mit ChatGPT+ sprechen könne. Allerdings ähnelt das Gespräch eher einer Unterhaltung mit Siri: langsam und fehleranfällig. Deswegen war ich gespannt, als The Information berichtete, dass die Sprachanwendung von ChatGPT im neuen Modell überarbeitet werden solle. “Überarbeitung” ist in Anbetracht der Realität jedoch eine Untertreibung.
OpenAI legt mit GPT-4omni vor
OpenAI hat ChatGPT-4o angekündigt, die schnellste, intelligenteste und multimodalste KI bis dato — schau dir die vollständige Demo hier an.
ChatGPT-4o wird bald als Desktop-App kostenlos für alle verfügbar sein. ChatGPT+ Nutzer erhalten als Erste Zugang zu GPT-4o mit 5-facher Nutzung.
Es ist multimodaler: Dieses neue ChatGPT ist nicht nur in der Intelligenz höher (es führt die LMSYS-Rangliste bei weitem an); es kann auch sprechen und sehen wie wir.
1/ Das neue Sprachmodul
Der Voice Mode fühlt sich an, als würde man mit einem echten Menschen plaudern — er erfasst deinen Ton, deine Sprache und deine Ausdrücke in Echtzeit. Bitte schaut euch dieses Video an, in dem Salman Khan (von der Khan Academy) mit seinem Sohn an einer Geometrieaufgabe sitzt:
Viele beschreiben es als eine reale Version von Her. Schaut euch außerdem die folgenden Anwendungsfälle an:
Es ist unheimlich menschenähnlich, vielleicht sogar schon zu sehr. Aber das bedeutet, dass du für Aufgaben, die du normalerweise mit Siri versuchen würdest, stattdessen ChatGPT verwenden können wirst.
Leider ist das Widget für uns in Europa (natürlich) noch nicht verfügbar. Deswegen erst einmal zu den anderen Punkten:
2/ ChatGPT-4o hat ein Live-20/20-Sehvermögen
Das bedeutet, dass es Fotos, Screenshots und Dokumente interpretieren kann, während du arbeitest. Ein paar Beispiele:
Sal Khans Sohn teilt seinen iPad-Bildschirm, und ChatGPT-4o hilft ihm live, ein Problem zu lösen (wie bereits weiter oben erwähnt)
Es kann Objekte identifizieren und dir beibringen, wie man sie auf Spanisch ausspricht (Link)
Es kann kopierten Code erklären (Link)
TOP DEMO: GPT-4o hilft einer blinden Person, "zu sehen", was vor ihm ist (unbedingt anschauen: Link)
Zusammen werden all diese neuen Funktionen neue Anwendungsfälle freischalten, die heute noch unvorstellbar sind. Betrachte zum Beispiel folgende Möglichkeit:
Lade eine PowerPoint hoch und lasse ChatGPT-4o Layout-Änderungen vorschlagen, die Titel der Folien umformulieren und das Design überarbeiten
Verwende ChatGPT-4o, um eine Tabelle zu inspizieren und Trends, Anomalien oder Unstimmigkeiten hervorzuheben. Oder für technischen Support.
GPT-4o kann Kunden durch visuelle Schritt-für-Schritt-Anleitungen für die Installation oder Einrichtung von Produkten führen
3/ Weitere Updates, die nicht in der Demo waren (klick hier)
Für Entwickler ist GPT-4o halb so teuer, doppelt so schnell wie GPT-4-Turbo und hat 5-fache Rate-Limits (Link)
Viel besser beim korrekten Schreiben von Texten in DALL-E 3 Bildern
Es kann Schriftarten erstellen
Es kann 3D-Visualisierungen generieren
4/ Bonus: Wird GPT-4o Siri auf dem iPhone ersetzen?
Die Technikwelt spekuliert schon seit geraumer Zeit, ob und wann Apple KI in seine Geräte einbauen wird. Bloomberg berichtete letztes Wochenende, dass Apple kurz davor stehe, einen Deal mit OpenAI abzuschließen, um ChatGPT in neue KI-Funktionen zu integrieren, die am 10. Juni vorgestellt werden sollen.
Bedeutet dies ein ChatGPT-gestütztes Siri? Keine Ahnung, wahrscheinlich noch nicht. GPT-4 ist sicherlich zu groß für Konsumentengeräte - aber ein verbessertes Siri scheint unmittelbar bevorzustehen.
Google zieht mit Gemini-Flash, ASTRA nach
Gestern stellte Google auf seiner I/O-Entwicklerkonferenz eine Fülle von KI-Innovationen vor. Es war sehr viel, doch ich versuche, alles unter zu bekommen.
1/ Gemini kommt in alle GWS-Apps - falls es funktioniert.
Das bedeutet, zahlende Benutzer haben einen ChatGPT-ähnlichen Assistenten direkt neben ihrem Bildschirm, der alles weiß, was deine Google-Apps über dich wissen (also quasi wirklich alles).
Angetrieben von Gemini 1.5 Pro, verfügt es jetzt über ein supergroßes Kontextfenster von 2 Mio. Tokens – was bedeutet, dass es sich 1,4 Mio. Wörter „merken“ kann. Wenn du in Docs/Sheets/Gmail/Slides arbeitest, kannst du Gemini bitten, Inhalte aus all diesen Apps abzurufen oder zusammenzufassen:
„Hey Gemini, hole die neuesten Budgetzahlen aus den Sheets und füge sie in diese E-Mail ein.“
„Hey Gemini, fasse die Hauptpunkte aus der E-Mail-Kette mit unserem Marketingteam in einem neuen Doc zusammen.“
Der Killer-Use-Case von gestern, über den niemand spricht, könnte Geminis Fähigkeit sein, alle deine E-Mails zu durchsuchen, was dir die Kopfschmerzen erspart, jemals wieder nach einer E-Mail suchen zu müssen.
Das alles natürlich vorausgesetzt, dass diese Funktionen Wirklichkeit werden. Google hat leider die Angewohnheit, seine Demos zu übertreiben, wie wir wissen…
Die Funktionen sind bereits heute verfügbar:
Probiere Gemini für Workspace über Google One AI Premium für Verbraucher oder
mit einem Gemini für Workspace Add-on für Geschäftskunden aus.
In Zukunft wird Gemini auch eigenständig Aktionen durchführen: Es ginge nicht nur darum, Informationen zu finden; Google bereite einfache Versionen von KI-Agenten vor, die Aufgaben ausführen könnten:
Das nächste große Ding (wahrscheinlich aber nicht so bald) ist das KI-Team-Mitglied. Stell dir einen Kollegen vor, der in Chatgruppen, E-Mails und Dokumenten auftaucht. Wenn er die Antwort auf eine Frage kennt, wird er antworten, genau wie jeder andere Mitarbeiter es tuns.
2/ Weitere wichtige KI-Ankündigungen von I/O
Es gibt die Arbeitsdinge von I/O, die wir am praktischsten finden, und dann gibt es die atemberaubenden Demos, die uns wirklich die Zukunft der Realität in Frage stellen lassen. V. a. Project Astra: Die Vision für die Zukunft der KI-Assistenten:
Project Astra: Googles ultimativer KI-Assistent, der sehen und über das, was um dich herum ist, nachdenken kann. Es ähnelt ChatGPT-4o und könnte eine zukünftige Brille antreiben.
Veo, Googles neuer KI-Videogenerator. Es wäre natürlich noch beeindruckender, wenn es nicht Sora gäbe, OpenAIs Text-zu-Video-Modell.
Imagen 3, Googles neuestes Text-zu-Bild-Modell. Ehrlich gesagt beeindruckt von diesem. Die Menschen sehen sehr, sehr real aus (siehe hier).
Music AI Sandbox, Googles Ansatz zur Musikschaffung mithilfe von KI. Höre dir die Demos hier an.
Und natürlich neue Modelle für die Nerds:
Gemini 1.5 Flash – eine kleinere, schnellere Version von Gemini 1.5 Pro.
Gemma 2 – Googles beste Open-Source-Modelle.
PaLI-3 – ein frisches Open-Source-Vision-Modell.
Gemini Live – eine Sprechfunktion für Gemini ähnlich dem ChatGPT Voice Mode, die später dieses Jahr kommt.
Wer sich die Konferenz in unter 10 Min. anschauen möchte, kann dies hier tun:
Wer sich aber einen wirklichen Was-zum-Teufel-Moment abholen möchte, der sollte sich folgendes Video anschauen. Der Moment ist jedoch ganz am Ende (dauert aber nur 2 Min.):
Its crazy that Philipp has 75 followers - one of the smartest biz leaders on the planet - Chief Biz Officer at $GOOG. Watch the end of the video for your WTF moment. These multi-modal experiences were unthinkable even 12 month ago - GOOG def finding its AI mojo…
— Brad Gerstner (@altcap)
12:00 AM • May 19, 2024
Meine abschließenden Gedanken
Ich nutze in meiner in meiner Company ChatGPT Teams, weil der Datenschutz stärker ist, die GPT-Vielfalt immens ist und weil ich einfach an ChatGPTs “Stil” gewohnt bin. Außerdem ist GPT-4o wirklich eine deutliche Steigerung, was die User Experience angeht.
Ich würde jedoch für alles, was meine Nebentätigkeiten betreffen, in Zukunft Gemini nutzen, falls es wirklich mit dem Google Workspace so kompatibel ist, wie Google es behauptet. Das wären mir die 20 € allemal wert!
DER KURATIERTE BEREICH
🚒 Weitere News im Schnelldurchlauf
🛠️ Werkzeuge & Tools
🤔 Anthropics Claude-Modell ist jetzt auch in Europa…
… für Konsumenten und Unternehmen verfügbar und bietet erweiterte KI-Fähigkeiten über eine webbasierte Version, eine iOS-App sowie ein Team-Abonnement an.
💰 Deals
Microsoft investiert $4,3 Mrd. in Frankreich…
… um die KI- und Cloud-Infrastruktur zu verbessern, mit dem Ziel, bis 2027 eine Mio. Menschen auszubilden und 2.500 KI-Startups zu unterstützen.
DEEP DIVE
🤒 Fällt aus - Lest euch stattdessen die letzten Ausgaben noch einmal durch:
Was wir in den letzten Lektionen erarbeitet haben:
OUTRO
Wie ich dir helfen kann, wenn du bereit bist:
✅ Mein (kostenloses) KI-Starterkit in Notion (Link)
✅ Die Tools, die ich jeden Tag verwende & wärmstens empfehle:
Beehiiv.com* - mein Newsletter-Programm, das mir >1.000 Abonnenten gebracht hat
Perplexity.ai - Die Suchmaschine der KI-Ära - mehr Infos hier
Decktopus.com* - Erstelle qualitativ hochwertige Präsentation in Sekunden
Typeshare.co* - Meine All-in-One Social Media Content-Creation Suite, die dir die am besten funktionierenden Templates für die unterschiedlichen Kanäle anbietet
Hypefury.com* - Mein Social-Media-Tool, mit dem ich mein Twitter auf > 2.500 Follower gebracht habe
Copy.ai - Mit KI Inhalte generieren, wie Titel, E-Mails und Social-Media-Beiträge
Scribe AI* - mein Tool für technische Dokumentation bei Kunden, die automatisch mitdenkt und die Veröffentlichung per Klick kinderleicht macht
Screenstory.io* - Loom auf Steroiden - erstelle Gifs, Tutorials & andere Videos
Guidde.com*- Erstelle super schnell Videoanleitungen für dein Team
Descript.com - Nutze ich derzeit für Video- und Podcast-Bearbeitung (coming soon)
Looka.com - Erstelle schnell deine Brandutensilien mit der Hilfe von KI
Die Tools sind in der Frequenz der Anwendung gelistet.
*Gesponserte/Affiliate Links