- 10x-Klasse
- Posts
- 🔈️ ChatGPT kann jetzt sehen, hören und sprechen
🔈️ ChatGPT kann jetzt sehen, hören und sprechen
Außerdem: BCG testet seine Consultants mit vs. ohne KI
Moin!
Ich bin wieder da aus meinem Italienurlaub, auf dem ich mir mal wieder etwas geholt habe, was ich bis gestern auskurieren musste. Dann kam eben noch der neu entfachte Krieg dazu, der mich schwer beschäftigt hat, weswegen wir jetzt ein paar Wochen News nachzuholen haben.
Nur als Nebensatz: Ich arbeite gerade an einer Notion-Seite, um Neulingen zu KI-Tools eine Startrampe zu bieten, mit der sie direkt durchstarten können. Den Aufbau dieser könnt ihr hier live mit verfolgen. Leider fällt mir kein cooler Titel ein außer "Starter-Kit". Wenn jemand eine coole Idee hat, bitte antwortet mir die Idee direkt auf diesen Newsletter. Wenn ihr möchtet, verlinke ich den Social-Account eurer Wahl (immerhin fast 1.200 Leute inzwischen).
Außerdem: Wenn ihr Ideen habt, was noch mit rein muss, sagt mir gerne Bescheid.
Worum es heute geht:
🤿 Deep Dive: ChatGPT kann jetzt sehen, hören und sprechen
🔥 Studie: Arbeitnehmer mit KI erzielen 40 % bessere Ergebnisse
💡 Idee der Woche: 3 Trends mit bereits vorhandener Nachfrage
🚒 Lesenwert: Rechtsstreit um geistiges Eigentum
🛠️ Neues Tool: Podcast-Notizenersteller
🤿 Deep Dive: ChatGPT wird multimodal
Was du lernen wirst:
Wie man auf Perplexity zugreift und es benutzt
Die Vor- und Nachteile von Perplexity gegenüber ChatGPT/Google
4 zeitsparende Such-Workflows in Perplexity
Der KI-Wahn scheint wieder da zu sein - Microsoft kündigte an, dass Copilot zum Mainstream wird und nicht nur ein Business-Tool sein wird; Google hat Gemini angeteasert, das angeblich mit GPT-4 gleichwertig sein wird... Und jetzt ist ChatGPT offiziell multimodal.
Was bedeutet das eigentlich?
Hier könnt ihr die Offizielle Ankündigung von OpenAI auf 𝕏 als Video anschauen:
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms).
openai.com/blog/chatgpt-c…— OpenAI (@OpenAI)
12:12 PM • Sep 25, 2023
Also, was bedeutet multimodal jetzt?
Die KI kann dich hören (OK, zugegeben: Das konnte es schon auf der Smartphone-App).
Sie kann sehen, was du ihr schickst (neu!)
Das Sprachverständnis von ChatGPT bezieht sich jetzt auch auf Bilder, Fotos, Screenshots und Textdokumente. Benutzer können über mehrere Bilder diskutieren oder den Assistenten mit dem neuen Zeichentool anleiten. Beispiel:
Sie kann in Sprache statt nur in Text antworten (neu!).
Durch den Einsatz der neuen Technologie “Whisper” können die Nutzer mit Hilfe von Sprache in ein Hin- und Hergespräch eintreten. Das Text-to-Speech-Modell bietet fünf verschiedene Sprachoptionen für Chats, die in Zusammenarbeit mit professionellen Sprechern erstellt wurden.
Ein Beispiel kannst du hier anhören.
Um dich von allen Demos beeindrucken zu lassen, kannst du hier auch die vollständige Ankündigung von OpenAI lesen.
Doch wie immer beim Deep Dive geht es mir nicht nur um die neuen Funktionalitäten, sondern um die tieferen Implikationen.
Ich habe bisher noch keine spezifischen Studien dazu gesehen (wenn ihr welche mitbekommen habt, schickt sie mir gerne)! Aber es wird interessant sein zu sehen, wie die zunehmenden Modalitäten und Daten dem Problem der Halluzinationen entweder helfen oder schaden.
In meiner Arbeit habe ich gesehen, dass es schwieriger ist, Halluzinationen zu erkennen, wenn man dem Sprachmodell mehr Informationen gibt.
Der logische Gedanke wäre: Ich habe ihm den ganzen Artikel geschickt, warum sollte es also etwas erfinden. Oder jetzt habe ich ihm das Foto geschickt, warum sollte es etwas erfinden. Doch wir dürfen nicht vergessen, dass diese KI-Modelle wie ChatGPT immer noch nur das wahrscheinlichste Wort, den wahrscheinlichsten Ton, das wahrscheinlichste Foto usw. vorhersagen, basierend auf den Trainingsdaten und dem, was wir ihnen im Kontextfenster angeboten haben.
Sie selbst haben keinen Sinn dafür, was eine Lüge oder "Halluzination" ist. Gut ist jedenfalls, dass die anwendenden Menschen wissen zunehmend wissen, dass sie nicht alles glauben sollten, was aus dem kleinen Chat kommt.
Aber wenn jetzt auch noch Bilder und Töne hinzukommen, wird es interessant sein zu sehen, wie sich unsere Erwartungen dadurch ändern.
Das neue Text-to-Speech-Modell wird bereits in der Pilotfunktion "Spotify's Voice Translation für die Übersetzung von Podcast-Audio verwendet. Mehr zur Kollaboration mit Spotify in den weiteren News.
Wann ist es verfügbar?
OpenAI wird in den nächsten zwei Wochen schrittweise Sprache und Bilder für Plus- und Enterprise-Nutzer aktivieren.
Eine letzte Randnotiz: “Clip”
Merkt euch "CLIP": OpenAIs bahnbrechende Verschmelzung von Text und visuellen Elementen unter Verwendung des CLIP-Modells ist ein Beispiel für die Möglichkeit eines nuancierten Verständnisses über mehrere Datenformate hinweg. Obwohl die technischen Details noch nicht bekannt sind, erhöht dieses Upgrade zweifelsohne die Fähigkeiten von ChatGPT.
🔥 Studie: Arbeitnehmer mit KI erzielen 40 % bessere Ergebnisse
Laut einer neuen Studie, die von Sozialwissenschaftlern einiger der größten Universitäten der Welt durchgeführt wurde, schnitten Testpersonen (BCG-Consultants), die ChatGPT für 18 verschiedene Arbeitsaufgaben nutzten, deutlich besser ab als ihre Altersgenossen, die dies nicht taten.
Die wichtigsten Ergebnisse der Studie:
Die Studie wurde in Zusammenarbeit mit der Boston Consulting Group durchgeführt und analysierte Hunderte von Beratern in 18 verschiedenen Arbeitsaufgaben.
Diejenigen, die KI verwendeten, erledigten 12,2 % mehr Aufgaben.
Außerdem erledigten sie die Aufgaben 25,1 % schneller.
Diejenigen, die KI einsetzten, erzielten auch 40 % hochwertigere Ergebnisse als diejenigen, die dies nicht taten.
Berater mit den niedrigsten Werten zu Beginn der Studie verzeichneten den größten Leistungssprung, wenn sie KI einsetzen durften.
Zu den Forschern, die die Studie durchführten, gehörten Sozialwissenschaftler der Universitäten Harvard, MIT und Warwick sowie Forscher von BCG. Für den Test wurden Hunderte von Beratern nach dem Zufallsprinzip ausgewählt, ob sie KI einsetzen durften. Die Berater mit der Erlaubnis, KI zu verwenden, erhielten Zugang zu GPT-4.
💡 Idee der Woche: 3 Trends mit bereits vorhandener Nachfrage
Die meisten denken, dass man eine Geschäftsidee für ein Unternehmen hat und im Anschluss Nachfrage erzeugen müsse. Ist meiner Meinung nach heutzutage Quatsch: Warum nicht ein Unternehmen gründen, für das bereits Nachfrage existiert?
Deswegen habe ich hier drei Trends für euch herausgesucht, mit denen ihr starten könntet.
Trend 1: AI Content
KI-Inhalte sind auf der Bildfläche explodiert. Wenn du schlau bist, kannst du dir einen Platz auf dem Markt erobern.
In den letzten Monaten ab es über 19.500 Suchen und 600% Wachstum in Suchen nach “AI content”.
Hier sind KI-Inhaltgenerierungs-Tools, die ich im Übrigen gerne hätte:
YouTube Creator Tools: Fasse Inhalte mit Zeitstempeln zusammen und erstelle automatisch Beschreibungen. Lade Daten über die besten Überschriften hoch und erstelle automatisch Titel.
Twitter-Tools: Trainiere dein Modell mit den Vorlagen der erfolgreichsten Tweets. Erlaube Menschen, Ideen + Vorlagen auszuwählen, um automatisch Tweets zu generieren
KI Vermenschlicher: Eines der größten Probleme mit Inhalten ist, dass sie roboterhaft klingen. Erstelle ein Modell, das im Dialog schreibt, so dass die Nutzer ihren Text kopieren und einfügen können.
Trend 2: Prompt Generator
Die Wahrheit ist doch, dass 99 % der Menschen immer noch keine Ahnung haben, wie sie KI nutzen können, wobei die Schwierigkeit der Erstellung starker Prompts eine der größten Hürden ist. Deswegen kannst du einen Prompt-Generator erstellen, der KI einsetzt.
In den letzten Monaten ab es über 15.000 Suchen nach “Prompt Generator”. Das ist ein Wachstum von 972% dieses Jahr.
Trend 3: Midjourney Artist
Dieser Trend steckt noch in den Kinderschuhen. "Midjourney-Künstler". Wenn die Leute an Midjourney denken, denken sie normalerweise an hübsche Designs. Wenn du versuchst, daraus ein Geschäft zu machen, sage ich: F*ck that.
Stattdessen glaube ich, dass es eine echte Chance gibt, die erste Adresse für "Midjourney Ad Creator" zu sein. Wie ich das meine? Ganz einfach.
Ads mit Bildern funktionieren hervorragend auf Facebook und Instagram. Verwende Midjourney, um ein Bild zu erstellen, und Canva, um einen Text hinzuzufügen. Dieser Service, gepaart mit lächerlich schnellen Bearbeitungszeiten, ist ein fast garantierter Renner.
Ich hoffe, ihr könnt damit etwas anfangen. Falls ihr eine der Sachen selbst starten wollt, meldet euch gerne und wir können vielleicht etwas Gemeinsames starten.
📊 Chart der Woche: Sequoia | Mehr dazu →
Falls ihr Sequoia nicht kennt: Sie sind eine der größten und renommiertesten VCs der Welt. Den vollständigen Artikel könnt ihr hier lesen.
🚒 Wichtigste News: Der Streit um geistiges Eigentum bei KI-generierten Inhalten
Eine kurze Historie des geistigen Eigentums:
Die komplexe Frage des Urheberrechts im Kontext von Künstlicher Intelligenz (KI) schlägt weiter Wellen und die Klärung der Frage wird wohl noch länger auf sich warten lassen.
In der aktuellen Rechtslage können weder die KI selbst noch ihre Entwickler oder Arbeitgeber Urheberrechte für die von der KI generierten Werke geltend machen. Dies wirft jedoch ethische und rechtliche Fragen auf, da KIs oft mit Daten trainiert werden, die urheberrechtlich geschützt sind.
Ein konkretes Beispiel ist der Rechtsstreit zwischen Getty Images und Stability AI. Getty Images verklagt Stability AI, weil die KI Fotos zum Training verwendet, für die Getty die Rechte hält. Stability AI argumentiert, dass die KI keine Kopien anfertigt, sondern eigene, lediglich inspirierte Bilder generiert. Getty hält dagegen, dass ohne die Zwischenspeicherung geschützter Werke keine neuen Bilder entstehen könnten. Die Frage des Urheberrechts in der KI ist noch nicht abschließend geklärt und wird wahrscheinlich bis zu den höchsten Gerichten gehen.
Weitere lesenswerte News:
👴🏼 Warum KI zur richtigen Zeit in Deutschland ankommt
Der Artikel "Danke, Roboter" von Christian Schlesiger und Claudia Scholz behandelt das Thema Fachkräftemangel in Deutschland und die Rolle der Automatisierung als mögliche Lösung. Die Autoren stellen auch Beispiele für vollautomatisierte Geschäfte vor.
Außerdem betonen sie, dass Deutschland seine Einstellung zur Automatisierung und Arbeitsethik ändern müsse, um alleine den Fachkräftemangel zu bewältigen. Es wird argumentiert, dass mehr Offenheit gegenüber Ausländern und eine Neubewertung der Arbeit, die durch KI erledigt wird, notwendig seien, um den zukünftigen Herausforderungen zu begegnen.
Den gesamten Artikel könnt ihr hier lesen.
Gedanken und Fragen, die bei mir entstanden sind:
Automatisierung + Arbeitsmarkt statt: Diese These steht hinter meinem neuesten Unternehmen tenx, in der wir deutschen Unternehmen dabei helfen wollen, den Mitarbeitermangel sowie dem demographischen Wandel vorzusorgen.
Technologieakzeptanz: Welche Rolle könnte ich für mehr Akzeptanz von Automatisierung und KI in Deutschland spielen? Beispiel, dieser Newsletter.
Arbeitsethik: Welche Veränderungen in der Arbeitsethik könnten notwendig sein, um den Herausforderungen des modernen Arbeitsmarktes zu begegnen?
🎧 Hola Zuhörer: Spotify wird KI einsetzen, um Audioklone zu erstellen
Spotify hat in Kollaboration mit OpenAI (bereits oben erwähnt) eine KI-gestützte Sprachübersetzungsfunktion eingeführt, die es Podcast-Erstellern ermöglicht, in verschiedenen Sprachen mit ihrer eigenen Stimme zu kommunizieren. Zunächst werden englische Episoden ins Spanische konvertiert, eine Ausweitung auf Französisch und Deutsch ist in Planung.
Die zugrundeliegende Technologie nutzt die Whisper-Lösung von OpenAI, die nicht nur in der Lage ist, englisches Audio zu transkribieren, sondern auch andere Sprachen ins Englische zu konvertieren. Diese Funktion wird derzeit mit einer ausgewählten Gruppe von Podcast-Erstellern getestet.
🛠️ Autoflows: Die KI-gestützte Zukunft des Kundensupports von Forethought
Forethought, ein Anbieter, der sich auf Chatbots für den Kundenservice spezialisiert hat, hat eine neue Funktion namens Autoflows eingeführt. Dieses System verwendet NLP-Prompts, um nicht nur Kundenanfragen zu beantworten, sondern auch eine Reihe von Aufgaben auszuführen, die oft mehrere Systeme betreffen. Angetrieben von SupportGPT, deren KI-Modell, zielt Autoflows auf eine dynamischere und menschenähnliche Konversation mit Kunden ab.
Während es derzeit noch menschliche Aufsicht für die Feinabstimmung von Aufgaben benötigt, ist das Ziel, dass die KI so viel wie möglich selbstständig erledigt. Autoflows befand sich bisher in einer frühen Betaphase, ist aber jetzt für die Öffentlichkeit zugänglich. Es hat sich gezeigt, dass es die Auflösungsraten im Vergleich zu herkömmlichen Arbeitsabläufen verbessert.
🦿 Teslas Optimus | Quelle: Tesla on X
Tesla hat soeben enthüllt, dass Optimus, sein humanoider Roboter, jetzt autonom Objekte sortieren (und Yoga machen) kann - ein bedeutendes Update in der Welt der KI x Robotik.
Das Video zeigt, dass Tesla erhebliche Fortschritte bei Optimus macht und die flüssigen Bewegungen deutlich verbessert hat. Ähnlich wie bei den neuesten Versionen des autonomen Fahrens weist Tesla auch darauf hin, dass Optimus jetzt mit neuronalen Netzen durchgängig trainiert wird.
Elon Musk sagte kürzlich voraus, dass Optimus "einen Großteil des langfristigen Wertes von Tesla" ausmachen werde.
Warum das wichtig ist: Die 5-Finger-Hände und die flüssigen Bewegungen von Optimus könnten sich bei alltäglichen Aufgaben als weitaus besser erweisen als die des derzeitigen Branchenführers Boston Dynamics (ihr wisst schon, die springenden Roboter, die ihr in den Videos seht).
📦 Amazon investiert bis zu 4 Mrd. Dollar in OpenAI-Konkurrent Anthropic | Quelle
Während Microsoft auf OpenAI setzt und Google an eigenen KI-Modellen arbeitet, hat sich Amazon mit einer $4-Mrd.-Investition in das KI-Startup Anthropic (Erschaffer vom LLM Claude 2, s. Tweet weiter unten) in den Kampf um die Vorherrschaft der KI eingeschaltet.
Das KI-Fundamentalmodell-Game ist gerade interessanter wieder spannender geworden.
Claude 2 von Anthropic misst sich mit ChatGPT von OpenAI.
10 atemberaubende Dinge, die Claude kann und ChatGPT nicht 👇
— Lennart Orlando (@lennartorlando)
6:54 AM • Jul 19, 2023
Amazon wird eine Minderheitsbeteiligung an Anthropic mit einer anfänglichen Finanzierung in Höhe von $1,25 Mrd. erwerben, mit der Option, die Gesamtfinanzierung in der Zukunft auf $4 Mrd. zu erhöhen. Anthropic wird dafür Amazons AWS als primären Cloud-Anbieter im Rahmen der Transaktion nutzen. Im Gegenzug wird Amazon frühzeitig Zugang zu neuer Technologie von Anthropic erhalten, die es in andere Bereiche seines Unternehmens integrieren kann.
📱 John Ive - Vom iPhone zum aiPhone? | Quelle
Der legendäre Apple-Designer Jony Ive und der CEO von OpenAI, Sam Altman, haben einem Bericht von The Information zufolge über ein neues KI-Hardware-Projekt gesprochen. Der Bericht zitiert zwei Personen, die mit der Angelegenheit vertraut seien, und behauptet, dass die Art des Geräts oder ob es veröffentlicht werde, noch nicht bekannt seien. Jedoch hätten beide Parteien darüber diskutiert, wie das Gerät aussehen könnte.
Berichten zufolge sei auch Mayoshi Son von Softbank an den Gesprächen beteiligt, aber es sei nicht bekannt, ob er seine Beteiligung fortsetzen werde.
Jony Ive ist vor allem für seine Zeit bei Apple bekannt, wo er das Design des iPhones und anderer beliebter Geräte leitete. Ive verließ Apple im Jahr 2019, um seine eigene Designfirma zu gründen, die Ferrari und Airbnb zu ihren Kunden zählt.
Vollständiger Artikel: reuters.com
🤔 Echt oder KI-generiert?
Beim letzten Mal waren die Stimmen fast ausgeglichen!
Diese Woche machen wir es etwas einfacher.
Bild 1
Welches Glas Wasser ist echt?Wähle eine der beiden Optionen: |
Login oder Abonnieren um an umfragen teilzunehmen. |
Bild 2
🧰 Für deine Toolbox:
Tool der Woche: 🎧 Podwise - Automatische Notizerstellung von Podcasts
⬆️ QrGPT: Generiere künstlerische QR-Codes in Sekundenschnelle.
📹 Genmo: Erzeuge Videos aus einfachem Text in einer Minute.
Das war’s!
Ich wünsche euch eine schöne Woche ✌🏼