• 10x-Klasse
  • Posts
  • 🦾 ChatGPTs neue Features sind eine Bedrohung

🦾 ChatGPTs neue Features sind eine Bedrohung

Wie die Integration von Suchmaschine & Bildgenerierung alles verändert

Moin ✌🏼

Diese Woche bin ich einen Tag spät dran, weil ich am Wochenende an einer Eskalation arbeiten musste. Dementsprechend fühle ich mich auch jetzt.

Quelle: tenor.com

Nichtsdestotrotz haben wir heute ein paar coole Themen:

  • 🤿 Deep Dive: Neuerungen in ChatGPT - Bing + DALL-E 3

  • 🔭 Mistral AI: 🇫🇷 Startup veröffentlicht erstes Modell

  • 💡 Wichtig: Allgemeine vs. generative KI sind komplett unterschiedlich

  • 🚒 News: von Meta, Medium und KI im Journalismus

  • ⚒️ Anwendungsfälle für DALL-E 3

🤿 Deep Dive: Live-Suche sowie Bildgenerierung direkt in Chat GPT

Was du lernen wirst:

  • Wie man ChatGPT als Suchmaschine nutzen kann

  • Was das neue Tool von OpenAI DALL-E 3 so macht

  • Wie man es anwendet

Bing first

Bevor wir uns DALL-E 3 widmen, möchte ich auch nochmal kurz anmerken, das Bing wieder in ChatGPT integriert wurde. Im Vergleich zur alten Version bietet es jetzt:

  • Mit der Browsing-Funktion kannst du Informationen in Echtzeit im Internet finden

  • Die Antworten werden nun mit direkten Links zu den Quellen geliefert

  • Die Antworten sind nicht mehr auf den bisherigen Stichtag im September 2021 beschränkt

  • Dieses neue Robo-Browsing-Upgrade ermöglicht es ChatGPT, Fakten von aktuellen Websites zu überprüfen, was eine erhebliche Beschleunigung darstellt

Nun, zum neuen Text-zu-Bild-Generator: DALL-E 3 von OpenAI.

DALL-E 3

Was DALL-E 3 ist

Das neue Bildgenerierungsmodell von OpenAI hat nicht nur die Aufmerksamkeit von KI-Enthusiasten auf sich gezogen, sondern auch das Interesse von Künstlern, Designern und Content-Erstellern weltweit geweckt. Der Grund? Seine Fähigkeit, mit sehr einfachen Text-Prompts in visuelle Meisterwerke zu verwandeln. Stellen dir vor, du tippst "ein Steampunk-Drache, der ein Kristallschloss bewacht", und innerhalb von Augenblicken erscheint ein detailliertes, hochauflösendes Bild, das dieser Beschreibung entspricht, auf deinem Bildschirm. Das ist die Magie von Text-zu-Bild-Modellen.

Aber um seine Fähigkeiten wirklich zu schätzen, muss man tiefer in seine Möglichkeiten eintauchen, seine Einschränkungen verstehen und wissen, wie man das Tool auffordern (prompten) kann.

Best Practices: Wie man DALL-E 3 "auffordert" (Wie funktioniert das Prompten?)

Prompts sind die Kommunikationsschnittstelle zwischen Menschen und KI. Sie dienen als Brücke zwischen der menschlichen Vorstellungskraft und der Fähigkeit der KI, diese Vorstellungskraft in (visuelle) Realität umzusetzen. Im Kern ist eine Aufforderung eine Textbeschreibung oder Anweisung, die die KI bei der Generierung eines Bildes leitet. Doch wie bei allen Sachen:

Bei der Arbeit mit DALL·E 3 ist es wichtig, spezifisch zu sein. Während "eine Katze" ein generisches Bild einer Katze erzeugen könnte, malt "eine Katze mit smaragdgrünen Augen, die auf einer sonnenbeschienenen Fensterbank sitzt, mit einer Stadtsilhouette im Hintergrund" ein lebhaftes Bild und ermöglicht es DALL·E 3, ein detaillierteres und nuancierteres Bild zu generieren.

Spezifität ist jedoch ein zweischneidiges Schwert: Eine Aufforderung mit zu vielen Details zu überladen, kann manchmal zu unerwarteten Ergebnissen führen, da die KI versucht, jede Anweisung in ein einziges Bild zu pressen. Es ist ein heikles Gleichgewicht zwischen der Führung der KI und dem Aufleuchten ihrer Kreativität.

Fortgeschrittene Aufforderungstechniken:

Die Beherrschung von DALL-E 3 erfordert mehr als nur das Verständnis der Grundlagen der Aufforderung. Es geht darum, fortgeschrittene Techniken zu nutzen, um die Grenzen dessen, was die KI erreichen kann, zu erweitern. Hier sind einige Strategien, um deine Prompts zu verbessern:

  • Iterative Aufforderung: Anstatt sich mit dem ersten Bild zufrieden zu geben, das DALL-E 3 generiert, solltest du deine Aufforderung auf Grundlage der ersten Ausgabe verfeinern oder mehrere Vorschläge anfragen.

  • Emotionen und Atmosphäre: Fügen Sie Ihren Aufforderungen Emotion oder eine bestimmte Atmosphäre hinzu, um die Stimmung des generierten Bildes zu beeinflussen (Bsp. eine friedliche Berglandschaft vs. eine unheilvolle Berglandschaft)

  • Spiel mit Perspektiven: DALL-E 3 kann verschiedene Perspektiven einnehmen, von Vogelperspektiven bis zu Nahaufnahmen.

Einschränkungen von DALL-E 3

Wie alle großen Sprachmodelle ist auch DALL-E 3 ein Wunderwerk der Technik, doch es ist wichtig, seine Grenzen zu verstehen, um realistische Erwartungen zu setzen:

  • Voreingenommenheit: Es spiegelt Stereotypen wieder, die in seinen Trainingsdaten enthalten sind

  • Komplexe Aufforderungen: Obwohl DALL-E 3 gut darin ist, detaillierte Aufforderungen zu bewältigen, kann das Überladen mit Details zu unerwarteten/durcheinandergebrachten Ergebnissen führen.

  • Mangel an Originalität: DALL-E 3 generiert Bilder basierend auf Mustern, die es gelernt hat. Obwohl es einzigartige Kombinationen erzeugen kann, "erfindet" es keine völlig neuen Konzepte.

Drei Beispiele

  • Prompt 1: „Eine futuristische Stadtlandschaft mit fliegenden Autos und Neonlichtern“

  • Prompt 2: „Eine ruhige Blockhütte am See im Herbst mit fallenden Blättern“.

  • Prompt 3: „Ein Steampunk-inspirierter Roboter, der eine Violine spielt“.

Prompt 1: „Eine futuristische Stadtlandschaft mit fliegenden Autos und Neonlichtern

Prompt 2: „Eine ruhige Blockhütte am See im Herbst mit fallenden Blättern“.

Prompt 3: „Ein Steampunk-inspirierter Roboter, der eine Violine spielt“.

Ein paar spannende Anwendungsfälle habe ich euch am Ende zusammengestellt.

Darunter:

  • Wie man mit DALL-E 3 T-Shirts designt

  • Wie man GIFs erstellen kann

  • Wie man animierte Charaktere kreieren kann

  • Wie DALL-E 3 beim eCommerce helfen kann

  • Wie man Icons erstellen kann

Ich hoffe, der Deep Dive hat euch gefallen!

🔥 Mistral: Das französische KI-Startup veröffentlicht sein erstes KI-Modell kostenlos.

Mistral AI, das französische Startup, das vor kurzem mit einer $100 Mio. See-Runde auf sich aufmerksam gemacht haben, hat sein erstes Modell Mistral 7B veröffentlicht. Sie behaupten, es übertreffe andere Modelle ähnlicher Größe und sei kostenlos zu verwenden. Das Modell wird unter der Apache 2.0-Lizenz vertrieben, so dass jeder - vom Hobbyisten bis zum Großunternehmen - es ohne Einschränkungen verwenden kann, abgesehen von der Namensnennung.

Mistral 7B ist eine schlankere Alternative zu größeren Sprachmodellen wie GPT-4 und bietet vergleichbare Fähigkeiten bei deutlich geringeren Rechenkosten. Das Modell wurde nach drei Monaten intensiver Arbeit veröffentlicht und ist Teil von Mistrals größerem Ziel, die offene generative KI-Gemeinschaft anzuführen und zu unterstützen.

💡 KI und generative KI machen völlig verschiedene Dinge

Was bedeutete "Enterprise AI" vor 2023?

Normalerweise bedeutete es, Erkenntnisse zu gewinnen oder Urteile auf Basis von Daten zu fällen. Es ging Hand in Hand mit Big Data und war fast nie generativ. Vorhersagen (Bsp. Meta Ads), klassifizieren (Bsp. Google Analytics), analysieren (Bsp. Amazon FBA), empfehlen (Bsp. Youtube). Diese Funktionen manifestierten sich normalerweise in Optimierungen, die in den Datensätzen verankert sind.

  • Du empfiehlst Produkte zum Kaufen? Empfehle bessere, basierend auf den Daten.

  • Du prognostizierst den Customer Lifetime Value (CLV)? Prognostiziere genauer, basierend auf den Daten.

  • Du erkennst verdächtige Transaktionen? Erkenne genauer, basierend auf den Daten.

Die Idee ist, das Geheimnis für bessere Leistungen liegt direkt in den Daten! Schließlich haben Unternehmen jede Menge Daten, also macht es Sinn und funktioniert wirklich gut. Schnapp dir eine Handvoll Geschäftsprozesse in deiner Organisation, und wenn es relevante Daten gibt, gibt es wahrscheinlich eine Optimierung.

💡 Nicht-generative KI bietet Optimierungen.

Generative KI ist völlig anders. Durch die Generierung von Informationen bietet sie neue Fähigkeiten, die fast gegensätzlich zur Optimierungskraft der nicht-generativen KI sind. Und die Fähigkeiten eines generativen Sprachmodells kommen nicht aus den Daten, die eine Geschäftsaufgabe umgeben - sie kommen hauptsächlich aus dem Text des gesamten Internets und den Anweisungsdaten, auf denen es fein abgestimmt wurde, die manchmal in dein Unternehmen hineinreichen. Diese Münze hat zwei Seiten:

  • LLMs brauchen keine deiner Daten, um nützlich zu sein

  • LLMs werden nie perfekt mit der Verteilung deiner Daten übereinstimmen

Aber das perfekte Anpassen an deine interne Datendistribution ist im Allgemeinen nur für Optimierungen erforderlich, also ist das in Ordnung! Darüber hinaus wurde das LLM nicht auf deine spezielle Aufgabe trainiert. Um den Unterschied zwischen ihnen zu verdeutlichen, schauen wir uns an, wie die verschiedenen Modelle trainiert werden:

  • Nicht-generative KI: Normalerweise zu 100 % auf die relevante Aufgabe und Daten trainiert.

  • Generative LLMs: Oft zu 0 % auf die relevante Aufgabe und Daten trainiert.

Klarer könnte der Unterschied nicht sein. Wenn du dich den LLMs näherst, sei vorsichtig, sie nicht in dieselbe Kategorie wie nicht-generative KI einzuordnen.

💡 Generative LLMs können neue Fähigkeiten bieten.

Sie funktionieren eher wie ein Computer als wie ein KI-Modell. Du programmierst sie normalerweise, anstatt sie zu trainieren. Wir werden LLM als Abkürzung für Generative Large Language Model im gesamten Beitrag verwenden und diese Fähigkeiten weiter unten ausführen.

🚒 Was diese Woche noch wichtig war

Chart der Woche: KI Potentiale ausgewählter Länder

Industrieländer, wie Deutschland, werden am meisten von KI profitieren

Quelle: Bloomberg.com

🤘🏼 Metas stellt neue (KI-)Plattformen auf der Meta Connect vor

KI-Chatbots, intelligente Brillen, VR-Headsets, KI-gestützte Bildbearbeitung und vieles mehr. Meta hat auf seiner gestrigen Connect-Veranstaltung einen großen Wurf gelandet und einen Reihe voller aufregender neuer Produkte und Funktionen vorgestellt. Hier könnt ihr euch die Highlights der Veranstaltung anschauen oder hier in voller Länge.

Persönlichkeit KI-Chatbots | Mehr dazu ->

  • Meta-Messaging-Apps erhalten 28 neue persönliche Chatbots, die auf berühmten Berühmtheiten, Sportlern, Sängern und anderen basieren.

  • Die Chatbots werden auf Instagram, Messenger und WhatsApp verfügbar sein.

  • Im Moment kannst du dich mit den Chatbots nur über Text unterhalten, Audio wird nächstes Jahr folgen.

  • Zu den Chatbots gehören Mr. Beast, Snoop Dogg, Kendal Jenner, Tom Brady und viele mehr.

Metas KI-Assistent

  • Der neue KI-Assistent funktioniert in allen Messaging-Apps von Meta und gibt dir Antworten in Echtzeit und generiert Bilder in Sekundenschnelle.

  • Der Assistent arbeitet mit Microsoft Bing zusammen, um dir Web-Ergebnisse in Echtzeit zu liefern.

  • Der Assistent kann zum Beispiel allgemeine Wissensfragen beantworten, Fakten abrufen, das Internet durchsuchen, Rezepte finden und vieles mehr.

Metas neues Brillengeschäft

Kein Witz! Es wurden zwei Brillen vorgestellt:

  • Die mit Ray-Ban kreierte Smart-Brille wird zwei Kameras nutzen, um Livestreams aufzunehmen & mit deinen Freunden zu teilen (hier ein kurzes Video dazu)

  • Meta stellte außerdem Meta Quest 3 vor, ihr neues VR-Headset mit besserer Grafik und höherer Auflösung.

Kleiner Disclaimer: Ich halte nichts vom Metaverse. Theoretisch kann ich mir vorstellen, dass es Leute zieht, aber praktisch wird es, glaube ich, bei einer hybriden Welt bleiben. Dennoch war ich vom ersten Einblick in Zucks Vision einer vollständig virtuellen Welt sehr positiv überrascht. Wovon ich rede?

In einem kürzlich erschienenen Podcast führten Mark Zuckerberg und Lex Fridman ein Interview im Metaverse, konrekt einem fotorealistischen virtuellen Raum. Der Grad an Realismus war so beeindruckend. Dieser Fortschritt, so Zucks, ist Teil einer 3-Jahres-Roadmap, die darauf abzielt, dass die Menschen im Metaverse "ganz sie selbst" sein können. Steht euch den Podcast zumindest kurz an, um eine Vorstellung zu gewinnen:

📱 Nachtrag zum aiPhone

Letztes Mal berichtete ich über eventuelle Gespräche zwischen OpenAI und Jony Ive, legendärer Apple Designer.

Die Financial Times berichtet, dass sich das Unternehmen in Gesprächen mit Jony Ive und SoftBank befindet, um das "iPhone der KI" zu entwickeln. Ives Firma LoveFrom würde das Endgerät für die Interaktion mit OpenAIs Technologie entwickeln.

Dazu möchte ich diesen Thread von KI-Entwickler Andrej Karpathy empfehlen, wenn man etwas tiefer gehen möchte:

🛑 Medium blockiert OpenAIs ChatGPT: Ein Standpunkt gegen Content-Scraping

Medium hat angekündigt, OpenAI das Scraping seiner Inhalte zu untersagen und sich damit anderen Medien wie CNN und der New York Times anzuschließen. Der Schritt erfolgt, da Unternehmen den "User-Agent: GPTBot" zu ihren robots.txt-Dateien hinzufügen, um Web-Scraping durch automatische Agenten einzuschränken.

Der CEO von Medium, Tony Stubblebine, argumentiert, dass der derzeitige Stand der generativen KI die Urheber von Inhalten ohne Entschädigung ausbeutet. Obwohl der Ansatz von Medium im Wesentlichen freiwillig ist, will die Plattform eine Koalition mit anderen großen Organisationen bilden, um die Zukunft der fairen Nutzung im KI-Zeitalter zu diskutieren.

📰 KI in Journalism: Ein zweischneidiges Schwert für Effizienz und Ethik

Ein neuer Bericht von JournalismAI, einer von Polis an der London School of Economics und der Google News Initiative unterstützten Initiative, zeigt, dass KI zunehmend im Journalismus eingesetzt wird. Mehr als 75 % der Befragten aus 105 Nachrichtenredaktionen in 46 Ländern gaben zu, dass sie KI-Tools bei der Sammlung, Produktion und Verbreitung von Nachrichten einsetzen.

Während KI Effizienz- und Produktivitätssteigerungen mit sich bringt, waren über 60 % der Befragten besorgt über ethische Fragen wie redaktionelle Qualität, Genauigkeit, Fairness und Transparenz. Trotz des weit verbreiteten Einsatzes von KI in den Redaktionen - 90 % bei der Nachrichtenproduktion, 80 % bei der Verteilung und 75 % bei der Beschaffung - gab nur etwa ein Drittel der Befragten an, dass ihre Organisationen eine KI-Strategie haben oder entwickeln. 

🧰 Für deine Toolbox: Die versprochenen Anwendungsfälle für DALL-E 3

Wie man T-Shirts designt

GIFs

Animierte Charaktere in unter 2 Minuten

eCommerce

Web Icones

Das war die 10x-Klasse.

Ich hoffe, ihr konntet etwas für euch herausziehen. Schreibt mir gerne, was ihr in einer zukünftigen Ausgabe lesen möchtet!

L.