HH maczarr.de

Rasante Entwicklung: DALL-E 2, Imagen und GPT-4

Seit knapp einem Jahr liegt hier ein Entwurf für einen Blog-Eintrag herum. Damals war der Entwurfstitel noch „DALL-E, Imagine und GPT-3“ – das musste ich mittlerweile schon um neuere Versionsnummern der Tools anpassen. Zum Zeitpunkt des ersten Entwurfs waren gerade die Bildgeneratoren das große Ding, man wusste, dass es GPT-3 gibt, da ChatGPT jedoch noch nicht draußen war hatte das Thema noch nicht den großen Hype erfahren. Google hatte gerade Imagen angekündigt.

Schon vor einem Jahr fand ich das Thema spannend und überlegte, was wohl entstehen würde, wenn man diese Tools alle miteinander verbinden würde. Von GPT-3 lässt man sich eine Geschichte schreiben nach ein paar vagen Vorgaben und mit einem Bildgenerator wie DALL-E kann man die passenden Illustrationen dazu erzeugen. Ich wusste, dass auch an Video-Generatoren gearbeitet wurde – es war also nur eine Frage der Zeit, bis man sich vermutlich auch ganze Videos zu einem Text erstellen lassen können würde.

Im Herbst kam dann noch AudioLM dazu, das in der Lage ist Musik und Sprache in natürlicher Weise fortzusetzen. Es würde also ein kleiner Audio-Schnipsel reichen als Idee für eine musikalische Untermalung und AudioLM könnte dann die Musik beliebig lange fortsetzen.

Der ChatGPT-Moment

Dann kam ChatGPT Anfang Dezember 2022 heraus und gefühlt passiert seitdem im Machine Learning-Bereich – egal ob Text, Audio oder Video – ständig wahnsinnig viel. Meine Ideen aus dem letzten Jahr? Längst möglich und keine Zukunftsmusik mehr. Und zu den paar Tools, die alle bei großen Firmen lagen, gesellen sich nach und nach freie Alternativen, die teils auch richtig gut sind und auf einem aktuellen PC problemlos sogar lokal laufen können. Für Bilder gibt es beispielsweise Stable Diffusion, um gesprochenen Inhalt in geschriebenen Text zu wandeln kann man zu Whisper greifen und im Text-Bereich gibt es so viele Sprachmodelle in unterschiedlicher Qualität, dass ich sie gar nicht alle aufzählen kann. Selbst wenn man nicht komplett auf freie Software setzen will, sondern die Stärken von OpenAI nutzen möchte, ist die API seit der Veröffentlichung von GPT-3 Turbo so günstig, dass auch das problemlos möglich ist. So habe ich mir beispielsweise kürzlich ein kleines Tool programmiert, mit dem ich in natürlicher Sprache Fakten aus Web-Artikeln abfragen kann und dann die Antwort nebst der Quelle bekomme. Entwicklung und Nutzung davon haben bisher ein paar wenige Euro gekostet und da die API nur kostet, wenn ich das Tool benutze, entstehen auch keine Kosten, wenn man es gerade einmal einige Zeit nicht braucht.
Automatisch generierte Videos sind im Moment noch auf wenige Sekunden beschränkt pro Szene, da es meist eher so funktioniert, dass es ein statisches Bild gibt und daraus dann eine kurze Bewegung generiert werden kann. Aber auch das ist sicherlich nur eine Frage von Sekunden.

Bei dem Tempo der Entwicklung gerade wäre ich mir nicht mal sicher, dass dieser Text zum Zeitpunkt der Veröffentlichung noch aktuell ist oder ob nicht schon wieder einer der „geht noch nicht“-Punkte bereits möglich gemacht wurde und ich es einfach noch nicht mitbekommen habe.

Besonders spannend ist neben dem Tempo mit dem Firmen ihre Produkte entwickeln, aber auch die Entwicklung von freien Alternativen und die Möglichkeiten diese Machine Learning Modelle dann auf moderner, aber prinzipiell normaler Hardware zuhause laufen zu lassen. Ich bin schon sehr gespannt, wie sich das Thema in einem Jahr entwickelt haben wird und was uns in fünf Jahren alles als normale Features vorkommen.

Coverbild by Drew Dizzy Graham on Unsplash