ChatGPT, StableDiffusion – blog.dasrecht.net

From now on, we have to treat anything we see on the Internet as potential AI garbage. The picture gallery from an artist? The very cool sounding answer on Stackoverflow? This article in the newspaper? This short viral video? This book on Amazon? They are all potential AI garbage.
Fascinating garbage but garbage nonetheless.
Drowning in AI Generated Garbage : the silent war we are fighting

Ich habe bisher die ChatGPT und StableDiffusion Welle nur von aussen
beobachtet, hatte aber über das Jahresende ein bisschen Zeit gefunden
mich ein bisschen genauer damit zu beschäftigen. Andere sind da offenbar viel früher auf den Zug aufgesprungen – Wie Habi und David 😉

ChatGPT ist toll, aber meist missverstanden

Ich hatte einige tolle Gotcha-Momente als ich mit ChatGPT herumgespielt habe.
Einer da war zum Beispiel als ich einfach mal von Englisch auf Deutsch
gewechselt habe und der Bot da einfach mitgemacht hat.

Generell kann das Model über enorm viele Dinge Antwort geben. Ich denke
solche Tools haben Zukunft, jedoch muss der Mensch dann noch nachbessern
weil sonst laufen wir Gefahr in das Problem hineinzulaufen, das im anfänglichen
Zitat erwähnt wird es könnte alles, das wir lesen, sehen oder hören potenziell
generiert sein. Wie viel davon “sinnvoll” ist, bleibt dann dem
Menschen überlassen das zu interpretieren.

Wichtig zu verstehen, und meiner Ansicht nach das grösste Missverständnis, wenn wir von ChatGPT reden. Es handelt sich um ein Text-Modell und kein Wissens-Modell. Es wird dir keine Fakten liefern. Hell es erfindet sogar Dinge – ChatGPT produces made-up nonexistent references (guter Thread übrigens).

Da sich ChatGPT eine Welt „vorstellt“ ist relativ viel möglich, zum Beispiel eine virtuelle Maschine zu erstellen. Das funktioniert manchmal und teilweise schlägt das wunderbar fehl.

Solange wir Tools wie ChatGPT als Helfer verstehen und nicht Menschen finden, das sei jetzt AI par excellence, die keine Fehler macht und das überall ohne Qualitätsprüfung der Ausgaben einbauen, sehe ich kein Problem.

StableDiffusion

Was für ein Rabbithole! Den Einstieg habe ich über Midjourney gemacht, in welcher ich die frei verfügbaren 25 Minuten relativ schnell durch hatte. Super interessant zu sehen, wie ein Chat-Interface genutzt wird, um mit dem Generator zu interagieren. Aber auch wichtig den andern Menschen zuzuschauen und von anderen Texteingaben zu lernen hilft schnell weiter zu kommen und schöne Resultate zu generieren.

Ich hab mir dann irgendwann InvokeAI lokal installiert und irgendwann auf einem bisschen leistungsfähigeren Mac. Nachdem ich bei AWS derzeit keine GPU Instanz kriegen kann. Hab ich es danach auf einem anderen Mac, der ein bisschen mehr Power hat, montiert. Eine dedizierte Grafikkarte würde viel bringen, mal schauen, ob ich irgendwo über so eine stolpere. Ich habe viel mit anderen Modellen herumgespielt und schnell gemerkt, dass jedes seinen eigenen “Dialekt” und Settings hat, die funktionieren. Einige können aus “schönes Wohnzimmer” richtig tolle Sachen machen, andere brauchen viel mehr Detailbeschreibung und reagieren nur auf präzise Keywords. Ich habe mir auch sehr kurz noch RunDiffusion angeschaut und war begeistert wie schnell und vergleichsweise günstig ich da an GPU-Zeit kam. Will für das aber lieber die Infrastruktur selbst “betreiben”

StableDiffusion ist ein ultraspannendes Konzept, bei welchem sich viele Abgründe öffnen, da nicht immer klar ist, mit welchem Bildmaterial die Modelle trainiert wurden. Es ist jedoch interessant, was mit eigentlich sehr moderater Hardware erträumt werden kann.

Und jetzt?

Technologie, die existiert, wird nicht einfach weggehen, das wissen wir spätestens seit IPv4 – Ich habe mir noch keine abschliessende Meinung über die Thematik gemacht. An der Microsoft Ignite 2019 habe ich einige Zeit mit Anand Raman welcher bei Microsoft die AI Efforts leitet, über die Problematik der Nachvollziehbarkeit dieser AI Modelle gesprochen, da das Trainingsmaterial teilweise aufgrund der Grösse nicht so einfach mal bereitgestellt werden kann (oder darf). Die schlüssigste Lösung, die wir damals besprochen haben, wäre Informationen über das Trainingsmaterial verifizierbar zu machen und das dann mit den Modellen zu veröffentlichen, um ein möglichst grosses Mass an Transparenz zu haben und bewusst mit Biases der Modelle umgehen zu können. Schlussendlich sind die Sprachmodelle auf Basis von Daten, die von Menschen erstellt wurden und wir sind inhärent befangen in unserer Handlung und Ausdrucksweise, selbst wenn wir uns dem bewusst sind.

The models encode many biases and stereotypes.
Well, sure they do. They model observed human’s language, and we humans are terrible beings, we are biased and are constantly stereotyping. This means we need to be careful when applying these models to real-world tasks, but it doesn’t make them less valid, useful or interesting from a scientiic perspective.
Some remarks on Large Language Models – Yoav Goldberg

Aus meiner Sicht sind die Text- und Bild-Modelle spannend, da sie unter sehr permissiven Lizenzen veröffentlicht werden und auch deshalb so unglaublich schnell Anklang finden. Eine kritische Denkweise und Hinterfragung der Technologie ist meiner Meinung nach wie vor wichtig, vor allem wenn die Technologien irgendwann breit eingesetzt werden. Ich finde, dass es wichtig ist, die positiven Teile der Technologie zu sehen, sich jedoch auch den potenziellen Gefahren und Limitierungen dieser bewusst zu sein. Wer sich jetzt noch einen weiteren Deepdive geben will, dem empfehle ich den Artikel von Yoav Goldberg – Some remarks on Large Language Models, er geht dabei ebenfalls auf sehr viele reale Limitationen ein.