Testen Sie sich selbst mit 10 KI

Nachricht

HeimHeim / Nachricht / Testen Sie sich selbst mit 10 KI

Jul 24, 2023

Testen Sie sich selbst mit 10 KI

Das Nachrichtenquiz ist bei TIME eine Tradition, die bis ins Jahr 1935 zurückreicht. Iterationen des

Das Nachrichtenquiz hat bei TIME eine Tradition, die bis ins Jahr 1935 zurückreicht. Wiederholungen des Tests wurden in Schulen im ganzen Land eingesetzt, um Wissen über aktuelle Themen zu überprüfen, und es gab ihn sogar in einer Kreuzworträtselversion.

Mit der kürzlich erfolgten Abschaffung der digitalen Bezahlschranke von TIME eröffnet sich für alle ein Jahrhundert Journalismus, in dem Sie Ihr Wissen über die Menschen testen können, die die Geschichte geprägt haben. Da das Archiv von TIME 200 Millionen Wörter enthält, ist diese Aufgabe gut für die neue Generation der KI-Technologie geeignet, die in der Lage ist, riesige Mengen von von Menschen erstellten Texten in Sekundenschnelle zu analysieren.

Was passiert also, wenn Sie die Leistungsfähigkeit modernster KI nutzen, um Nachrichtenquiz auf der Grundlage von Zeitschriftenartikeln zu erstellen?

Nachfolgend finden Sie 10 Quizze, für deren Produktion wir die Technologie hinter ChatGPT trainiert haben, basierend auf 10 handverlesenen Geschichten aus den TIME-Archiven, die jetzt für jedermann kostenlos verfügbar sind. Klicken Sie einfach auf die Überschrift des Artikels neben dem ursprünglichen Ausgabedatum, um zu der Geschichte zu gelangen, auf der jedes Quiz basiert. Im Folgenden besprechen wir, wie wir mit künstlicher Intelligenz verhandelt haben, um ihr beizubringen, das zu tun, was wir verlangt haben.

Angesichts einiger der wirklich erstaunlichen Ergebnisse, die ChatGPT produzieren kann – beispielsweise eine Handlung für einen Science-Fiction-Roman oder nachgeahmte biblische Texte – mag die Erstellung eines Quiz (sozusagen) wie eine triviale Aufgabe erscheinen. Und auf den ersten Blick ist es das auch. Als wir ChatGPT gebeten haben, einfach „ein Quiz auf der Grundlage dieses Artikels zu erstellen“ und einen Link zur Titelgeschichte von TIME über Taylor Swift aus dem Jahr 2014 bereitgestellt haben, wurde sofort ein Quiz mit 10 Fragen und vier Auswahlmöglichkeiten für jede Antwort herausgegeben.

Einige der Fragen waren richtig. (F: Wie werden die Fans von Taylor Swift bekanntlich genannt? A: Swifties.) Aber viele bezogen sich auf Alben und Ereignisse, die lange nach der Veröffentlichung der Geschichte stattfanden, und einer lag einfach falsch. („Welches Ereignis veranlasste sie, zum ersten Mal öffentlich einen politischen Kandidaten zu unterstützen?“ ChatGPT behauptete, es seien die Wahlen im Jahr 2020 gewesen, machte jedoch einen Rückzieher und entschuldigte sich, als wir daran erinnerten, dass sie 2018 zwei Demokraten aus Tennessee unterstützte.)

In vielen Fällen scheinen ChatGPT und seine verschiedenen Konkurrenten nicht von Magie zu unterscheiden zu sein. Daher ist es aufschlussreich, Aufgaben zu finden, bei denen die Bots nicht sofort in der Lage sind, nahezu perfekte Ergebnisse zu erzielen. Jeder Fehler ist ein Hinweis darauf, was unter der Haube vor sich geht.

Lassen Sie uns also aufschlüsseln, was zu einem Multiple-Choice-Quiz gehört und was eine Maschine dafür leisten muss:

Für einen Menschen – insbesondere für jemanden, der ein paar Nachrichtenquizze gesehen hat und mit der Übung vertraut ist – ist dies wahrscheinlich mehr Anleitung als nötig. Doch für eine Maschine hätte es bis vor Kurzem nicht gereicht. Vor einem Jahr hätte diese Übung darin bestanden, viel Code zu schreiben, zwischen verschiedenen Algorithmen und vorab trainierten Sprachmodellen auszuwählen und die „Hyperparameter“ oder vom Menschen definierten Startbedingungen für den Trainingsprozess ständig zu optimieren.

In dieser neuen Welt liegt die Aufgabe irgendwo in der Mitte. Anstatt Anweisungen in Python zu schreiben, wo ein einziger falscher Tastendruck den gesamten Vorgang zum Scheitern bringen kann, übermitteln Sie der Maschine die Anweisungen in einfachem Englisch, so präzise und wörtlich wie möglich.

Dies wird als „Gedankenketten“-Eingabeaufforderung bezeichnet, die Sie direkt an die OpenAI-API übermitteln können, indem Sie die Konversation mit einem Chatbot umgehen und stattdessen direkt mit dem Gehirn von ChatGPT kommunizieren. Sie verwenden immer noch eine Sprache wie Python, um die Einführung zu erstellen, aber es ist der Bot, der die ganze harte Arbeit erledigt.

Wir haben eine Version der oben genannten Anweisungen an die API gesendet und die „Temperatur“ – ob die Ergebnisse randomisiert werden – auf Null gesetzt, was bedeutet, dass das Modell jedes Mal auf die gleiche Weise reagiert, wenn wir ihm identische Befehle senden. Als wir es mit der gleichen Taylor-Swift-Geschichte gefüttert haben, bekamen wir einen weiteren Satz von 10 Multiple-Choice-Fragen zurück. Hier ist eine:

Wer wurde 2014 von Billboard zur Frau des Jahres gekürt?

a: Rihanna

b: Taylor Swift

c: Lady Gaga

d: Beyoncé

Irgendwelche Ideen? Hinweis: Die Antwort auf fünf der anderen neun Fragen lautete ebenfalls „Taylor Swift“.

Unsere erste Ausarbeitung bestand darin, das Modell aufzufordern, den Ball besser zu verbergen und die Antworten auf den Artikeltext zu beschränken, anstatt auf das zurückzugreifen, was es aus der enormen Textmenge weiß, die es in der Vergangenheit analysiert hat. Es kann höchstens etwa 2.000 Wörter gleichzeitig verarbeiten, daher mussten wir die Geschichten in den meisten Fällen in Abschnitte vollständiger Absätze aufteilen.

Die Anweisungen, für die wir uns entschieden haben, sahen in etwa so aus, umschrieben:

Bei den ersten Versuchen stellten wir fest, dass die Ausgabe häufig Formulierungen wie „laut Text“ enthielt, als ob der Benutzer gefragt würde, ob er den Artikel tatsächlich gelesen habe. Es fiel ihm schwer, sich daran zu erinnern, dass es sich dabei um das Schreiben von Quizfragen und nicht um Leseverständnistests handeln sollte. Bei einem Quiz, das auf einem Nachruf auf Muhammad Ali aus dem Jahr 2016 basierte, wurde der Boxer in Fragen manchmal als „Cassius Clay“ bezeichnet – und die Benutzer wurden auch nach Alis ursprünglichem Namen befragt.

So unergründlich künstliche Intelligenz oft auch erscheinen mag, das Schöne an der Eingabeaufforderung zur Gedankenkette besteht darin, dass wir das Modell bei jedem Schritt des Prozesses fragen können, was es „gedacht“ hat, und die Sprache anpassen können, um die besten Ergebnisse herauszuarbeiten. Soll die Maschine alle Fakten abrufen? Nur drei Fakten? Fünf? Wie können wir von ihr verlangen, dass sie die Formulierung „gemäß dem Text“ nicht mehr verwendet?

All diese Dilemmata waren natürliche Nebenprodukte der Tatsache, dass Anweisungen in einfacher Sprache zwar einfacher zu konstruieren sind als in Code geschriebene, sie aber mitunter viel schwieriger zu debuggen sind. An einem Punkt haben wir die Anweisungen sogar wieder in das Modell eingespeist, um zu fragen, was es von der Formulierung hielt und wie wir es anders schreiben könnten, um konsistentere Ergebnisse zu erhalten. Seine Gedanken waren hilfreich.

Die Ergebnisse erforderten eine Reihe von Feinarbeiten durch die TIME-Redakteure, hauptsächlich um Optionen zu entfernen, die Jahre später schwer zu analysieren oder zu unklar waren. Jede Frage, die gestrichen wurde, wird zu einer Frage, die wir dem Modell bei künftigen Versuchen aus dem Weg gehen lassen können.

So könnte ein Großteil der modernen Computerprogrammierung in den kommenden Jahren aussehen: Menschen und Maschinen, die in der Sprache der ersteren und der Logik der letzteren zusammenarbeiten, um Aufgaben zu erledigen und Probleme zu lösen. Diejenigen, die ein Ende der Computerprogrammierung ankündigen, haben möglicherweise Recht, dass zukünftige Entwickler beim Schreiben von Software weniger auf formale Computersprachen angewiesen sein werden. Aber wenn diese Übung als Leitfaden dient, müssen sie dennoch wie Programmierer denken.

Schreiben Sie anChris Wilson unter [email protected].

Prinz Harry verstößt gegen königliche Konvention. Ist Indiens Eisenbahnnetz sicher? Wie die Welt auf KI reagieren muss Elliot-Seite: Die Akzeptanz meiner Trans-Identität hat mich gerettet Texas High Jumper hat fast 1 Million US-Dollar verdient Schuldenobergrenzen-Deal bedeutet für Kreditnehmer von Studienkrediten LGBTQ-Reality-TV Besser werden beim Smalltalk Schreiben Sie an