Das führende generative KI-Startup Anthropic hat erklärt, dass es die Daten seiner Kunden nicht zum Trainieren seines Large Language Model (LLM) verwenden wird, und dass es sich für die Verteidigung von Nutzern einsetzen wird, die mit Urheberrechtsansprüchen konfrontiert sind.
Anthropic, das von ehemaligen Forschern von OpenAI gegründet wurde, hat seine kommerziellen Nutzungsbedingungen aktualisiert, um seine Ideale und Absichten zu verdeutlichen. Durch die Ausklammerung der privaten Daten seiner eigenen Kunden unterscheidet sich Anthropic deutlich von Konkurrenten wie OpenAI, Amazon und Meta, die Nutzerinhalte zur Verbesserung ihrer Systeme nutzen.
„Anthropic darf keine Modelle auf Kundeninhalte aus kostenpflichtigen Diensten trainieren“, heißt es in den aktualisierten Bedingungen, und weiter: „Zwischen den Parteien und soweit nach geltendem Recht zulässig, stimmt Anthropic zu, dass der Kunde Eigentümer aller Ergebnisse ist, und lehnt alle Rechte ab, die es gemäß diesen Bedingungen an den Kundeninhalten erhält.“
Weiter heißt es, dass „Anthropic nicht davon ausgeht, im Rahmen dieser Bedingungen Rechte an Kundeninhalten zu erhalten“ und dass sie „keiner der Parteien implizit oder anderweitig Rechte an den Inhalten oder dem geistigen Eigentum der anderen Partei einräumen“.
Das aktualisierte Rechtsdokument bietet angeblich Schutz und Transparenz für die gewerblichen Kunden von Anthropic. So sind die Unternehmen Eigentümer aller erzeugten KI-Ergebnisse, wodurch potenzielle Streitigkeiten über geistiges Eigentum vermieden werden. Anthropic verpflichtet sich außerdem, seine Kunden gegen Urheberrechtsklagen zu verteidigen, die sich auf von Claude produzierte Inhalte beziehen.
Diese Politik steht im Einklang mit dem Leitbild von Anthropic, dass KI nützlich, harmlos und ehrlich sein sollte. Da die öffentliche Skepsis gegenüber der Ethik der generativen KI wächst, könnte das Engagement des Unternehmens, Bedenken wie dem Datenschutz Rechnung zu tragen, ihm einen Wettbewerbsvorteil verschaffen.
Daten der Nutzer: LLMs‘ Vital Food
Large Language Models (LLMs) wie GPT-4, LlaMa oder Anthropic’s Claude sind fortschrittliche KI-Systeme, die menschliche Sprache verstehen und generieren, indem sie auf umfangreichen Textdaten trainiert werden. Diese Modelle nutzen Deep-Learning-Techniken und neuronale Netze, um Wortfolgen vorherzusagen, den Kontext zu verstehen und die Feinheiten der Sprache zu erfassen. Während des Trainings verfeinern sie kontinuierlich ihre Vorhersagen und verbessern so ihre Fähigkeit, sich zu unterhalten, Texte zu verfassen oder relevante Informationen zu liefern. Die Effektivität von LLMs hängt stark von der Vielfalt und dem Umfang der Daten ab, auf denen sie trainiert werden. Dadurch werden sie genauer und kontextbewusster, da sie aus verschiedenen Sprachmustern, Stilen und neuen Informationen lernen.
Aus diesem Grund sind die Daten der Nutzer so wertvoll für das Training von LLMs. Erstens stellen sie sicher, dass die Modelle mit den neuesten sprachlichen Trends und Benutzerpräferenzen (z. B. dem Verständnis neuer Slangs) Schritt halten. Zweitens ermöglicht es die Personalisierung und bessere Einbindung der Nutzer, indem es sich an die individuellen Interaktionen und Stile der Nutzer anpasst. Dies führt jedoch zu einer ethischen Debatte, da die KI-Unternehmen die Nutzer nicht für diese wichtigen Informationen bezahlen, die zum Trainieren von Modellen verwendet werden, mit denen sie Millionen von Dollar verdienen.
Wie von TCN berichtet, hat Meta vor kurzem enthüllt, dass es sein kommendes LlaMA-3 LLM auf der Grundlage von Nutzerdaten trainiert, und seine neuen EMU-Modelle (die Fotos und Videos aus Textaufforderungen generieren) wurden ebenfalls mit öffentlich zugänglichen Daten trainiert, die von seinen Nutzern in sozialen Medien hochgeladen wurden.
Darüber hinaus hat Amazon auch enthüllt, dass die kommende LLM, die eine aktualisierte Version von Alexa antreiben wird, ebenfalls auf der Grundlage von Nutzergesprächen und -interaktionen trainiert wird. Die Nutzer können sich jedoch gegen die Trainingsdaten entscheiden, die standardmäßig so eingestellt sind, dass die Nutzer der Weitergabe dieser Informationen zustimmen“, so ein Amazon-Sprecher gegenüber TCN. „Aber gleichzeitig geben wir den Kunden die Kontrolle darüber, ob ihre Alexa-Sprachaufzeichnungen verwendet werden, um den Service zu verbessern, und wir berücksichtigen immer die Präferenzen unserer Kunden, wenn wir unsere Modelle trainieren.“
Angesichts des Wettlaufs der Tech-Giganten um die Veröffentlichung der fortschrittlichsten KI-Dienste ist ein verantwortungsvoller Umgang mit Daten der Schlüssel zum Vertrauen der Öffentlichkeit. Anthropic möchte in dieser Hinsicht mit gutem Beispiel vorangehen. Die ethische Debatte über leistungsfähigere und komfortablere Modelle auf Kosten der Preisgabe persönlicher Daten ist heute so aktuell wie vor Jahrzehnten, als die sozialen Medien das Konzept populär machten, dass die Nutzer im Austausch für kostenlose Dienste zum Produkt werden.
Ja! RT @bryce Ich liebe dieses Zitat: „Wenn du nicht dafür bezahlst, bist du nicht der Kunde, sondern das Produkt, das verkauft wird.“ http://bit.ly/93JYCJ
– Tim O’Reilly (@timoreilly) September 2, 2010