Вашият потребителски GPT може да бъде подмамен да предаде данните ви

Ако все още сте във фазата на медения месец на връзката си с персонализираното GPT, съжаляваме, че трябва да ви разкажем за това.

Неотдавнашно проучване на Северозападния университет разкрива поразителна уязвимост в персонализираните генеративни предварително обучени трансформатори (GPT): въпреки че могат да бъдат персонализирани за различни приложения, те са податливи и на атаки за инжектиране на подкана, които могат да разкрият чувствителна информация.

GPTs са усъвършенствани чатботове с изкуствен интелект, които могат да бъдат създавани и оформяни от потребителите на ChatGPT на OpenAI. Те използват основния голям езиков модел (LLM) на ChatGPT, GPT-4 Turbo, но са обогатени с допълнителни, уникални елементи, които влияят на начина, по който взаимодействат с потребителя. Тези персонализации включват специфични подкани, уникални набори от данни и адаптирани инструкции за обработка, което им позволява да изпълняват различни специализирани функции.

Но тези параметри, както и всички чувствителни данни, които може да използвате за оформяне на вашия ГПТ, могат лесно да бъдат достъпни за трети страни.

Като пример TCN успя да получи пълния промпт и поверителните данни на персонализиран, публично споделен GPT, като използва основна техника за хакване на промпти: да попита за неговия „първоначален промпт“.

При щателното тестване на повече от 200 персонализирани GPT в рамките на проучването е установена висока податливост на такива атаки и jailbreaks, което води до потенциално извличане на началните подкани и неоторизиран достъп до качените файлове.

Изследователите подчертават двойния риск от подобни атаки, застрашаващи целостта на интелектуалната собственост и неприкосновеността на личния живот на потребителите.

Понякога, както в нашия случай на тестване, може да е толкова лесно, колкото да помолите GPT хубаво да разкрие лична информация.

„Проучването разкри, че за изтичане на файлове актът на искане на инструкции от GPT може да доведе до разкриване на файлове“, установиха изследователите. С помощта на известна креативност изследователите откриват, че нападателите могат да предизвикат два вида разкриване на информация: „извличане на системни подсказки“ и „изтичане на файлове“. Първият подлъгва модела да сподели основната си конфигурация и подкана, докато вторият го кара да разкрие и сподели поверителния си набор от данни за обучение.

Изследването също така подчертава, че съществуващите защити, като защитните подсказки, не са безотказни срещу сложните противникови подсказки. Екипът заяви, че това ще изисква по-стабилен и всеобхватен подход за защита на тези модели с изкуствен интелект.

„Нападателите с достатъчно решителност и креативност е много вероятно да открият и използват уязвимости, което предполага, че настоящите защитни стратегии може да са недостатъчни“, се казва в заключението на доклада.

В светлината на тези констатации и като се има предвид, че потребителите могат да манипулират своите подсказки под нулев надзор или тестване от страна на OpenAI, проучването призовава по-широката общност на ИИ да даде приоритет на разработването на по-силни мерки за сигурност.

„За да се решат тези проблеми, са необходими допълнителни предпазни мерки, извън обхвата на простите защитни подсказки, за да се засили сигурността на персонализираните GPT срещу такива техники за експлоатация“, заключава проучването.

Въпреки че персонализирането на GPT предлага огромен потенциал, това проучване служи като важно напомняне за свързаните с него рискове за сигурността. Напредъкът в областта на изкуствения интелект не трябва да излага на риск сигурността и неприкосновеността на личния живот на потребителите. Засега може би е по-добре да запазите най-важните или чувствителни GPT за себе си – или изобщо да не ги обучавате с чувствителни данни.

Вашият потребителски GPT може да бъде подмамен да предаде данните ви

Разумно решение: Мета пуска аудиобокс, захранван от AI

OurSky набира 9,5 млн. долара, за да добави API към астрономията с отворен код

Related Posts

Leave a Comment Cancel Reply