Hoe AI je data kan stelen

Security
21 augustus, 2024

Misschien gebruik je al AI-diensten zoals ChatGPT, Copilot of Bing Chat. Deze diensten gebruiken zogenaamde Large Language Models (LLM’s), een vorm van AI die met behulp van complexe algoritmes en enorme hoeveelheden data tekst en andere media kan herkennen en genereren. Dit kan je werk aanzienlijk sneller en efficiënter maken. Maar wist je dat er ook risico’s aan verbonden zijn?

Je hebt vast wel eens gehoord of gelezen dat AI ‘in de toekomst’ gebruikt kan worden voor cyberaanvallen. Wat toen nog heel ver weg leek, is inmiddels werkelijkheid geworden. Als je een LLM-dienst gebruikt die het internet doorzoekt, kan je systeem nu al overgenomen worden of kunnen je gegevens gestolen worden. Dit kan gebeuren via een aanval die indirect prompt injection wordt genoemd.

Hoe werkt indirect prompt injection?

Bij een indirect prompt injection wordt een kwaadaardige instructie ergens op het internet geplaatst, bijvoorbeeld op een website of social media. Services als ChatGPT doorzoeken het internet en als ze zo’n kwaadaardige instructie tegenkomen, kunnen ze worden gehackt zonder dat de gebruiker hier actief iets voor hoeft te doen, zoals een link aanklikken. Zo’n kwaadaardige instructie wordt zo ingesteld dat deze niet zichtbaar is voor de gebruiker, bijvoorbeeld door de tekst in een onzichtbaar lettertype te zetten.

Bron: Arxiv (2023).

Gevolgen van een AI hack

Een indirect prompt injection kan grote problemen veroorzaken. Stel je voor dat een engineer een bug probeert op te lossen en de LLM vraagt om oplossingen van verschillende fora te verzamelen en samen te vatten. Als er op een van de bezochte webpagina’s een onzichtbare prompt staat die de LLM instrueert om de gesprekgeschiedenis door te sturen, kan een aanvaller toegang krijgen tot de code van belangrijke applicaties. Ook kunnen gevoelige persoons- of financiële gegevens gestolen worden en kan de aanvaller een duidelijk beeld krijgen van de kwetsbaarheden binnen een organisatie, wat later kan leiden tot grotere aanvallen met bijvoorbeeld ransomware. Daarnaast hebben onderzoekers aangetoond dat als een LLM toegang krijgt tot een mailassistent, een prompt kan fungeren als een worm, die zichzelf verspreidt en op grote schaal malware kan verspreiden.

Bron: Arxiv (2023)

Nog erger wordt het als de LLM wordt gehackt met een prompt die bij de start van elke nieuwe chat instructies ophaalt van de aanvaller. Dit creëert een zogenaamde backdoor, een achterdeurtje dat een hacker blijvend toegang geeft tot het systeem, waardoor een grote aanval met bijvoorbeeld ransomware heel gemakkelijk kan worden uitgevoerd.

Wat kan je doen tegen de risico’s van AI?

Om de risico’s van LLM-gebruik te beperken, kan je risicomanagement en beveiligingsmaatregelen inzetten, die je (hopelijk) al binnen je organisatie hebt.
Enkele adviezen:

Zero trust: Behandel je LLM als een verdachte gebruiker en ga ervan uit dat het mogelijk al is gehackt.
Least privilege: Beperk de toegang tot data voor de LLM tot het minimum dat nodig is voor de taken.
Menselijke controle: Zorg ervoor dat een mens toestemming moet geven voor belangrijke taken, zoals het verwerken van gevoelige informatie of het verwijderen van bestanden.

Deze adviezen zijn slechts een klein onderdeel van wat er nodig is om AI op een verantwoorde manier in je organisatie te implementeren. Het is essentieel om gericht risicomanagement, beleidskaders en beheersmaatregelen op te zetten. Dit wordt AI Governance genoemd, waarover in een volgend artikel meer.

Veilig AI gebruiken

Microsoft heeft maatregelen genomen om de kwetsbaarheid van LLM’s aan te pakken, maar het is onwaarschijnlijk dat dit prompt injections volledig kan voorkomen. Omdat aanvallers nieuwe manieren zoeken én vinden om AI te misbruiken, zal je altijd alert moeten blijven. Wil je meer weten over de risico’s van prompt injections en hoe je AI veilig in je organisatie kan gebruiken? Ventus helpt je graag! Neem gerust contact met ons op, zodat we samen kunnen kijken wat voor jou de beste aanpak is.