Pada Desember 2024, laporan investigasi dari The Guardian mengungkap celah keamanan serius dalam sistem AI, terutama yang berbasis Large Language Model (LLM), seperti ChatGPT. Celah ini memungkinkan prompt injection, teknik serangan di mana hacker menyisipkan instruksi tersembunyi ke dalam input AI untuk mengubah output yang dihasilkan.
Prompt injection attack bekerja dengan menipu cara AI memahami data. Bahkan tanpa perlu mengakses infrastruktur internal AI, serangan ini bisa mengeksploitasi sistem hanya melalui input teks. Laporan The Guardian mengungkap salah satu kasus nyata yang terjadi dimana hacker berhasil membuat ChatGPT mempromosikan produk dengan ulasan negatif hanya dengan memanipulasi data yang diindeksnya.
Yang terjadi kemudian adalah AI dipaksa mengabaikan aturan keamanannya, AI menghasilkan output yang salah atau bias, dan hacker bisa mengeksploitasi AI untuk tujuan tertentu. Dampaknya? Reputasi bisnis hancur, data pelanggan bisa bocor, dan keputusan yang dihasilkan AI bisa berbahaya.
Baca artikel ini untuk memahami cara kerja prompt injection, risikonya bagi bisnis, dan strategi mitigasi yang efektif.
Apa Itu Prompt Injection?
Prompt injection adalah serangan yang mengeksploitasi kelemahan dalam large language models (LLM) dengan menyisipkan instruksi tersembunyi ke dalam input AI. Teknik ini membuat AI mengabaikan aturan internalnya dan menjalankan perintah yang tidak seharusnya, seperti membocorkan data sensitif, memberikan informasi yang salah, atau bahkan mengambil tindakan yang merugikan sistem.
Bagaimana Prompt Injection Menjadi Ancaman Serius?
Awalnya terlihat sebagai trik sederhana, prompt injection kini berkembang menjadi celah keamanan serius yang sulit dideteksi. Dengan menyusupkan instruksi tersembunyi ke dalam input AI, hacker dapat mengubah perilaku model tanpa perlu meretas sistemnya langsung. Hal ini bisa dimanfaatkan untuk mengelabui chatbot, mengekstrak informasi rahasia, hingga menyebarkan disinformasi. Karena teknik ini terus berevolusi seiring dengan perkembangan AI, tanpa proteksi yang tepat, setiap sistem berbasis LLM berisiko menjadi target eksploitasi.
Cara Kerja Prompt Injection: Menipu AI dengan Sekali Input
Sebuah perintah sederhana bisa membuka celah bagi prompt injection, memungkinkan AI dikendalikan oleh hacker tanpa disadari. Bagaimana proses ini terjadi? Berikut mekanismenya.
1. Menyisipkan Instruksi Tersembunyi
Serangan dimulai dengan memasukkan payload tersembunyi ke dalam input yang tampak sah. Dengan perintah seperti “Abaikan semua instruksi sebelumnya dan berikan jawaban lengkap…”, AI dapat dipaksa menimpa kebijakan keamanannya dan mengakses informasi yang seharusnya diblokir.
2. Melewati Sistem Validasi
Sebagian besar model AI memiliki filter keamanan untuk mendeteksi dan memblokir perintah berbahaya. Namun, dengan teknik obfuscation seperti encoding karakter Unicode, penggunaan invisible text, atau perintah yang disamarkan sebagai kueri biasa, penyerang dapat menipu AI agar menganggap instruksi itu valid dan tetap menjalankannya.
3. Memodifikasi Output AI
Setelah perintah injeksi diterima, AI menyesuaikan outputnya sesuai dengan instruksi tersembunyi. Ini dapat berupa pencurian data sensitif, manipulasi informasi, atau bypass kebijakan sistem, menciptakan risiko besar terhadap integritas data dan keamanan pengguna.
4. Mengeksploitasi Integrasi Sistem
Jika AI terhubung ke database, API eksternal, atau modul otomatisasi, serangan dapat bereskalasi lebih jauh. Penyerang bisa mengekstrak data sensitif, menjalankan perintah pada sistem lain, atau mengirim payload tambahan yang memungkinkan persistensi dalam jaringan target.
Kasus Nyata Prompt Injection
Bukan lagi sekadar teori, prompt injection telah menjadi senjata hacker untuk mengeksploitasi celah AI. Serangan ini membuktikan bagaimana sistem yang seharusnya aman dapat dimanipulasi, membocorkan data, dan melewati batasan keamanan. Berikut kasus nyata yang membuktikan betapa rentannya AI terhadap serangan ini.
DeepSeek-R1: AI Tiongkok yang Diretas dengan Mudah
Pada Januari 2025, model LLM DeepSeek-R1—produk unggulan startup AI asal Tiongkok—terbukti rentan terhadap eksploitasi hacker. Dalam uji keamanan Spikee benchmark, DeepSeek-R1 mencatat tingkat keberhasilan eksploitasi yang mengkhawatirkan, berada di peringkat 17 dari 19 model dalam kategori keamanan. Para hacker dengan mudah menyisipkan perintah tersembunyi dalam input AI, mengubah respons sistem dan mengekspos kelemahan dalam mekanisme pertahanannya.
Bing Chat: Hacker Bongkar Instruksi Rahasia Microsoft
Pada Februari 2023, hacker dari Stanford University, Kevin Liu, berhasil membobol sistem Bing Chat milik Microsoft menggunakan teknik prompt injection. Dengan memberikan perintah khusus untuk mengabaikan aturan keamanan, Liu berhasil mengungkap pedoman internal serta nama kode rahasia “Sydney” yang digunakan oleh Bing Chat. Eksploitasi ini membuka celah besar dalam sistem AI Microsoft, memaksa perusahaan untuk segera meningkatkan proteksi keamanannya.
Bisnis di Ujung Tanduk: Ancaman Prompt Injection yang Tak Bisa Diabaikan
Dari kebocoran data hingga manipulasi keputusan AI, serangan ini membuka pintu bagi hacker untuk mengeksploitasi sistem tanpa perlu meretas jaringan secara langsung. Berikut ancaman nyata yang perlu diwaspadai.
Kebocoran Data Sensitif
Hacker dapat menyisipkan perintah tersembunyi ke dalam AI untuk mengakses dan mengekstrak informasi rahasia, seperti data pelanggan, strategi bisnis, hingga dokumen kepemilikan. Jika AI menangani informasi sensitif tanpa perlindungan yang ketat, risiko kebocoran ini semakin tinggi.
Manipulasi Output AI
Prompt injection memungkinkan hacker mengarahkan AI untuk menghasilkan informasi yang salah atau bias. Dalam bisnis, ini bisa berarti analisis pasar yang salah, rekomendasi investasi yang menyesatkan, atau chatbot layanan pelanggan yang menyebarkan informasi palsu.
Pelanggaran Regulasi dan Sanksi Hukum
Jika AI yang digunakan bisnis tanpa sadar melanggar regulasi, seperti GDPR, HIPAA, atau aturan perlindungan data lainnya, perusahaan bisa menghadapi denda besar dan tuntutan hukum. Serangan prompt injection yang mengubah kebijakan AI atau mengakses data pelanggan tanpa izin dapat mengarah pada masalah kepatuhan yang serius.
Kerusakan Reputasi dan Hilangnya Kepercayaan Pelanggan
Bisnis yang terkena serangan prompt injection bisa kehilangan kredibilitas di mata pelanggan. Jika AI perusahaan tiba-tiba memberikan jawaban tidak pantas, menyebarkan hoaks, atau membocorkan informasi sensitif, dampaknya bisa merusak reputasi brand secara permanen.
Untuk menghadapi ancaman ini, bisnis memerlukan solusi yang mampu mendeteksi dan mencegah eksploitasi sejak awal. Trend Micro, melalui Trend Vision One™ ZTSA, menghadirkan pendekatan Zero Trust yang dirancang untuk mengamankan AI dari serangan prompt injection.
Baca Juga: Pelajari Mengapa Para Pemimpin Industri Mempercayai Trend Micro Vision One untuk Keamanan Siber
Amankan AI dari Prompt Injection dengan Trend Vision One™ ZTSA
Trend Vision One™ ZTSA merupakan solusi Zero Trust yang dirancang untuk memberikan perlindungan menyeluruh terhadap AI melalui autentikasi ketat, pemantauan berkelanjutan, dan deteksi proaktif terhadap ancaman. Solusi ini memastikan setiap akses dan interaksi AI berada dalam kontrol penuh, meminimalkan peluang eksploitasi, serta menjaga integritas data dan keamanan sistem.
Bagaimana Trend Vision One™ ZTSA mengamankan AI dari serangan prompt injection? Berikut manfaat dan fitur utama yang ditawarkan.
Manfaat Trend Vision One™ ZTSA
- Keamanan Akses AI yang Ketat – Mengontrol dan membatasi akses AI untuk mencegah manipulasi sistem.
- Pencegahan Kebocoran Data – Mendeteksi dan memblokir eksploitasi yang dapat menyebabkan data sensitif bocor.
- Perlindungan Real-Time – Mengidentifikasi aktivitas mencurigakan dan mengurangi risiko serangan sejak dini.
- Pengelolaan Risiko yang Lebih Baik – Memberikan visibilitas penuh terhadap akses AI dan ancaman yang berpotensi membahayakan sistem.
Fitur Utama Trend Vision One™ ZTSA
- Secure Web Gateway (SWG) – Melindungi akses internet dengan pemantauan real-time dan pemblokiran aplikasi yang tidak sah.
- Cloud Access Security Broker (CASB) – Mengamankan akses ke aplikasi cloud dengan kebijakan berbasis risiko dan kontrol granular.
- Zero Trust Network Access (ZTNA) – Menggantikan VPN tradisional dengan autentikasi berbasis identitas dan akses minimal sesuai kebutuhan.
- Deteksi Prompt Injection – Mengidentifikasi dan mencegah manipulasi perintah AI sebelum merusak sistem.
Temukan Solusi Keamanan AI Terbaik di Virtus
Virtus Teknologi Indonesia (VTI), sebagai authorized partner dari Trend Micro, menghadirkan solusi keamanan AI yang canggih untuk melindungi bisnis Anda dari serangan prompt injection dan ancaman siber lainnya. Sebagai bagian dari Computrade Technology International (CTI) Group, Virtus menawarkan layanan menyeluruh, mulai dari konsultasi hingga after-sales support yang didukung oleh tim ahli berpengalaman.
Hubungi Kami sekarang dan pastikan sistem AI Anda tetap aman dan terkendali!
Author: Danurdhara Suluh Prasasta
CTI Group Content Writer