Asset-Oriented Threat Analysis for Large Language Model Systems

Karagjaur, Mihhail

Asset-Oriented Threat Analysis for Large Language Model Systems

Failid

Karagjaur_Cybersecurity_2025.pdf (3.86 MB)

thesis_artifacts.zip (5.54 MB)

Kuupäev

2025

Autorid

Karagjaur, Mihhail

Kirjastaja

Tartu Ülikool

Abstrakt

Large language model (LLM) deployments continue to proliferate across enterprises without systematic guidance on risk analysis of the LLM-based systems. Addressing this gap, the present study designs and validates an asset-oriented threat model, tailored to LLM systems. The research follows a design-science research paradigm. The research method incorporates (1) a systematic literature review of 45 peer-reviewed and grey sources, which led to the definition of 13 parent attack classes, a total of 24 threat variants. (2) A design of a threat model, which formalized the LLM business and system assets, their security criteria, mapped threats, security requirements, and countermeasures. (3) Two validation procedures, comprising a feasibility analysis of the threat model’s applicability and an empirical test of a jailbreak attack. The feasibility analysis determined that the proposed threat model, mapped to the Mistral Small 3.1, achieved a completeness score of 0.93 out of 1.00. Thus, indicating all but one of the seven system assets were fully represented in the real-world system. To further substantiate the applicability of the threat model, a jailbreak attack (prompt-injection) was executed with 100 prompts from the JailbreakV-28K benchmark open dataset. Without an official safety measure enabled, 78% of applicable prompts resulted in harmful output. With the safety measure enabled, the rate of harmful output was reduced to 70%. Indicating partial but insufficient mitigation. The main artifact of the thesis is an asset-oriented threat model for LLMs. The artifact consists of the following components: 1. High-level UML class and state, and BPMN process diagrams, depicting an LLM system, and mapping elicited threats to the system’s assets. 2. An interactive web page, which allows practitioners to traverse the produced threat model and to acquire information about the elicited assets, threats, and proposed countermeasures. 3. Code of the interactive web page, empirical tests, and datasets, supporting local use of the threat model and reproducibility of the jailbreak empirical test. Findings conclude that the LLM system possesses a wide attack surface while adding unique vectors such as jailbreak and embedding inversion. The thesis provides security and AI engineers with a systematic approach to risk analysis and countermeasure selection. Although the threat model was validated on a single open-weight model, the baseline methodology is model-agnostic and extensible. Future studies could validate the threat model against a wide set of LLM systems and automate control recommendations in the scope of DevSecOps.
Suurte keelemudelite (LLM) kasutuselevõtt jätkub ettevõtetes, kuid puuduvad süstemaatilised juhised riskianalüüsi riskianalüüsi teostamiseks. Selle puudujäägi kõrvaldamiseks kavandatakse ja valideeritakse käesolevas uuringus varadele suunatud ohumudel, mis on kohandatud LLM-süsteemidele. Uurimus järgib disainiteaduslikku uurimisparadigmat. Uurimismeetod hõlmab (1) 45 vastastikuse eksperdihinnangu saanud ja hallide allikate süstemaatilist kirjanduse läbivaatamist, mille tulemusel määratleti 13 vanemrünnaku klassi, kokku 24 ohuvarianti. (2) Ohumudeli kavandamist, mis hõlmab endas LLMi äri- ja süsteemivarad, nende turvakriteeriumid, kaardistatud ohud, turvanõuded ja vastumeetmed. (3) Kaks valideerimiseksperimenti/-katset, mis koosnevad ohumudeli rakendatavuse teostatavuse analüüsist ja vangistusrünnaku empiirilisest testist. Teostatavusanalüüsiga määrati kindlaks, et Mistral Small 3.1-le kaardistatud kavandatud ohumudel saavutas täielikkuse skoori 0,93 punkti 1,00-st. Sellest järeldati et kõik peale ühe süsteemi seitsmest varast olid reaalses süsteemis täielikult esindatud. Ohumudeli rakendatavuse täiendavaks tõestamiseks viidi läbi jailbreak-rünnak (prompt-injection), kasutades avatud andmekogumi JailbreakV-28K andmestikust pärit 100 käsku. Ilma turvameetmeteta andis 78% kohaldatavatest käskudest kahjuliku väljundi. Kui turvameede oli aktiveeritud, vähenes kahjulike väljundite osakaal 70 %-ni. See näitab osalist, kuid mittetäielikku leevendamist. Lõputöö peamise tulemusena loodi varadele orienteeritud ohumudel. Ohumudel koosneb järgmistest komponentidest: 1. Kõrgetasemelised UML klassi- ja olekud ning BPMN protsessidiagrammid, mis kujutavad LLM-süsteemi ja kaardistavad väljaselgitatud ohud süsteemi varadele. 2. Interaktiivne veebileht, mis võimaldab kasutajatel läbida loodud ohumudelit, et saada teavet väljaselgitatavate varade, ohtude ja kavandatud vastumeetmete kohta. 3. Interaktiivse veebilehe ning empiiriliste testide kood, ja andmekogumid, mis toetavad ohumudeli kohalikku kasutamist ja jailbreaki empiirilise testi reprodutseeritavust. Tulemustest järeldub, et LLM-süsteemil on lai ründepind, lisades samas unikaalseid ohuvektoreid, nagu jailbreak ja embedding inversion. Diplomitöö annab turva- ja tehisintellekti inseneridele süstemaatilise lähenemisviisi riskianalüüsiks ja vastumeetmete valimiseks. Kuigi ohumudel valideeriti ühe avatud kaaluga mudeli peal, on baasmudelite metoodika mudelite suhtes universaalne ja laiendatav. Tulevased uuringud võiksid valideerida ohumudelit laia LLM-süsteemide kogumi suhtes ja automatiseerida kontrollisoovitusi DevSecOps'i raames.

Märksõnad

Suur Keelemudel, Cybersecurity, Ohu Modelleerimine, Küberturvalisus, Large Language Model, Riskianalüüs, Machine Learning, Masinõpe, Tehisintellekt, Risk Analysis, Artificial Intelligence, Threat Modeling

URI

https://hdl.handle.net/10062/117183

Kollektsioonid

LTAT magistritööd – Master's theses

Kirje täielik lehekülg

Asset-Oriented Threat Analysis for Large Language Model Systems

Failid

Kuupäev

Autorid

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Abstrakt

Kirjeldus

Märksõnad

Viide

URI

Kollektsioonid