Asset-Oriented Threat Analysis for Large Language Model Systems

dc.contributor.advisorMatulevičius, Raimundas, juhendaja
dc.contributor.authorKaragjaur, Mihhail
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-29T09:24:54Z
dc.date.available2025-10-29T09:24:54Z
dc.date.issued2025
dc.description.abstractLarge language model (LLM) deployments continue to proliferate across enterprises without systematic guidance on risk analysis of the LLM-based systems. Addressing this gap, the present study designs and validates an asset-oriented threat model, tailored to LLM systems. The research follows a design-science research paradigm. The research method incorporates (1) a systematic literature review of 45 peer-reviewed and grey sources, which led to the definition of 13 parent attack classes, a total of 24 threat variants. (2) A design of a threat model, which formalized the LLM business and system assets, their security criteria, mapped threats, security requirements, and countermeasures. (3) Two validation procedures, comprising a feasibility analysis of the threat model’s applicability and an empirical test of a jailbreak attack. The feasibility analysis determined that the proposed threat model, mapped to the Mistral Small 3.1, achieved a completeness score of 0.93 out of 1.00. Thus, indicating all but one of the seven system assets were fully represented in the real-world system. To further substantiate the applicability of the threat model, a jailbreak attack (prompt-injection) was executed with 100 prompts from the JailbreakV-28K benchmark open dataset. Without an official safety measure enabled, 78% of applicable prompts resulted in harmful output. With the safety measure enabled, the rate of harmful output was reduced to 70%. Indicating partial but insufficient mitigation. The main artifact of the thesis is an asset-oriented threat model for LLMs. The artifact consists of the following components: 1. High-level UML class and state, and BPMN process diagrams, depicting an LLM system, and mapping elicited threats to the system’s assets. 2. An interactive web page, which allows practitioners to traverse the produced threat model and to acquire information about the elicited assets, threats, and proposed countermeasures. 3. Code of the interactive web page, empirical tests, and datasets, supporting local use of the threat model and reproducibility of the jailbreak empirical test. Findings conclude that the LLM system possesses a wide attack surface while adding unique vectors such as jailbreak and embedding inversion. The thesis provides security and AI engineers with a systematic approach to risk analysis and countermeasure selection. Although the threat model was validated on a single open-weight model, the baseline methodology is model-agnostic and extensible. Future studies could validate the threat model against a wide set of LLM systems and automate control recommendations in the scope of DevSecOps.
dc.description.abstract Suurte keelemudelite (LLM) kasutuselevõtt jätkub ettevõtetes, kuid puuduvad süstemaatilised juhised riskianalüüsi riskianalüüsi teostamiseks. Selle puudujäägi kõrvaldamiseks kavandatakse ja valideeritakse käesolevas uuringus varadele suunatud ohumudel, mis on kohandatud LLM-süsteemidele. Uurimus järgib disainiteaduslikku uurimisparadigmat. Uurimismeetod hõlmab (1) 45 vastastikuse eksperdihinnangu saanud ja hallide allikate süstemaatilist kirjanduse läbivaatamist, mille tulemusel määratleti 13 vanemrünnaku klassi, kokku 24 ohuvarianti. (2) Ohumudeli kavandamist, mis hõlmab endas LLMi äri- ja süsteemivarad, nende turvakriteeriumid, kaardistatud ohud, turvanõuded ja vastumeetmed. (3) Kaks valideerimiseksperimenti/-katset, mis koosnevad ohumudeli rakendatavuse teostatavuse analüüsist ja vangistusrünnaku empiirilisest testist. Teostatavusanalüüsiga määrati kindlaks, et Mistral Small 3.1-le kaardistatud kavandatud ohumudel saavutas täielikkuse skoori 0,93 punkti 1,00-st. Sellest järeldati et kõik peale ühe süsteemi seitsmest varast olid reaalses süsteemis täielikult esindatud. Ohumudeli rakendatavuse täiendavaks tõestamiseks viidi läbi jailbreak-rünnak (prompt-injection), kasutades avatud andmekogumi JailbreakV-28K andmestikust pärit 100 käsku. Ilma turvameetmeteta andis 78% kohaldatavatest käskudest kahjuliku väljundi. Kui turvameede oli aktiveeritud, vähenes kahjulike väljundite osakaal 70 %-ni. See näitab osalist, kuid mittetäielikku leevendamist. Lõputöö peamise tulemusena loodi varadele orienteeritud ohumudel. Ohumudel koosneb järgmistest komponentidest: 1. Kõrgetasemelised UML klassi- ja olekud ning BPMN protsessidiagrammid, mis kujutavad LLM-süsteemi ja kaardistavad väljaselgitatud ohud süsteemi varadele. 2. Interaktiivne veebileht, mis võimaldab kasutajatel läbida loodud ohumudelit, et saada teavet väljaselgitatavate varade, ohtude ja kavandatud vastumeetmete kohta. 3. Interaktiivse veebilehe ning empiiriliste testide kood, ja andmekogumid, mis toetavad ohumudeli kohalikku kasutamist ja jailbreaki empiirilise testi reprodutseeritavust. Tulemustest järeldub, et LLM-süsteemil on lai ründepind, lisades samas unikaalseid ohuvektoreid, nagu jailbreak ja embedding inversion. Diplomitöö annab turva- ja tehisintellekti inseneridele süstemaatilise lähenemisviisi riskianalüüsiks ja vastumeetmete valimiseks. Kuigi ohumudel valideeriti ühe avatud kaaluga mudeli peal, on baasmudelite metoodika mudelite suhtes universaalne ja laiendatav. Tulevased uuringud võiksid valideerida ohumudelit laia LLM-süsteemide kogumi suhtes ja automatiseerida kontrollisoovitusi DevSecOps'i raames.
dc.identifier.urihttps://hdl.handle.net/10062/117183
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectSuur Keelemudel
dc.subjectCybersecurity
dc.subjectOhu Modelleerimine
dc.subjectKüberturvalisus
dc.subjectLarge Language Model
dc.subjectRiskianalüüs
dc.subjectMachine Learning
dc.subjectMasinõpe
dc.subjectTehisintellekt
dc.subjectRisk Analysis
dc.subjectArtificial Intelligence
dc.subjectThreat Modeling
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleAsset-Oriented Threat Analysis for Large Language Model Systems
dc.title.alternativeVarale orienteeritud ohuanalüüs suurte keelemudelisüsteemide jaoks
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 2 2
Laen...
Pisipilt
Nimi:
Karagjaur_Cybersecurity_2025.pdf
Suurus:
3.86 MB
Formaat:
Adobe Portable Document Format
Laen...
Pisipilt
Nimi:
thesis_artifacts.zip
Suurus:
5.54 MB
Formaat:
Compressed ZIP