Extracting Concepts from a Large Language Model Trained on Health Data

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Language models are capable of performing a wide range of tasks, but how they arrive at their results is like a black box - the user provides input and receives output, but how the output was arrived at is unknown. If the process of network modeling were observable and understandable to humans, then this interpretability would increase confidence in the model's outputs and, in the event of an incorrect model output, understand what went wrong and fix it. In this research, the dictionary learning method using sparse autoencoders was used to study the workflow of a language model, where the autoencoder model separates the neural network activations of the language model into features, which can be viewed as concepts learned by the model. As part of the work, three sparse autoencoders were trained, which differed from each other in the number of features and the given language model layer. The features extracted by the best of the three autoencoders were analyzed and concepts with different degrees of generalization were found, for example, specific health problems affecting the patient, the patient's physical activity, and the positive course of treatment.
Keelemudelid on suutelised täitma suure hulga erinevaid ülesandeid, kuid see, kuidas nad oma tulemuseni jõuavad on nagu must kast - kasutaja annab sisendi ja saab väljundi, kuid seda, kuidas väljundini jõuti, ei teata. Kui võrgu modelleerimise käik oleks inimestele jälgitav ning arusaadav, siis see tõlgendatavus suurendaks usaldust mudeli väljundite vastu ning aitaks väära mudeli väljundi puhul vea tekkepõhjust mõista ning seda parandada. Selles uurimistöös kasutati keelemudeli töökäigu uurimiseks sõnastiku õppimise meetodit hõredate autoenkooderite abil, kus autoenkooderi mudel eraldab keelemudeli närvivõrgu aktivatsioonid tunnusteks, mida saab vaadelda kui mudeli poolt õpitud kontseptsioone. Töö raames treeniti kolm hõredat autoenkooderit, mis erinesid üksteisest tunnuste arvu ning etteantud keelemudeli kihi poolest. Kolmest autoenkooderist parima poolt eraldatud tunnuseid analüüsiti ning leiti erineva üldistusastmega kontseptsioone: näiteks patsienti mõjutavad spetsiifilised terviseprobleemid, patsiendi füüsiline aktiivsus ning ravi positiivne kulg.

Kirjeldus

Märksõnad

hõredad autoenkooderid, tervishoiuinformaatika, kontseptsioonide eraldamine, tehisintellekt, mehhaaniline tõlgendatavus, terviseandmed, GPT, keelemudelid

Viide