Causal Information Extraction Using Large Language Models
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
This thesis investigates the ability of Large Language Models (LLMs) for causal information extraction, an important task for high-level natural language comprehension. In a controlled experiment of eight flagship models of leading AI organizations — including OpenAI's GPT-o3, Anthropic's Claude 3.7 Sonnet, xAI's Grok-3, and others — this study examines both their ability to extract cause-effect pairs from text and their performance at evaluating such extractions. A purpose-designed multi-domain dataset was generated to serve this end, with controlled causal relations hidden in contexts with diverse complexity levels, covering economics, environmental science, and technology domains. The dataset incorporates a number of difficult variations achieved through the use of cue masking and pair shuffling methods. By applying a zero-shot approach with standardized prompting, a twin evaluation framework is employed that uses traditional human evaluation with a model-based semantic scoring system, in which LLMs score other LLM's extractions. This provides a more informative model performance evaluation. Results revealed impressive causal extraction capabilities across all models, with leading models, outperforming smaller models. Especially notable were OpenAI's GPT-o3, Antropic's Claude 3.7 Sonnet and xAI's Grok-3, outperforming its counterparts. Overall, models demonstrated semantic understanding beyond reliance on explicit linguistic markers, though pair shuffling showed some dependence on pre-trained associations. This research illuminates the capabilities of state-of-the-art LLMs in causal information extraction, establishing a foundation for enhanced causal reasoning systems across diverse domains.
Käesolev töö uurib suurte keelemudelite (LLM-ide) võimekust põhjusliku informatsiooni eraldamisel, mis on oluline ülesanne kõrgetasemeliseks loomuliku keele mõistmiseks. Kontrollitud eksperimendis, mis hõlmab kaheksat juhtivate tehisintellekti organisatsioonide lipulaevmudelit — sealhulgas OpenAI GPT-o3, Anthropic'u Claude 3.7 Sonnet, xAI Grok-3 ja teisi — uuritakse nii nende võimet ekstraheerida tekstist põhjus-tagajärg paare kui ka hinnata selliseid ekstraktsioone. Selle eesmärgi tarbeks loodi spetsiaalne mitut valdkonda hõlmav andmestik, kus kontrollitud põhjuslikud seosed on peidetud erineva keerukusastmega kontekstidesse, hõlmates majanduse, keskkonnateaduse ja tehnoloogia valdkondi. Andmestik sisaldab mitmeid keerukaid variatsioone, mis on saavutatud vihjete maskeerimise ja paaride segamise meetodite abil. Rakendades nullõppe (ingl. zero-shot) lähenemisviisi standardiseeritud küsimustega, kasutatakse kahekordset hindamisraamistikku, mis kombineerib traditsioonilist inimhindamist mudelipõhise semantilise skoorimissüsteemiga, kus keelemudelid hindavad teiste keelemudelite ekstraktsioone. See võimaldab mudelite jõudlust informatiivsemalt hinnata. Tulemused näitasid muljetavaldavat põhjuslike seoste eraldamise võimekust kõigi mudelite puhul, kusjuures juhtivad mudelid edestavad väiksemaid mudeleid. Eriti märkimisväärsed olid OpenAI GPT-o3, Anthropic'u Claude 3.7 Sonnet ja xAI Grok-3, mis ületasid teiste jõudlust. Üldiselt demonstreerisid mudelid semantilist arusaamist, mis ületab pelgalt eksplitsiitsete keeleliste märgete tuvastamise, kuigi paaride segamistestid näitasid sõltuvust eeltreenitud teadmiste osas. Antud uuring selgitab tipptasemel suurte keelemudelite võimekust põhjusliku informatsiooni eraldamisel, luues aluse täiustatud põhjusliku arutlussüsteemide arendamiseks erinevates valdkondades.
Käesolev töö uurib suurte keelemudelite (LLM-ide) võimekust põhjusliku informatsiooni eraldamisel, mis on oluline ülesanne kõrgetasemeliseks loomuliku keele mõistmiseks. Kontrollitud eksperimendis, mis hõlmab kaheksat juhtivate tehisintellekti organisatsioonide lipulaevmudelit — sealhulgas OpenAI GPT-o3, Anthropic'u Claude 3.7 Sonnet, xAI Grok-3 ja teisi — uuritakse nii nende võimet ekstraheerida tekstist põhjus-tagajärg paare kui ka hinnata selliseid ekstraktsioone. Selle eesmärgi tarbeks loodi spetsiaalne mitut valdkonda hõlmav andmestik, kus kontrollitud põhjuslikud seosed on peidetud erineva keerukusastmega kontekstidesse, hõlmates majanduse, keskkonnateaduse ja tehnoloogia valdkondi. Andmestik sisaldab mitmeid keerukaid variatsioone, mis on saavutatud vihjete maskeerimise ja paaride segamise meetodite abil. Rakendades nullõppe (ingl. zero-shot) lähenemisviisi standardiseeritud küsimustega, kasutatakse kahekordset hindamisraamistikku, mis kombineerib traditsioonilist inimhindamist mudelipõhise semantilise skoorimissüsteemiga, kus keelemudelid hindavad teiste keelemudelite ekstraktsioone. See võimaldab mudelite jõudlust informatiivsemalt hinnata. Tulemused näitasid muljetavaldavat põhjuslike seoste eraldamise võimekust kõigi mudelite puhul, kusjuures juhtivad mudelid edestavad väiksemaid mudeleid. Eriti märkimisväärsed olid OpenAI GPT-o3, Anthropic'u Claude 3.7 Sonnet ja xAI Grok-3, mis ületasid teiste jõudlust. Üldiselt demonstreerisid mudelid semantilist arusaamist, mis ületab pelgalt eksplitsiitsete keeleliste märgete tuvastamise, kuigi paaride segamistestid näitasid sõltuvust eeltreenitud teadmiste osas. Antud uuring selgitab tipptasemel suurte keelemudelite võimekust põhjusliku informatsiooni eraldamisel, luues aluse täiustatud põhjusliku arutlussüsteemide arendamiseks erinevates valdkondades.
Kirjeldus
Märksõnad
artificial intelligence, natural language processing, large language models, Causal information extraction, zero-shot evaluation