Design and Evaluation of an AI-Assisted COMPS Tutor for Students with Learning Difficulties in Mathematics
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
This thesis presents Nutikas, an AI-assisted tutor that automates Conceptual Model-Based Problem Solving (COMPS) for early-grade additive word problems, designed with learners with special educational needs (SEN) in mind. Nutikas uses a four-step prompt pipeline: (i) super-category classification (Change / Combine / Compare). (ii) 12-way subtype selection, (iii) schema slot filling (e.g., Start/Change/End), and (iv) story-grammar questions to align large language model (LLM) outputs with instructional scaffolds. Three current LLMs (GPT-4.1, Claude Sonnet 4, and Gemini 2.5 Flash) are evaluated on a 120-item corpus covering all COMPS additive subtypes and score four dimensions: category, subtype, mapping (equation fidelity), and answer. Answers are near the ceiling (≥99.2%), while residual errors concentrate in schema mapping, especially the polarity of Change-Separate problems, where the COMPS convention requires a non-negative change magnitude. Mapping accuracy ranges from Gemini at 98.3% to Claude at 91.7% to GPT-4.1 at 85.0%, suggesting that the remaining variance reflects representation conventions rather than arithmetic capability. A small usability pilot with two SEN students (SUS-Kids mean 68.8) and one teacher indicates acceptable usability and highlights the need for clearer analytics on the teacher dashboard. While Tier-2 findings are formative and the scope is additive only, Nutikas already delivers accurate solutions with actionable paths to close the remaining mapping gap.
See lõputöö tutvustab Nutikast, tehisintellektil põhinevat juhendajat, mis automatiseerib kontseptuaalsel mudelil põhinevat probleemide lahendamist (COMPS) algklasside aditiivsete tekstiülesannete jaoks, pidades silmas erivajadustega õppijaid. Nutikas kasutab neljaastmelist ülesannete lahendamise protsessi: (i) ülemkategooriate klassifitseerimine (Muuda / Kombineeri / Võrdle). (ii) 12-suunaline alatüübi valik, (iii) skeemipesade täitmine (nt Algus/Muuda/Lõpp) ja (iv) jutu-grammatika küsimused, et viia suurte keelemudelite (LLM) väljundid vastavusse õppestruktuuridega. Kolme praegust LLM-i (GPT-4.1, Claude Sonnet 4 ja Gemini 2.5 Flash) hinnatakse 120-punktilisel korpusel, mis hõlmab kõiki COMPS-i aditiivseid alatüüpe, ja need hindavad nelja dimensiooni: kategooria, alatüüp, kaardistamine (võrrandi täpsus) ja vastus. Vastused on ülemmäära lähedal (≥99,2%), samas kui jääkvead koonduvad skeemikaardistamisele, eriti muutmis-eraldamisülesannete polaarsusele, kus COMPS-i konventsioon nõuab mittenegatiivset muutuse suurusjärku. Kaardistamise täpsus jääb Geminitest 98,3%, Claude'i 91,7% ja GPT-4,1-ni 85,0%, mis viitab sellele, et ülejäänud dispersioon peegeldab pigem esituskonventsioone kui aritmeetilist võimekust. Väike kasutatavuse pilootprojekt kahe SEN-õpilase (SUS-Kids keskmine 68,8) ja ühe õpetajaga näitab vastuvõetavat kasutatavust ja rõhutab vajadust selgema analüütika järele õpetaja armatuurlaual. Kuigi 2. taseme tulemused on formatiivsed ja ulatus ainult aditiivne, pakub Nutikas juba täpseid lahendusi koos tegutsemisvõimalustega ülejäänud kaardistamislünga täitmiseks.
See lõputöö tutvustab Nutikast, tehisintellektil põhinevat juhendajat, mis automatiseerib kontseptuaalsel mudelil põhinevat probleemide lahendamist (COMPS) algklasside aditiivsete tekstiülesannete jaoks, pidades silmas erivajadustega õppijaid. Nutikas kasutab neljaastmelist ülesannete lahendamise protsessi: (i) ülemkategooriate klassifitseerimine (Muuda / Kombineeri / Võrdle). (ii) 12-suunaline alatüübi valik, (iii) skeemipesade täitmine (nt Algus/Muuda/Lõpp) ja (iv) jutu-grammatika küsimused, et viia suurte keelemudelite (LLM) väljundid vastavusse õppestruktuuridega. Kolme praegust LLM-i (GPT-4.1, Claude Sonnet 4 ja Gemini 2.5 Flash) hinnatakse 120-punktilisel korpusel, mis hõlmab kõiki COMPS-i aditiivseid alatüüpe, ja need hindavad nelja dimensiooni: kategooria, alatüüp, kaardistamine (võrrandi täpsus) ja vastus. Vastused on ülemmäära lähedal (≥99,2%), samas kui jääkvead koonduvad skeemikaardistamisele, eriti muutmis-eraldamisülesannete polaarsusele, kus COMPS-i konventsioon nõuab mittenegatiivset muutuse suurusjärku. Kaardistamise täpsus jääb Geminitest 98,3%, Claude'i 91,7% ja GPT-4,1-ni 85,0%, mis viitab sellele, et ülejäänud dispersioon peegeldab pigem esituskonventsioone kui aritmeetilist võimekust. Väike kasutatavuse pilootprojekt kahe SEN-õpilase (SUS-Kids keskmine 68,8) ja ühe õpetajaga näitab vastuvõetavat kasutatavust ja rõhutab vajadust selgema analüütika järele õpetaja armatuurlaual. Kuigi 2. taseme tulemused on formatiivsed ja ulatus ainult aditiivne, pakub Nutikas juba täpseid lahendusi koos tegutsemisvõimalustega ülejäänud kaardistamislünga täitmiseks.
Kirjeldus
Märksõnad
Large Language Models, special education, COMPS, Story-Grammar, Usability, Schema Mapping