Latent-Gated-MoE: A Novel Mixture of Experts with Latent Space Splitting for Multi-class Image Classification
Laen...
Kuupäev
Autorid
Ajakirja pealkiri
Ajakirja ISSN
Köite pealkiri
Kirjastaja
Tartu Ülikool
Abstrakt
This thesis explores a novel mixture of experts (MoE) model for a multiclass image classification task. We call our model a Latent-Gated-MoE that focuses on the trade-off between computational complexity and accuracy. Big convolutional models, such as EfficientNet, while highly accurate, impose considerable training and inference costs. To address these challenges, a novel low-complexity architecture of mixture of experts (MoE) is proposed that first adds a variational auto-encoder (VAE) on top of a routing gate. The latent space from the variational autoencoder (VAE) architecture is split into 5 parts, and each latent part is routed to its corresponding experts. First, a standard MoE model is implemented in which a set of simple expert subnets is trained on the whole data set and combined using a learnable gating mechanism. Then, the traditional gating mechanism is replaced with a variant autoencoder (VAE)-based router, allowing routing decisions to be informed by probabilistic low-dimensional latent representations. In the final stage, a novel architecture is introduced in which the VAE latent vector is explicitly divided into expert-specific subspaces. Each expert receives a distinct portion of the latent code, while the router uses the full vector to determine the weights of the experts. Experiments are conducted on a five-class leaf image classification dataset, using clean and augmented samples to evaluate generalization and robustness. Our results show that the final model achieves competitive classification accuracy while maintaining a significantly smaller model footprint and reduced inference time.
See lõputöö uurib uudset ekspertide segu (MoE) mudelit mitme klassi kujutiste klassifitseerimise ülesande jaoks. Nimetame oma mudelit Latent-Gated-MoE, mis keskendub arvutusliku keerukuse ja täpsuse vahelisele kompromissile. Suured konvolutsioonilised mudelid, nagu EfficientNet, on küll väga täpsed, kuid nõuavad märkimisväärseid koolitus- ja järelduskulusid. Nende väljakutsete lahendamiseks pakutakse välja uudne vähese keerukusega ekspertide seguarhitektuur (MoE), mis esmalt lisab marsruutimisvärava peale variatsioonilise automaatse kodeerija (VAE). Variatsioonilise autoencoderi (VAE) arhitektuuri varjatud ruum on jagatud 5 osaks ja iga varjatud osa suunatakse vastavatele ekspertidele. Esiteks rakendatakse standardset MoE mudelit, milles lihtsate ekspert-alamvõrkude komplekti koolitatakse kogu andmekogumi kohta ja kombineeritakse õpitava väravamehhanismi abil. Seejärel asendatakse traditsiooniline väravamehhanism alternatiivse autoencoder (VAE)-põhise ruuteriga, mis võimaldab marsruutimise otsuseid teavitada tõenäosuslike madalamõõtmeliste varjatud esitustest. Viimases etapis võetakse kasutusele uudne arhitektuur, milles VAE latentne vektor on selgesõnaliselt jagatud eksperdispetsiifilisteks alamruumideks. Iga ekspert saab kindla osa varjatud koodist, samas kui ruuter kasutab ekspertide kaalu määramiseks kogu vektorit. Katsed viiakse läbi viieklassilise lehekujutise klassifitseerimise andmekogumiga, kasutades üldistuse ja robustsuse hindamiseks puhtaid ja täiendatud proove. Meie tulemused näitavad, et lõplik mudel saavutab konkurentsivõimelise klassifitseerimise täpsuse, säilitades samal ajal oluliselt väiksema mudeli jalajälje ja lühendatud järeldusaega.
See lõputöö uurib uudset ekspertide segu (MoE) mudelit mitme klassi kujutiste klassifitseerimise ülesande jaoks. Nimetame oma mudelit Latent-Gated-MoE, mis keskendub arvutusliku keerukuse ja täpsuse vahelisele kompromissile. Suured konvolutsioonilised mudelid, nagu EfficientNet, on küll väga täpsed, kuid nõuavad märkimisväärseid koolitus- ja järelduskulusid. Nende väljakutsete lahendamiseks pakutakse välja uudne vähese keerukusega ekspertide seguarhitektuur (MoE), mis esmalt lisab marsruutimisvärava peale variatsioonilise automaatse kodeerija (VAE). Variatsioonilise autoencoderi (VAE) arhitektuuri varjatud ruum on jagatud 5 osaks ja iga varjatud osa suunatakse vastavatele ekspertidele. Esiteks rakendatakse standardset MoE mudelit, milles lihtsate ekspert-alamvõrkude komplekti koolitatakse kogu andmekogumi kohta ja kombineeritakse õpitava väravamehhanismi abil. Seejärel asendatakse traditsiooniline väravamehhanism alternatiivse autoencoder (VAE)-põhise ruuteriga, mis võimaldab marsruutimise otsuseid teavitada tõenäosuslike madalamõõtmeliste varjatud esitustest. Viimases etapis võetakse kasutusele uudne arhitektuur, milles VAE latentne vektor on selgesõnaliselt jagatud eksperdispetsiifilisteks alamruumideks. Iga ekspert saab kindla osa varjatud koodist, samas kui ruuter kasutab ekspertide kaalu määramiseks kogu vektorit. Katsed viiakse läbi viieklassilise lehekujutise klassifitseerimise andmekogumiga, kasutades üldistuse ja robustsuse hindamiseks puhtaid ja täiendatud proove. Meie tulemused näitavad, et lõplik mudel saavutab konkurentsivõimelise klassifitseerimise täpsuse, säilitades samal ajal oluliselt väiksema mudeli jalajälje ja lühendatud järeldusaega.
Kirjeldus
Märksõnad
Deep Learning, Image classification, Mixture of Experts (MoE), Variational Autoencoder (VAE), Latent space representation, pildiklassifikatsioon, süvaõpe, ekspertide segu, modulaarsed närvivõrgud