Andmebaasi logo
Valdkonnad ja kollektsioonid
Kogu ADA
  • Eesti
  • English
  • Deutsch
Logi sisse
  1. Esileht
  2. Sirvi autori järgi

Sirvi Autor "Fishel, Mark" järgi

Tulemuste filtreerimiseks trükkige paar esimest tähte
Nüüd näidatakse 1 - 9 9
  • Tulemused lehekülje kohta
  • Sorteerimisvalikud
  • Laen...
    Pisipilt
    Kirje
    Combining Statistical Machine Translation and Translation Memories with Domain Adaptation
    (Oslo, Norway, Linköping University Electronic Press, Sweden, pp. 331--341, 2013) Läubli, Samuel; Fishel, Mark; Volk, Martin; Weibel, Manuela; Oepen, Stephan; Hagen, Kristin; Johannessen, Janne Bondi
  • Laen...
    Pisipilt
    Kirje
    Distilling Estonian Text Domains for Production-Oriented Machine Translation
    (University of Tartu Library, 2023-05) Korotkova, Elizaveta; Fishel, Mark
  • Laen...
    Pisipilt
    Kirje
    Eesti-inglise statistilise masintõlke mudeli ümberpööramine inglise-eesti suunale
    (Tartu Ülikool, 2012) Klanberg, Indrek; Fishel, Mark; Koit, Mare; Tartu Ülikool. Matemaatika-informaatikateaduskond; Tartu Ülikool. Arvutiteaduse instituut
    Käesolevas töös on käsitletud statistilist masintõlget nii teoreetiliselt kui ka praktiliselt. Statistiline masintõlge on valdkond, mis üritab panna arvutit tõlkima, ilma et ta teaks midagi keelte ametliku grammatika kohta, vaid saab sisendiks ainult paralleelkorpuse ehk miljoneid lausepaare, kus üks paariline on teise paarilise tõlge. Praktilises pooles kasutati olemasolevat Mosese statistilise masintõlke raamistikku, et luua uus tõlkemudel inglise-eesti suunal. Lisaks pöörati ümber olemasolev eesti-inglise tõlkemudel, mis oli kaalutult kokku pandud erinevatest korpustest saadud mudelitest. Kogu töö käigus loodi 1 keelemudel, 2 fraasimudelit ja 2 ümberpaiknemismudelit. Teoreetiline osa oli referatiivne ning käsitles just neid fraasi-, keele- ja ümberpaiknemismudeli algoritme, mida me sisuliselt kasutasime töö praktilises osas. Täpsemalt käsitleti kahesuunalist leksikograafiliste kaaludega fraasimudelit, trigramm keelemudelit, mis kasutas silumiseks rekursiivset interpolatsiooni koos Witten-Belli meetodiga ning kahesuunalist msd (monotone, swap, discontinues ehk jääb paigale, vahetab, katkendlik) ümberpaiknemismudelit. Töö lõpus tõlgiti rohkem kui tuhandelauseline testkorpus ja hinnati saadud tulemust automaatse hindamismeetodiga BLEU. Lisaks vaadeldi tulemust lähemalt käsitsi. Kuigi paljud kerged laused tõlgiti peaaegu ideaalselt, siis keerulisemate lausetega hakkasid vähemalt osaliselt tekkima raskused. Suurim probleem oli konteksti mittemõistmine, sellele järgnesid käänamine ja lause ülesehitus. Töö väljundiks on valmiv statistilise masintõlke mudel inglise-eesti suunal ning teadmine, et antud valdkond on perspektiivikas. Töö on lisaks mõeldud inglise-eesti suunal statistilise masintõlke tegemise alustamiseks.
  • Laen...
    Pisipilt
    Kirje
    Estonian-English Statistical Machine Translation: the First Results
    (2007-05-23T08:28:05Z) Fishel, Mark; Kaalep, Heiki-Jaan; Muischnek, Kadri
  • Laen...
    Pisipilt
    Kirje
    Estonian-English Statistical Machine Translation: the First Results
    (Tartu, Estonia, University of Tartu, Estonia, pp. 278--283, 2007) Fishel, Mark; Kaalep, Heiki-Jaan; Muischnek, Kadri; Nivre, Joakim; Kaalep, Heiki-Jaan; Muischnek, Kadri; Koit, Mare
  • Laen...
    Pisipilt
    Kirje
    How Well do LLMs know Finno-Ugric Languages? A Systematic Assessment
    (University of Tartu Library, 2025-03) Kuulmets, Hele-Andra; Purason, Taido; Fishel, Mark; Johansson, Richard; Stymne, Sara
    We present a systematic evaluation of multilingual capabilities of open large language models (LLMs), specifically focusing on five Finno-Ugric (FiU) languages. Our investigation covers multiple prompting strategies across several benchmarks and reveals that Llama-2 7B and Llama-2 13B perform weakly on most FiU languages. In contrast, Llama 3.1 models show impressive improvements, even for extremely low-resource languages such as Võro and Komi, indicating successful cross-lingual knowledge transfer inside the models. Finally, we show that stronger base models outperform weaker, language-adapted models, thus emphasizing the importance of base model in successful language adaptation.
  • Laen...
    Pisipilt
    Kirje
    Paragraph-Level Machine Translation for Low-Resource Finno-Ugric Languages
    (University of Tartu Library, 2025-03) Pashchenko, Dmytro; Yankovskaya, Lisa; Fishel, Mark; Johansson, Richard; Stymne, Sara
    We develop paragraph-level machine translation for four low-resource Finno-Ugric languages: Proper Karelian, Livvi, Ludian, and Veps. The approach is based on sentence-level pre-trained translation models, which are fine-tuned with paragraph-parallel data. This allows the resulting model to develop a native ability to handle discource-level phenomena correctly, in particular translating from grammatically gender-neutral input in Finno-Ugric languages. We collect monolingual and parallel paragraph-level corpora for these languages. Our experiments show that paragraph-level translation models can translate sentences no worse than sentence-level systems, while handling discourse-level phenomena better. For evaluation, we manually translate part of FLORES-200 into these four languages. All our results, data, and models are released openly.
  • Laen...
    Pisipilt
    Kirje
    Voting and Stacking in Data-Driven Dependency Parsing
    (2009-05-13T12:12:40Z) Fishel, Mark; Nivre, Joakim
  • Laen...
    Pisipilt
    Kirje
    Voting and Stacking in Data-Driven Dependency Parsing
    (Odense, Denmark, Northern European Association for Language Technology (NEALT), pp. 219--222, 2009) Fishel, Mark; Nivre, Joakim; Jokinen, Kristiina; Bick, Eckhard

DSpace tarkvara autoriõigus © 2002-2025 UTLIB

  • Saada tagasisidet