Visual Piano Transcription

dc.contributor.advisorCabral Pinheiro, Victor Henrique, juhendaja
dc.contributor.authorRaud, Karl
dc.contributor.otherTartu Ülikool. Loodus- ja täppisteaduste valdkondet
dc.contributor.otherTartu Ülikool. Arvutiteaduse instituutet
dc.date.accessioned2025-10-23T08:15:42Z
dc.date.available2025-10-23T08:15:42Z
dc.date.issued2025
dc.description.abstractAutomatic music transcription (AMT) is a field that focuses on extracting symbolic representations from musical performances. Visual piano transcription (VPT) is a subproblem of AMT that uses only visual cues to transcribe piano performances. It is useful in cases where the audio is lost, noisy, or contains multiple instruments. In this work, an end-to-end convolutional deep learning approach for VPT is proposed, which predicts the keypresses of a piano performance, given a video of a person playing it. Three prior researches, including the current state of the art for VPT, were reimplemented under comparable conditions and evaluated against the proposed method on both an existing and a novel, out-of-distribution dataset compiled in the course of this study, to assess whether they can be used in real-world applications. The proposed method is shown to perform well under the tested conditions, surpassing the current state of the art. As a final set of evaluations, the current state of VPT is also directly compared to audio-based piano transcription (APT).
dc.description.abstract Automaatne muusika transkribeerimine (AMT) on valdkond, mis keskendub muusikalistest esitustest notatsiooni leidmisele. Visuaalne klaveri transkribeerimine (VKT) on AMT alamvaldkond, mis kasutab klaveriesituste transkribeerimiseks ainult visuaalset teavet. See on kasulik juhtudel, kui soorituse heli on kadunud, mürarikas või sisaldab mitut muusikainstrumenti. Käesolevas töös arendati välja konvolutsiooniline närvivõrk VKT jaoks, mis ennustab klaveri esitusel vajutatud klahvid, lähtudes ainult videost, kus inimene klaverit mängib. Lisaks implementeeriti ka kolm varasemat teadustööd, sealhulgas ka VKT tipptasemel olev töö. Seejärel võrreldi kõiki nelja meetodit võimalikult õiglaselt. Arvestades treenimisandmestiku olemust, hinnati mudeleid nii sarnastes kui ka uudsetes olukordades, et selgitada välja, kas neid saab kasutada reaalmaailma tingimustes. Välja arendatud mudel osutus tõhusaks, saavutades paremad tulemused kui senine tippmeetod. Viimaks võrreldi ka hetkest VKT täpsust helipõhise klaveri transkribeerimise meetodiga.
dc.identifier.urihttps://hdl.handle.net/10062/117024
dc.language.isoen
dc.publisherTartu Ülikoolet
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectdeep learning
dc.subjectmusic transcription
dc.subjectconvolutional neural network
dc.subjectcomputer vision
dc.subject.othermagistritöödet
dc.subject.otherinformaatikaet
dc.subject.otherinfotehnoloogiaet
dc.subject.otherinformaticsen
dc.subject.otherinfotechnologyen
dc.titleVisual Piano Transcription
dc.title.alternativeVisuaalne klaveri transkribeerimine
dc.typeThesisen

Failid

Originaal pakett

Nüüd näidatakse 1 - 1 1
Laen...
Pisipilt
Nimi:
Raud_ComputerScience_2025.pdf
Suurus:
2.62 MB
Formaat:
Adobe Portable Document Format