Visual Piano Transcription

Laen...
Pisipilt

Kuupäev

Ajakirja pealkiri

Ajakirja ISSN

Köite pealkiri

Kirjastaja

Tartu Ülikool

Abstrakt

Automatic music transcription (AMT) is a field that focuses on extracting symbolic representations from musical performances. Visual piano transcription (VPT) is a subproblem of AMT that uses only visual cues to transcribe piano performances. It is useful in cases where the audio is lost, noisy, or contains multiple instruments. In this work, an end-to-end convolutional deep learning approach for VPT is proposed, which predicts the keypresses of a piano performance, given a video of a person playing it. Three prior researches, including the current state of the art for VPT, were reimplemented under comparable conditions and evaluated against the proposed method on both an existing and a novel, out-of-distribution dataset compiled in the course of this study, to assess whether they can be used in real-world applications. The proposed method is shown to perform well under the tested conditions, surpassing the current state of the art. As a final set of evaluations, the current state of VPT is also directly compared to audio-based piano transcription (APT).
Automaatne muusika transkribeerimine (AMT) on valdkond, mis keskendub muusikalistest esitustest notatsiooni leidmisele. Visuaalne klaveri transkribeerimine (VKT) on AMT alamvaldkond, mis kasutab klaveriesituste transkribeerimiseks ainult visuaalset teavet. See on kasulik juhtudel, kui soorituse heli on kadunud, mürarikas või sisaldab mitut muusikainstrumenti. Käesolevas töös arendati välja konvolutsiooniline närvivõrk VKT jaoks, mis ennustab klaveri esitusel vajutatud klahvid, lähtudes ainult videost, kus inimene klaverit mängib. Lisaks implementeeriti ka kolm varasemat teadustööd, sealhulgas ka VKT tipptasemel olev töö. Seejärel võrreldi kõiki nelja meetodit võimalikult õiglaselt. Arvestades treenimisandmestiku olemust, hinnati mudeleid nii sarnastes kui ka uudsetes olukordades, et selgitada välja, kas neid saab kasutada reaalmaailma tingimustes. Välja arendatud mudel osutus tõhusaks, saavutades paremad tulemused kui senine tippmeetod. Viimaks võrreldi ka hetkest VKT täpsust helipõhise klaveri transkribeerimise meetodiga.

Kirjeldus

Märksõnad

deep learning, music transcription, convolutional neural network, computer vision

Viide