我正在构建一个桌面工具,用于将音频文件转换为Dead as Disco的自定义歌曲文件,难点并不是文件格式,而是准确地获得节拍。
librosa的音素检测很稳固,但其节拍估计经常落后一个八度:它报告的节拍通常是真实节拍的一半或两倍,取决于音乐风格。对于节奏游戏来说,这是致命的,因为每个节拍的下游都会错位,即使技术上“正确”的偏差,也会让歌曲的节奏感不佳。
我使用的解决方案是:首先使用librosa估计节拍,然后将节拍的一半或两倍的候选项测试对音素间隔一致性,并选择实际匹配的节拍网格。有节奏较疏松的音乐风格(例如电子或某些电子音乐),仍需要手动偏差fallback。
相关内容和演示输出在这里:https://discoforge.pplx.app
感兴趣的朋友,请告诉我,你们是如何处理八度模糊的节拍问题的?是依赖节拍先验知识,自相关调整,还是直接暴露一个手动节拍override选项并继续前进?
评论 (0)