作者yoyololicon (十年魔乃粉)
看板DataScience
标题[心得] Music Demixing Challenge 2021 A组铜牌
时间Mon Nov 15 15:31:30 2021
安安~小弟十年魔乃粉辣,毫久没在这发文惹
其实这个比赛已经结束好几个月,不过上周还有办後续的工作坊
小弟因此还得去报告一下poster,总算结束了可以来分享点心得和过程XD
比赛网址
https://www.aicrowd.com/challenges/music-demixing-challenge-ismir-2021
是个Sony出资在AIcrowd这个平台上办的AI竞赛
题目是音乐的声源分离,要把一首曲子分成鼓、贝斯、人声、其他(不属於以上三类)的
四个独立音档
参赛分成两组别
A组限制使用musdb18这个2018年的一次类似比赛提供的dataset,B组则没有任何限制
而主办方的目的其实是想藉由这样自由参加的形式,在音乐声源分离这领域做一些follow
up research,sony方的四位主办也都是相关的学者
详情可以参考比赛结束後的review paper
https://arxiv.org/abs/2108.13559
自己以前的研究题目跟MIR相关,所以声源分离也略知一二,但没有自己实际做过XD
就想藉着这次比赛学点经验,也没有想要得名什麽的,毕竟参加者真的很多妖魔鬼怪
於是从五月初开始一个人奋斗
最初的想法是先试试各种不同模型再决定方向
所以前期几乎都在写training pipeline, dataloader等,让之後抽换模型能够更容易
等到codebase开发的差不多,成功试过第一个baseline model後
觉得自己一个人力量有限,计算资源也不够(我只有一张3070 QQ),就开始徵人组队
後来形成了个5~6人的小队,大部分都是朋友或以前的同事,有接触过音讯领域的为主
其中很荣幸找到nnAudio的作者Kin-Wai加入,贡献了庞大的算力(V100 x4)
他也是final model的第二作者
因为我们都不是声源分离的专长,所以主要开发方向就是从主办提供的baseline开始改
看改了之後能提昇多少
组别只参加A组,毕竟收集资料绝对拼不过大公司QQ
期间我们不断survey相关paper,讨论有没有能改进的地方
很幸运的是,小队成员几乎不是PhD,就是PhD student或master
所以有时候讨论内容会深到小弟只能在旁边默默不出声XD
现在回头看很多讨论串都想保存下来当未来的研究方向
虽然阵容坚强,但开发过程也不是一路顺遂
中间也曾有一个月几乎毫无进度,只能等model training完毕的时候
而在改良了各种模型後,排名一直卡在10~14这个区间
也观察到在这区间大家的分数都非常接近,很可能是修改baseline的极限就在这边
到了比赛最後一周,实在是没招了,就想说乾脆把之前开发的三个模型合在一起算了
结果分数一举加了0.5 SDR,跃升到了第四
至此到比赛结束,我们都在疯狂的调整模型输出的加总比例,但还是无法突破第三名
好在主办方的规则有说若没有open source将失去领奖资格
而第三名的印度人自动放弃,所以我们就莫名其妙的递补到了铜牌XDDDD
B组也有相同的情况,第一名的AudioShake也放弃open source
(一家美国的新创,分数高的可怕,摆明来秀肌肉)
能捞到铜牌,除了幸运,实在很难说我们的模型有什麽特别的novelty
因为银牌的韩国大学的Woosung用的是他PhD时开发的模型改良版
而金牌是facebook(x)Meta(o)的research scientist Alexandre Défossez
得奖的模型也是他PhD时的作品,这个领域的SOTA---Demucs,的恶心改良版
(我有在研讨会听他的talk,他只靠一个人,试了各种恶心东西XD)
有趣的是,字节跳动的团队也有参赛,但分数刚好只差我们一点ww
比赛结果发表的线上录影
https://youtu.be/TntPVZ4ajIk
(我超紧张英文讲得很破请包含>///<,尤其AIcrowd协办的印度人英文我几乎听不懂qq)
比赛结束後,主办也办了一个附属在今年ISMIR的声源分离workshop
https://mdx-workshop.github.io/
邀请有参赛的组别来报告自己的模型
所以我们也跟着写了一篇不到三页的paper,在poster section做分享
如果对模型的细节有兴趣,可以参考看看
https://mdx-workshop.github.io/proceedings/chinyun.pdf
而第一次参加ISMIR还是线上研讨会的经验,篇幅值得再写一篇,我有空再来分享好了
如果想尝试小弟开发的模型,可以直接从github上面拿来用
https://github.com/yoyololicon/danna-sep
想重现我们的training结果的话
https://github.com/yoyololicon/music-demixing-challenge-ismir-2021-entry
大概酱,有其他想知道的细节,可以推文,我尽量回答~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 60.250.32.97 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1636961499.A.D96.html
1F:推 jigfopsda: 推 11/15 20:50
2F:→ jigfopsda: 好奇问,能不能简介一下 SDR 的概念是什麽 XD 11/15 20:51
3F:→ yoyololicon: 就是ground truth 数值跟误差值的比例 11/15 20:56
4F:→ yoyololicon: 越高越好 11/15 20:56
5F:推 jigfopsda: 原来如此 XD 11/15 20:59
6F:推 kenkao25: ensemble modeling很强大的 11/17 15:52
7F:→ yoyololicon: 其实最後前三名都有做model blending 似乎不意外 11/17 17:46
8F:推 yatingiloveu: 推推 11/19 19:23
9F:推 patrick2dot0: 感谢分享 11/20 00:33
10F:推 b10007034: 谢谢分享,少数得奖的分享者 11/21 01:29
11F:推 yuwenche: 难得在这碰到一个乐於分享者,只可惜跟我的领域差太多. 11/24 09:55
12F:推 ce270651: 好强 11/24 22:01
13F:推 lohas1019: 感谢分享 12/03 14:15
14F:推 wakawakaAAA: 推 厉害 01/01 17:21
15F:推 tim26982772: 推个 02/24 08:11
16F:推 oicjacky: 厉害推个 03/22 15:12
17F:推 joe120519: 推 05/08 08:02