AD
首页 > 新闻 > 正文

GeneacuteLive!的模型架构

[2022-03-01 17:41] 来源:TechWeb 编辑:柳暮雪  阅读量:14459   
评论 点击收藏
导读: 通过深度学习技术,AI算法在图像分类,语音识别等任务上有了优异的表现,但在理解复杂,非结构化数据方面,机器学习面临的挑战更大,比如理解音频,视频,文本内容,以及它们产生的机制物理学家费曼曾说过:「凡是我不能亲自创造出来的,我就不是真正理解 ......

通过深度学习技术,AI 算法在图像分类,语音识别等任务上有了优异的表现,但在理解复杂,非结构化数据方面,机器学习面临的挑战更大,比如理解音频,视频,文本内容,以及它们产生的机制物理学家费曼曾说过:「凡是我不能亲自创造出来的,我就不是真正理解

GeneacuteLive!的模型架构

而伴随着技术的发展,深度生成模型已在学界和业界获得了广泛应用在如今的游戏开发过程中,生成模型正在帮助我们构建各种内容,包括图形,声音,角色动作,对话,场景和关卡设计

KLab 等机构提交的论文介绍了自己的节奏动作游戏生成模型KLab Inc 是一家智能手机游戏开发商该公司在线运营的节奏动作游戏包括《Love Live!学院偶像季:群星闪耀》已以 6 种语言在全球发行,获得了上千万用户已经有一系列具有类似影响的类似游戏,这使得该工作与大量玩家密切相关

在 LLAS 中,开发者面临的挑战是为不同歌曲生成乐谱,提示玩家在不同时机点击或拉拽按键,这是节奏音乐游戏中所定义的挑战在一局游戏中,飘过来的按钮被称为音符,它们形成类似于乐谱的空间图案,与后台播放的歌曲节奏对应一首歌曲存在不同的难度模式,从初级,中级,高级和专家到挑战,复杂度顺序递增

相对其他音游,LLAS 虽然不怎么考验反应速度,但机制相对复杂得多在全部按准的前提下还有 buff,debuff,三种属性分别对应体力,暴击和分数,想要高分还需要在打歌时不停切换队伍。

由于 LoveLive!是一个有 12 年历史的企划,包含四个团体和数个小团体,个人还有角色歌,很多歌曲都会在游戏中出现,设计对应的乐谱变成了一件极具挑战的工作。

随便一搜就上千首歌曲。

游戏开发者表示,他们的做法是通过 AI 辅助的半自动化方式:先由 AI 生成乐谱,再由 KLab 的艺术家进行微调,另一种方式是 AI 生成低难度乐谱,游戏设计师在这个基础上设计高难度。

KLab 表示,他们使用的 Geneacute,Live! 模型成功地降低了一半业务成本,该模型已部署在公司日常的业务运营中,并在可预见的未来时间里持续应用。

降低乐谱生成的成本对于在线音游开发者来说是一个重要挑战,因为它是日常运营的瓶颈KLab 提出的方法实现了只需要音频,就可以直接生成乐谱

在研究过程中,开发者们首先提出了 Dance Dance Convolution ,生成了具有人类高水平的,较高难度游戏模式的乐谱,但低难度反而效果不好随后研究者们通过改进数据集和多尺度 conv—stack 架构,成功捕捉了乐谱中四分音符之间的时间依赖性以及八分音符和提示节拍的位置,它们是音游中放置按键的较好时机

DDC 由两个子模型组成:onset和 sym

目前正在使用的 AI 模型在所有难度的曲谱上都获得了很好的效果,研究人员还展望了该技术扩展到其他领域的可能性。

KLab 应用深度生成模型来合成乐谱,并改进乐谱的制作流程,将业务成本降低了一半该研究阐明了如何通过专门用于节奏动作的多尺度新模型 Geneacute,Live!,借助节拍等来克服挑战,并使用 KLab 的生产数据集和开放数据集进行了评估

方法

此前,KLab 乐谱的生成工作流是在不考虑自动化的情况下形成的,几乎没有达成明确的规则或数学优化目标因此,该研究选择使用监督机器学习到 2019 年底,KLab 已经发布了数百首歌曲的音频序列和相应的人工生成乐谱

一方面,这个项目被要求快速交付并起到协助的作用,另一方面,项目的目标具有挑战性,旨在改进 SOTA 深度生成模型通常,研究新型神经网络架构需要大量的反复试验,这个过程需要六个月或更长时间

为了解决时间上的问题,该研究组织了一个模型开发团队和一个模型服务团队,通过与艺术家团队保持联系获得反馈,将其反映到模型开发和服务中,并在第一时间提供更新的模型,从而使他们保持一致。

Geneacute,Live! 的模型架构。

在这里,卷积堆栈的主要任务是使用 CNN 层从 mel 频谱图中提取特征conv—stack 包括一个具有批量标准化的标准 CNN 层,一个最大池化层和一个 dropout 层,激活函数是 ReLU最后为了规范输出,这里使用了全连接层

Conv—stack 架构。

在训练数据方面,Geneacute,Live! 使用了几百首早期的 LLAS 歌曲,《歌之王子殿下》的歌曲,以及音乐游戏引擎「Stepmania」中可公开访问的音乐和乐谱。

模型开发

该模型是由 KLab 和九州大学合作完成的两个团队之间需要一个基于 Web 的协作平台来共享源代码,数据集,模型和实验等具体来说,该研究用于模型开发的系统架构如下图所示

模型服务

为了使乐谱生成程序可供艺术家按需使用,它应该方便艺术家自行使用而无需 AI 工程师的帮助并且由于该程序需要高端 GPU,将其安装在艺术家的本地计算机上并不是一个合适的选择该模型服务系统架构如下图所示

实验结果

为了度量该方法中每个组件的性能,研究者在「Love Live! All Stars」数据集上进行了消融实验。

下表 3 的结果表明 Geneacute,Live! 模型优于此前的 SOTA 模型 DDC。“SMTOWNLIVE2022:SMCUEXPRESSKWANGYA”从2008年开始在世界主要城市举办,不仅创下多个纪录,2012年通过虚拟国家宣布仪式,将SM娱乐超大型虚拟国家MUSICNATIONSMTOWN正式化的SMTOWNLIVE,以“KWANGYA”虚拟空间聚集所有艺人们的“SMCUEXPRESSSTATION”为背景,集SM娱乐追求的演出内容之大成。

为了评估节拍指导的作用,消融实验的结果如下图 9 所示。

使用未修改版 conv—stack 训练模型和当前 Geneacute,Live! 模型的结果差异如下图所示。。

Geneacute,Live! 模型一次性训练全部难度模式,为了查看这种训练方式的优势该研究将其与每种难度模式单独训练的结果进行了比较,结果如下图所示

LoveLive! 企划的活动范围包括动漫,游戏和真人偶像团体音乐游戏《Love Live! School Idol Festival》自 2013 年开始运营,截至 2019 年 9 月在日本拥有超过 2500 万用户新一代的游戏《Love Live! School Idol Festival All Stars》目前在全球已有上千万用户

Geneacute,Live! 的研究,说不定也能让音游在 AI 领域里火起来。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。