目次

1. はじめに

この文章は「日本音響学会 学生・若手フォーラム Advent Calendar 2023」7日目 (12/07) の記事です.まずは,この記事を執筆する機会・場を提供してくださった日本音響学会 (ASJ) 学生・若手フォーラムの皆様に感謝いたします.ありがとうございました😊

1.1. 本記事の著者について

東京大学 猿渡・高道研究室 助教の齋藤佑樹と申します.普段は深層学習ベースの音声合成(テキスト音声合成・声質変換)について研究しています.今年の3月まで ASJ 学生・若手フォーラムに所属していて,2019年から2022年までフォーラムの副代表をやっていたりしました.研究業績等はここ(私の個人ホームページ)にまとまっています.X(旧 Twitter)のアカウントはこれです.

1.2. 本記事の3行まとめ

2. どんな研究?

本記事をお読みいただいている皆さんの多くは「そもそも音響×スマブラの研究って何?🤔」という疑問を抱いているのではないかと思います.ざっくり説明すると,今回の研究は「スマブラをプレイしている最中のコントローラー操作音(ボタンを押したりするときのカチカチ音など)を収録し,それを使ってゲームのシーンを分析できたりしないか?」という仮説を検証するものです.具体的には,「コントローラー操作音から,プレイヤーが操作しているキャラクターを識別するタスク」を考え,それを深層学習ベースの技術で実験的に評価しました.

2.1. 手法

提案法の概念図を図1に示します.まず,コントローラー操作音から音響特徴量 (対数メルフィルタバンク特徴量 & その動的特徴量 Δ, ΔΔ) を抽出します.その後,この音響特徴量を DNN に入力し,プレイヤーによって操作されているキャラクターを識別します.

図1. コントローラー操作音からのキャラクター識別 概念図([Saito, Yatabe, and Shogun, 2023] より引用)

図1. コントローラー操作音からのキャラクター識別 概念図([Saito, Yatabe, and Shogun, 2023] より引用)

2.2. データ

共著者の Shogun さんに協力していただき,ウルフ,ジョーカー,フォックス,ポケモントレーナー,ホムラ&ヒカリの5キャラクターを操作したときの,コントローラー操作音を収録しました.タスクを簡単にするため,対戦相手のキャラクターはスネークで固定し,スマブラの上級者(Ike さんのまちさんチャックさん)に操作していただきました.対戦のルールはアイテム・切り札なしの2ストック先取とし,各キャラクターについて8戦ずつ収録しました.相手の操作音が混入するのを防ぐために対戦はオンラインで行い,前方に設置した超指向性マイクロホンによってコントローラーが発する音のみを録音しました.表1に今回収録したデータの時間長(DNN の学習・検証・評価サブセットごと)を示します.ストック制での対戦のため,キャラクターごとのデータ量にばらつきが生じているのが確認できます.

表1. 今回収録したコントローラー操作音の時間長([Saito, Yatabe, and Shogun, 2023] より引用)

表1. 今回収録したコントローラー操作音の時間長([Saito, Yatabe, and Shogun, 2023] より引用)

2.3. キャラクター識別 DNN の学習と評価

コントローラー操作音を音響シーンとみなせば,今回のタスクは音響シーン分類・音響イベント検出と類似しているといえます.この観点から,本研究では DCASE2021 (音響シーン分類・音響イベント検出に関する国際コンペティション) Task4 のベースラインモデルを参考に,Convolutional Recurrent Neural Network (CRNN) ベースの DNN をキャラクター識別に用いました.モデルの入力は平均0, 分散1になるように正規化された対数メルフィルタバンク特徴量に ∆, ∆∆ を結合させた3チャネル,2048フレームのセグメントであり,CNN の出力に対してフレーム方向に global average pooling を適用した後に,全結合層を通って5キャラクターの事後確率を予測するように構成しました.その他の詳細な実験条件等の説明は論文を参照してください.