1. はじめに

この文章は「日本音響学会学生・若手フォーラム Advent Calendar 2023」7日目 (12/07) の記事です．まずは，この記事を執筆する機会・場を提供してくださった日本音響学会 (ASJ) 学生・若手フォーラムの皆様に感謝いたします．ありがとうございました😊

1.1. 本記事の著者について

東京大学猿渡・高道研究室助教の齋藤佑樹と申します．普段は深層学習ベースの音声合成（テキスト音声合成・声質変換）について研究しています．今年の3月まで ASJ 学生・若手フォーラムに所属していて，2019年から2022年までフォーラムの副代表をやっていたりしました．研究業績等はここ（私の個人ホームページ）にまとまっています．X（旧 Twitter）のアカウントはこれです．

1.2. 本記事の3行まとめ

東京農工大学の矢田部先生と，スマブラプレイヤーの Shogun さんとの共著で，音響×スマブラの研究をした
研究成果は ASJ の研究発表会で発表し，ASJ の英文誌 (Acoustical Science and Technology: AST) にも採録された
アカデミアはいいぞ

2. どんな研究？

本記事をお読みいただいている皆さんの多くは「そもそも音響×スマブラの研究って何？🤔」という疑問を抱いているのではないかと思います．ざっくり説明すると，今回の研究は「スマブラをプレイしている最中のコントローラー操作音（ボタンを押したりするときのカチカチ音など）を収録し，それを使ってゲームのシーンを分析できたりしないか？」という仮説を検証するものです．具体的には，「コントローラー操作音から，プレイヤーが操作しているキャラクターを識別するタスク」を考え，それを深層学習ベースの技術で実験的に評価しました．

2.1. 手法

提案法の概念図を図1に示します．まず，コントローラー操作音から音響特徴量 (対数メルフィルタバンク特徴量 & その動的特徴量 Δ, ΔΔ) を抽出します．その後，この音響特徴量を DNN に入力し，プレイヤーによって操作されているキャラクターを識別します．

図1. コントローラー操作音からのキャラクター識別概念図（[Saito, Yatabe, and Shogun, 2023] より引用）

2.2. データ

共著者の Shogun さんに協力していただき，ウルフ，ジョーカー，フォックス，ポケモントレーナー，ホムラ&ヒカリの5キャラクターを操作したときの，コントローラー操作音を収録しました．タスクを簡単にするため，対戦相手のキャラクターはスネークで固定し，スマブラの上級者（Ike さん，のまちさん，チャックさん）に操作していただきました．対戦のルールはアイテム・切り札なしの2ストック先取とし，各キャラクターについて8戦ずつ収録しました．相手の操作音が混入するのを防ぐために対戦はオンラインで行い，前方に設置した超指向性マイクロホンによってコントローラーが発する音のみを録音しました．表1に今回収録したデータの時間長（DNN の学習・検証・評価サブセットごと）を示します．ストック制での対戦のため，キャラクターごとのデータ量にばらつきが生じているのが確認できます．

表1. 今回収録したコントローラー操作音の時間長（[Saito, Yatabe, and Shogun, 2023] より引用）

2.3. キャラクター識別 DNN の学習と評価

コントローラー操作音を音響シーンとみなせば，今回のタスクは音響シーン分類・音響イベント検出と類似しているといえます．この観点から，本研究では DCASE2021 (音響シーン分類・音響イベント検出に関する国際コンペティション) Task4 のベースラインモデルを参考に，Convolutional Recurrent Neural Network (CRNN) ベースの DNN をキャラクター識別に用いました．モデルの入力は平均0, 分散1になるように正規化された対数メルフィルタバンク特徴量に ∆, ∆∆ を結合させた3チャネル，2048フレームのセグメントであり，CNN の出力に対してフレーム方向に global average pooling を適用した後に，全結合層を通って5キャラクターの事後確率を予測するように構成しました．その他の詳細な実験条件等の説明は論文を参照してください．