東北地方を応援する萌えキャラの運営会社が、キャラの声を生かしたAI研究向け学習データを無料で公開している。直接的な収益にもならず、研究者に使ってもらえるとも限らないのに、なぜそのような取り組みを行っているのか。データを公開した萌えキャラ運営会社SSS仙台市)の小田恭央CEOに話を聞いた。

【その他の画像】

●萌えキャラ東北ずん子」の運営会社

 SSSは東北応援キャラ東北ずん子」を運営する企業で、グッズの製作や地域振興イベントなど、ライセンスビジネスを展開している。ヤマハの歌声合成ソフトVOCALOID」用音源の販売などは行っているが、AIの技術開発を行っているテクノロジー企業というわけではない。「AI向けの学習データを無料公開」といわれると少し唐突にも聞こえる。

 同社は2019年11月、研究者向けに「東北きりたん歌唱データベース(DB)」を無料公開した。東北ずん子の関連キャラ東北きりたん」の歌声を約1時間分収録した音声データと、機械学習などに使うデータをまとめたファイルセットだ。

 歌唱DBは、AIによる歌声の分析や合成の研究などに使用できる。声をあてているのは声優の茜屋日海夏さん。歌唱DBの制作には1年以上を掛けたというが、さらに同社は第2弾として別の関連キャラ東北イタコ」の歌唱DBと、口の動きと音声データセットにした“読唇術DB”など、新たなDBも無料で公開しようとしている。

 SSSがこの歌唱DBを研究やAI開発に使うわけではない。企業による商用利用も基本的には認めていない。

 自社の収益には直接つながらないにもかかわらず、なぜ無料でデータを公開するのか。その背景には「AIの研究を促進する」以外に「腐らないコンテンツを作りたい」「女の子の声になりたい」など、さまざまな理由があった。

ファンを創作に巻き込んで腐らないコンテンツを作る

 歌唱DBの無料公開について、小田社長は「普通の会社だと稟議(りんぎ)が下りないでしょう」と語る。この取り組みの狙いは「収益よりも、莫大な広報効果に投資するもの」だという。

 「腐らないコンテンツを作っている」──小田社長はキャラクタービジネスを展開する中で「コンテンツ制作のコストは非常に大きい」と前置きしながらも、コンテンツを放置しているとファンの興味が薄れていくので、常に新しいものを作り続ける必要があると話す。

 SSSはこれまで、VOCALOID用音源「東北ずん子」や、AHS音声合成ソフトVOICEROID」用音源「東北きりたん」といったクリエイター向けのツールを他社の協力の下でリリースしてきた。クリエイターツールを使って作品を生み出してもらえる状態にすることで、非公式コンテンツが出続けるような仕組みを整えた。ツールだけでなく、AI歌声合成のような最先端技術に飛びつくことで、イノベーターにファンになってもらえる側面もあるという。

 実際、2月には一般のエンジニア東北きりたんの歌唱DBを使ったAI歌声合成ソフトNEUTRINO」を開発して無料でリリースした。楽譜を入力すると、AIが人間らしい歌声を自動生成する仕組みで、ニコニコ動画にはNEUTRINOの公開から約4カ月で3000件近い動画か公開されるなど話題になった。動画の再生数は多いもので40~60万回に上る。

 小田社長によると、NEUTRINOで作った歌声は、音楽業界で楽曲制作時の仮ボーカルに使われたり、楽曲のコンペティションに提出する曲でボーカルに採用されたりと、プロの現場でも使われ始めているという。

 小田社長は「広報の効果は、数年後にライセンス収入として帰ってくるだろう」と見込んでいる。

●声優の“いい声”で研究者のモチベーションを上げる

 AI開発では大量の学習用データが必要だ。しかし、歌声の分野に関しては、AI開発に適したデータがほとんどないという。ネット上にある歌の多くがピアノギターをはじめ他の楽器と一緒に鳴っているため、歌声単体のデータを見つけにくい。

 名古屋工業大学東北大学など、AIによる歌声合成を研究している大学の研究室では、プロやアマチュアの歌手を雇って研究用の歌声を収録する場合もある。

 SSSが公開した東北きりたん歌唱DBと、制作予定の東北イタコ歌唱DBは、アニメや音楽ライブでも活躍している茜屋さんや、木戸衣吹さんなどの女性声優が声を充てている。収録楽曲も茜屋さんなどが参加している声優アイドルユニットi☆Ris」が歌っている曲を採用した。

 SSSの小田社長は「研究者のテンションを上げるために(われわれが)手伝えるのは、いい声を提供すること」と話す。大学に限らず、一般のシステムエンジニアにも歌唱DBを使ってほしいとしており、「うちが(歌唱DBを)公開すると、オープンソースソフトを作る人も出てくる可能性があって面白い」と、NEUTRINOに続くような研究の広がりに期待を寄せている。

 Twitter上では、一般の歌声合成ソフトファンが、東北きりたんの歌唱DBをきっかけに、類似の機械学習向け歌唱DBを作る流れも出ている。

明治大学と1年以上かけて歌唱DBを制作

 東北きりたん歌唱DBは、明治大学音声合成の研究を行っている森勢将雅専任准教授のアイデアから生まれた。

 18年10月、森勢准教授はTwitterで「統計的歌声合成用の歌唱データセットの収録をやらせてもらえないか」とツイート。それに目を付けたSSSコンタクトをとり、制作が始まった。

 SSS東北きりたんの声を担当していた茜屋さんの声優事務所に企画書を持ち込んで、音声合成技術の基礎的な内容を説明しながら担当者を説得。その後は茜屋さんと収録スタジオスケジュール調整に奔走したという。

 収録したのは50曲。実際に声が出ている時間だけで1時間近い音声データになる。収録は5月。5回に分けて行ったため、スケジュール調整も複数回に及んだ。

 収録後はAI開発などに必要となるデータの準備が続いた。音声に対応する楽譜データを作った他、1時間近くに及ぶ茜屋さんの音声ファイルに「○○秒から○○秒までが子音k、○○秒から○○秒までが母音a」と、全ての音素に印(ラベル)を付けていった。この作業は森勢准教授の研究室所属の学生が2人で半年掛けて行ったという。

 最終的にSSSが歌唱DBをリリースしたのは、森勢准教授のツイートから1年以上たった19年11月中旬だった。

●次の挑戦は「女の子の声になるにはどうしたらいいのか」

 これまでの歌唱DBに続く新たな取り組みも始まっている。SSS7月7日、新たな機械学習向けDBの制作に向けたクラウドファンディングを始めた。作りたいのは、人が言葉を発している際の口の動きと音声をセットにした音声合成DBだ。

 小田社長は、この音声合成DBが構築できれば、人が言葉を発している様子を収めた無音の動画を入力すると、読唇術のように口の動きを読み取って、キャラクターの音声を合成するシステムができるのではないかと考えている。

 口の動きに合わせて音声を合成する手法は、英オックスフォード大学や九州工業大学などが研究を進めている技術で、手術などで声帯を失い、声を出せなくなった人が再び声を出す技術として期待されている。映像に写る口の動きから発話内容を推定する精度は80%から90%と、研究途上にある。

 この技術は自身の姿を変えて楽しむようなコンテンツと相性がいい。小田社長はそう考えている。動画共有アプリTikTok」の映像加工技術や、アバターを身に付けてコミュニケーションできるVRアプリなど、見た目を変える技術は既に登場しているが、音声はまだ発展途上にあるからだ。「美少女になりたいというのは人類全体の希望だと思う」(小田社長)

 今後もSSSクラウドファンディングで資金を集め、大学や声優事務所と連携しながら歌唱DBや読唇術DBの制作して研究者などに無料で公開する予定だ。クオリティーの高い学習データは、大学の研究者だけでなく個人の開発者も刺激し、NEUTRINOや個人の創作のようなムーブメントがまた巻き起こりそうだ。

東北ずん子のWebサイト