この記事は 夏のブログリレー2025 6日目のものです
他の記事を見たい方は こちら↑ のリンクをクリック!
title image: akihiyo 様
はじめに
初めましての方は初めまして、科学大デジタル創作同好会所属の学士 3 年@Alt--erです。traP ではSysAd 班およびGame 班で主に活動しています(他にもグラフィック,サウンドに所属しています)。最近はゲームのプロジェクト進捗の日々を過ごしています。
さて、今回の記事は筆者が最近ハマりだしている合成音声界隈にまつわる記事です。自分自身まだまだ知らない部分も多いですが、この記事を通して一緒にハマってくれる人を密かに求めています()。前提知識は特にないので、気軽に読んでくださればです。
ずんだもん とは

もとを辿れば、東北地方の地域振興にキャラクターを導入して盛り上げよう、という経緯から誕生したキャラクターです。
ただ現在では、実況動画等に用いられる機械の声(合成音声)のキャラクターとしての方が知名度が高いかもしれません(少し前の世代の人にとっては、ゆっくりボイスのようなもの といえば通じるかもしれません)。以下のリンク先にあるような絵のキャラクターが喋る動画を見たことがあるのなら、その声です。
この記事では、合成音声としてのずんだもんについて取り上げていきます。キャラクターとしてのずんだもんも色々面白いのでそのうち書くかもしれない...
合成音声について
先ほど「合成音声」という言葉が出てきましたが、この言葉を初めて聞いた人もいるでしょう。ちょっとだけ説明。
音声は「波」であり、それが鼓膜にたどり着くことによって私たちは「聴く」事ができます。いわゆる話し声も音声であるため、波の形態をしています。その話し声の波形を作り出す技術を用いて生成された音声を「合成音声」と呼びます。(技術そのものは「音声合成」とかいうらしい)
例えばずんだもんの場合、元となる声優さんのセリフ(ずんだもんの場合:4600単語+300件程度の朗読)をAIに学習させ、与えられたテキストに応じて適切な波形を作り出すモデルを作成しています。このモデルを通して生成された声が、合成音声と言われるものです。

近年では機械学習技術の進歩もあり、音声合成の領域ではその技術が広く利用されています。なお音声の合成方法は他にもあり、もととなる声優さんのない、完全に人工的な音声も研究,開発されています(「足立レイ」「九十九シオン」など)。
最近では情感豊かな声を生成できるソフトも増加し、動画/楽曲制作などにおける表現を拡げるツールとしてクリエイターを支えています。
合成音声の種類
ところで、合成音声にはその用途によって様々な種類があります。どこまで細かく区切るかもありますが、大きく「トークボイス」/「ソングボイス」の区分けがあります。
その名の通り、前者はセリフの読み上げに、後者は歌唱に特化したタイプの音声を出力するモデルになっています。
トークボイスでは、アクセントやイントネーション、感情パラメータ等を細かく設定でき、会話として聞いてて違和感のない音声を生成するモデルが作られています。

一方で、ソングボイスでは、声の高低を音階で調整する、息づかいやピッチを調整する機能など歌声に特化したパラメータ調整ができるモデルになっています。

同じキャラクターでも複数の製品がある場合がありますが、これは適用しているモデルの違いによるものです(トークボイス版/ソングボイス版 のような組み分け)
tips::皆さんの中には、「ボカロ(VOCALOID)」,「ボイロ(VOICEROID)」といったワードを聞いたことがある方もいるでしょう。
前者はソング系/後者はトーク系の合成音声の製品名となっています。ただ、代表的な製品であるため、複数の製品群をまとめてこのように呼んだりすることも多いです。
たくさんいるずんだもん
さて、タイトル回収に参りましょう。先述したように、同じキャラクターでも、用いられている技術(生成モデル)によって生成される声、調整できるパラメータに違いが生じます。そのため、同じ声の雰囲気でありながらも異なる特徴を持つ表現が可能になっています。
そこで、今回は「ずんだもん」を例に何種類かのソフトを見ていきましょう
トーク
「読み上げ」に特化したソフト群
VoiceVox(フリー)

無料で利用可能な中品質の読み上げソフト。おそらく大半のずんだもんボイスはこのソフトで生成されています。
近年見られる、ずんだもん解説動画等の急速な拡大の立役者とも言えるようなソフトウェアでしょう。
中品質とて、適切なイントネーション調整により違和感のない読み上げが可能。一部感情表現時には音割れが発生することもありますが、無料で使えることを踏まえれば十分な性能です。割れることを逆手に表現として取り入れ、それが特徴付けの一つとなっているキャラクターもいます。

Voiceger(フリー)

こちらは多言語(英語/中国,広東語/韓国語)に対応したモデル。2月には生成用ソフトウェアが提供されていましたが、先日より使いやすいGUIインストーラー版が公開されました。
特徴として、英語含む複数の言語での自然な発音ができること、詳細なパラメータ調整はまだできないが複数の感情表現が可能であること、同じ感情スタイルでも生成のたびに若干雰囲気が変化するといったものがあります。
まだ使い勝手が良い、というほどではありませんが今後の進展に期待したいところです。
Voicepeak(実質有料)
こちらは単体では販売されておらず、基本的にはずんだもん関連の別キャラクターの製品に付属してくるものとなります。
Voicepeakは、高品質で豊かな感情表現が可能な音声合成モデル群を用いた製品です。感情表現の強みや安定した音声の生成能力等、有料級も納得な品質といえるでしょう。
「東北きりたん」などのキャラクターのついた音声ライブラリも多く存在しており、愛用者も多くまた動画,キャラクターにも人気があります。また、汎用ボイスは企業・自治体にも利用されており、その確かな品質が伺えます。
ソング
「歌唱」に特化したソフト群
VoiceVox
先ほどトークのソフトで紹介したソフトですが、ソングボイスにも対応しています(同じソフトですがインタフェース等は大きく異なるため、実質的には別ソフトです)。
フリーですが、基本的な歌唱の作成、ピッチの手書きによる調整、複数トラックの合成などの機能は整備されています(この辺りのソフトについてあまり知見がないため、他にどのような機能があるのかあまり分からず...)。
これを用いて以下のようなサウンドロゴもどきを作ってみました。DAW辺りはほぼ初めてだったので色々適当ですが、それでも何かしらはできました
UTAU(フリー)
フリーで使えるボーカルシンセサイザー(歌声合成ソフト)として、2010年代より長年使われているソフトウェア。ずんだもんの声も、利用可能なライブラリとして提供されています。
NEUTORINO(本体,ずんだもんライブラリはフリー)
2020年にリリースされ、現在もアップデートが続けられているボーカルシンセ。公式サイトを見ると、"AI Singing Voice Generator" とあるようにこちらも歌声生成AI技術を用いたソフトウェアとなっています。
"ずんだもんに歌わせてみた"系の作品で用いられているずんだもんの声には、NEUTORINOで生成されたものも多く見かけます
Cevio AI[Voisona] (本体フリー,ずんだもんライブラリ有料)
こちらもAI技術を用いた製品。歌わせてみた系の作品で多く利用されている音声の1つです。
ずんだもん以外にも多くのライブラリを擁しているソフトウェアで、多数の作品が製作されています
他にも、N-airやSeirenvoiceなどといったボイスチェンジャーといった形で提供されているずんだもんの声もあります。
モーショントラッキング等の技術と合わせて、VTuber的な使い方をすることもできるようです。
おわりに
ずんだもんは、もとの学習データは同一の声優さんの声でありながらも、モデル/ライブラリの作成手法などによって様々な声模様を醸すソフトウェア群として多くのクリエイターを支えています。自分もそんなずんだもんユーザーの一人です。
動画の視聴者にとってはただのよく聞く音声かと思われるかもしれませんが、その背景にある技術、キャラクター性を活かした創作に触れることでより興味を持てる世界でもあります。環境構築の敷居も下がった今、あなたもずんだもんをお迎えして創作のお供にしませんか?
次回は @comaviusさん,@Ida-ji
さんの記事です!お楽しみに