はじめに:自分の声でAIに喋ってもらうことを思いついた日
動画コンテンツの台本を書いていた、ある夜のことでした。書き終わった原稿を眺めながら、「これ、誰の声で読まれるんだろう」と止まったんです。
うちの会社にはAIの仮想チームがいて、その子たち向けの声づくりはすでに進めていました。テトの声、Tikiの声と順番に立ち上げていって、キャラ用の声は手元に揃ってきていた。でも、代表として自分が前に出る場面のナレーションは、また別の話だな、と思っていました。
普段の自分の声をそのまま使えばいい、という話でもあるんです。実際そうしてきたし、それで困っていたわけでもありません。ただ、収録のたびに机に向かって、息を整えて、撮り直して、というのを繰り返すのが、地味に重くなってきていました。人前で話すのは、たぶん得意なほうではないです。打合せ前は緊張するし、収録のスケジュールを後ろ倒しにしたまま2週間経っていることもありました。
そこで、もう一つの選択肢が頭に浮かんできました。自分の声で AI に喋ってもらう、というやり方です。テトやTikiにキャラを乗せたのと同じ仕組みで、今度は自分自身の声をベースにして、AIに代わりに読んでもらう。動画の冒頭ナレーションや、議事録の読み上げや、自分が直接喋らなくても成立する場面を、もう一人の自分に任せてみる。
うまくいくのかは、やってみないと分かりませんでした。ただ、テトとTikiでひととおりつまずきは経験していたので、「失敗が起きにくい初期状態」だけは見えていた。それなら、自分の声でも一回試してみよう、と思ったのが始まりでした。
Tiki なぜ、声優さんに頼まなかったのか
選択肢として、プロのナレーターさんに依頼する道もありました。仕上がりの安定感と速さなら、たぶんそちらのほうが確実です。実際、ナレーション制作のサービスはいくつもあるし、品質も日々上がっています。
それでも自分の声でやろう、と決めた理由はいくつかありました。順番に書いておきます。
1つ目は、ブランドの統一感です。コールテンのコンテンツでは、テト・Tikiが文字とイラストの中で生きていて、彼らの声もすでにあります。そこに代表の私が加わるとき、別の人の声で代弁してもらうと、どうしても接ぎ目が見える気がしました。誰がどの声で喋っているかが、視聴者にとって一段わかりにくくなる。それなら、自分の声をそのまま素材にしておいたほうが、後々シンプルだと思いました。
2つ目は、声を「素材」として手元に持っておきたかったことです。プロにお願いした音声は、収録した瞬間に完成形が決まります。後から少し落ち着かせたい・少し明るくしたい、という調整は基本できません。一方で、自分の声を学習させたモデルなら、出力時のスタイルや話速で雰囲気を寄せていける。「あとから手を入れられる声」を、とりあえず1つ持っておきたかったんです。
3つ目は、コスト。これは正直に書きます。Colab Pro の月10ドルだけで、何度でも録り直して、何度でも学習を回せる。声優さんに依頼することを考えるとケタが2つくらい違いました。趣味と実用の中間みたいな試行錯誤を、気兼ねなく回せる予算感です。
ただ、ここで誤解してほしくないのは、プロに頼む選択肢を否定しているわけではない、ということです。決まった案件で確実に仕上げたいときは、プロに依頼するほうが速いし安定しています。両者は競合というより、用途で使い分ける関係だと思っています。私の場合は、たまたま「育てる側」が向いていた、という話です。
何を使ったか ― Style-Bert-VITS2 と Colab Pro
使ったツールはシンプルです。学習側に Style-Bert-VITS2(以下 SBV2)、計算側に Google Colab Pro(月額10ドル前後)、推論はローカルの Mac mini で動かしています。
SBV2 を選んだ決め手は3つありました。日本語で表現力が高いこと、Colab で学習が回せること、ローカル推論ができること。これがそろっていると、「クラウドに音声データを置きっぱなしにしなくていい」「学習だけクラウドの計算資源を借りる」という分担ができます。自分の声という、それなりにデリケートな素材を扱うときに、この分担はけっこう効きました。
Colab Pro は GPU 時間がほぼ使い放題に近いので、追加コストは事実上かかりません。学習を回しているあいだは別の仕事をしていられて、終わったらモデルファイルが Drive に保存される。それをローカルにコピーすれば、すぐ推論に使えます。
立ち上げの軽さでいえば、たぶんクラウド型のサービスのほうがだいぶ楽だと思います。SBV2 は、Python 環境を組んで、データを用意して、学習を回して、推論コードを書いて、ようやく音が出る、という順番です。慣れていないと何度かつまずきます。私もテト・Tikiの段階でだいぶハマったので、自分の声を始めるときには「黄金パターン」がすでに手元にありました。これは大きな前提です。テト君とTikiちゃんに、声をつくった話のほうにも、その辺りの空気は書いてあります。
ボイスクローン作成サービスの比較 ― なぜ自前で作ったのか
「ボイスクローンって、もっと簡単に作れるサービスあるんじゃない?」と聞かれることが何度かあったので、自分が比較したときの整理も置いておきます。実際、いまは選択肢がかなり広がっていて、何を優先するかで答えが変わるテーマです。
2026年5月時点で、ボイスクローンや AI音声合成として候補にあがるものを、ざっくり横並びにするとこんな感じでした。料金や条件は変動するので、検討するときは必ず公式サイトで最新情報を確認してください。
| サービス | 料金感(月額) | 商用利用 | 日本語精度 | 学習データ要件 | 所感 |
|---|---|---|---|---|---|
| ElevenLabs | $5〜$330(プラン段階制) | プラン次第 | 中〜高 | 1〜30分 | 立ち上げが早く、品質も高い。継続コストが積み上がる前提 |
| Resemble AI | $30〜カスタム | 商用OK(要確認) | 中 | 50文以上 | エンタープライズ寄り。API利用で組み込みやすい |
| Murf AI | $19〜$79 | プラン次第 | 中 | プリセット中心 | カスタムボイスは上位プランの想定。動画ナレーション向け |
| CoeFont | 1980円〜カスタム | 個人/法人で別 | 高(日本語特化) | 数十分 | 日本語クオリティが高い。料金は段階制 |
| Voicevox | 無料(OSS) | キャラごとに利用規約 | 中〜高 | プリセット | カスタム声は不可。既存キャラ運用が前提 |
| Style-Bert-VITS2 | 無料(OSS)+ Colab Pro $10 | OSSライセンス準拠 | 高 | 5〜30分 | 学習コストはかかるが、モデルが資産として手元に残る |
※ 上の数値・条件は2026年5月時点での目安です。サービスの料金プラン・商用条件は頻繁に変わるので、実際に検討するときは各公式サイトで最新の記述を確認してください。
こうして並べてみると、「すぐ使う」ことが目的ならクラウド型のサービスが普通に強いです。ElevenLabsやCoeFontは、登録してデータを入れるだけで、その日のうちに自分の声に近いものを出してくれる。立ち上げの早さと品質の安定感は、自前学習で追いつくのが難しいレベルだと思います。
それでも僕が Style-Bert-VITS2 を選んだのは、いくつか自分側の事情がありました。順に書いておきます。
- 月額が積み上がる懸念。月数千円〜1万円台のサブスクは1つだとそうでもないですが、用途別に複数走らせると、年単位で見ると数万円のスケールになります。コンテンツ制作の固定費としては重くなる感覚がありました
- キャラを増やすたびに追加費用。テト・Tikiの声に加えて、自分の声、将来の別キャラの声と増えていくたびにプランを上げる構造だと、長期で組みづらい
- モデルが手元に残らない。サービス側で学習したモデルは、サービスが続く前提で使う形になります。停止やプラン改定があったとき、声の資産を持ち越せない可能性がある
- 声を「資産化」したかった。テトもTikiも、自分自身の声も、コールテンというブランドの一部です。ブランドアセットとして自社で保有しておきたかった
- Colab Pro $10 + 学習時間で済む見込みがあった。テト・Tikiですでに黄金パターンがあったので、追加コストの増分が読めていました
逆に言うと、上のどれも当てはまらないなら、クラウド型のサービスを選ぶほうがたぶん速いし楽です。「1本の動画のために、すぐ自分の声がほしい」だけなら、ElevenLabsで30分で立ち上がります。「日本語のクオリティを最優先で、社内利用中心」ならCoeFontも有力候補です。用途と時間軸で選び分けるテーマで、自前学習が一律に正解、というつもりはまったくないです。
僕の場合は「学習コストを払う代わりに、モデルを持ち続ける」選択肢のほうが、ブランドとして長く運用するときに馴染んだ、というだけの話でした。どちらの選び方も、入口の優先順位の違いだけだと思っています。
masaya-v1 ― 30 epoch、短時間学習で出てきたもの
最初に作ったのが masaya-v1 です。素材は手元にあった短めの録音を寄せ集めて、30 epoch / 480 step だけ回しました。学習時間はおおよそ1時間ちょっと。「とりあえず一回、自分の声でモデルを作ってみる」という温度感でした。
出てきた音声は、最初に再生したときは「お、自分っぽい」と思いました。声質はわりと近い。録っていない台詞が、自分っぽい声で読まれてくる時点で、それなりにインパクトはあります。ただ、しばらく聞いていると違和感が積み上がっていきました。
具体的に挙げると、こういうところでした。
- 語尾の伸びが均一で、ちょっと棒読みっぽい
- 抑揚が浅く、感情の上下に乏しい
- 自分の癖(少し早口になるところ、息継ぎの位置)が出ない
- 短い文は自然なのに、長い文の途中で抑揚がリセットされる
合成音声としては「悪くない」のですが、自分の声として聞くと「あ、これは機械っぽい」と感じる、というラインでした。たぶん、自分の声だと耳のチェックが厳しくなるんだと思います。他人の声なら気にならないであろう揺らぎが、自分の声だと「自分はそうは喋らない」と分かってしまう。
ここで一回、立ち止まりました。短時間学習でこのレベルなら、たぶん素材と学習量を増やせばもう一段行ける、という見立てがあったので、masaya-v1 はテスト版として置いておいて、masaya-v2 にやり直すことにしました。
Tiki masaya-v2 ― 25分録り直し、100 epoch でじっくり
v2 で変えたのは、ざっくりこの3点です。
- 音声素材を25分くらい録り直した(説明文・会話文・少し感情を込めた台詞を混ぜる)
- 1日で全部録らない(複数日に分けて、声質の揺らぎを抑える)
- 100 epoch / 4600 stepまで回した(学習時間は約4時間)
素材作りは、けっこう地味な作業でした。ふだんの自分の声を「きれいに録る」のが、思っていたより難しい。緊張すると声が高くなるし、気を抜くと早口になる。「いつも通り読もう」と思うと、わざとらしくなる瞬間がある。途中で気付いたのは、普段の自分は、声に思っていたよりたくさんの表情を乗せているということでした。説明する時の声、軽く笑う時の声、ちょっと考え込む時の声。これがフラットな読み上げだけだと、AIが学習する素材として偏ってしまう。
なので、台本も意識的に種類を混ぜました。淡々とした説明、誰かに話しかけるような会話、ちょっと感情を込めた台詞、相づちっぽい一言。20分超えてくると喉がだれてくるので、その日はそこまで、と決めて、別日に続きを撮りました。
データ整備は、毎度ながら一番退屈な工程です。音量を整えて、無音の前後を切って、ファイル名と書き起こしの対応を揃える。書き起こしは Whisper 系で半自動化できますが、最後は耳で聞いて間違いを直す手作業が残ります。ここをサボると、学習中に「変な対応関係」を覚えてしまうので、丁寧に進めました。
学習は Colab で 100 epoch / 4600 step、約4時間。途中の経過を見ながら、loss の落ち方が想定どおりか、ときどき覗くだけで、あとは別の仕事をしていました。ここがクラウド学習のいちばん楽なところです。
v1 と v2 のスペック差を表にしておきます。
| 項目 | masaya-v1 | masaya-v2 |
|---|---|---|
| 音声素材 | 短時間(既存素材寄せ集め) | 25分・複数日に分けて録音 |
| 素材の種類 | 説明寄り | 説明・会話・感情つき台詞を混ぜる |
| epoch / step | 30 epoch / 480 step | 100 epoch / 4600 step |
| 学習時間(GPU) | 約1時間 | 約4時間 |
| 聴感の印象 | 機械っぽさが残る | 「あ、自分の声だ」と感じる |
完成して再生した瞬間 ― 「あ、自分の声だ」
v2 のモデルファイルが Drive に保存されたあと、ローカルにコピーして、推論コードに適当な台詞を入れて再生したときのことは、たぶん今後もしばらく覚えていると思います。
「テストです、これは私の声のクローン版で読み上げています」みたいな、なんでもない一文を入れて Enter を押した。スピーカーから音が出た瞬間、ちょっと笑ってしまいました。自分が言っていない台詞が、自分の声で読み上げられている。しかも、v1で残っていた「機械っぽさ」がだいぶ抜けていて、抑揚や息継ぎのリズムが、なんとなく自分っぽい。
もう少し癖のある台詞にして、たとえば「いやー、それはちょっと、どうなんだろうな」みたいな、考えながら喋るような文を読ませてみる。すると、語尾の伸び方や、文中で少しテンポが落ちるところまで、自分が普段やっている挙動に近かった。録音時の自分の癖が、そのままモデルに乗っているのが分かります。
「合成音声を作った」という感覚より、「もう一人の自分が喋ってくれている」のほうが近い気がしました。これは、テトやTikiの声を作った時とは少し違う体験で、自分のコピーに会っているような、むずがゆさのある瞬間です。怖いというほどではないんですが、「ふだんの自分とは別の経路から、自分の声が出てくる」という事実は、初回はちょっと整理がつかなかったです。
そのあと、何回か違う台詞を試して、家族に1つ聞いてもらいました。「言ってないんだけど、似てる」という感想が返ってきて、ようやく「あ、これでいったん完成にしていい段階だな」と思いました。
倫理 / なりすましリスク / 利用範囲
このトピックは、便利さの話とセットで書いておかないとフェアじゃない、と思っています。AI音声は、使い方によってはなりすまし・詐欺・無断利用に使える技術です。自分の声で作った場合でも、扱い方の線は最初に引いておきたいテーマでした。
いま自分が運用しているルールは、ざっくり以下のような感じです。あくまで「いまの私の運用」なので、絶対の正解というつもりはありません。
- モデルファイルはローカル中心で扱う。クラウドに置きっぱなしにしない。
- モデルファイルを外部に配布しない。共同制作者にも、必要最低限を超えては渡さない。
- 本人確認の代わりにはしない。「これは本人の声だから本物です」と主張する場面では使わない。
- 用途を明示する。動画やコンテンツで使うときは、AI音声であることを必要に応じて添える。
- 他人の声を本人の同意なしに学習させない。自分の声は自分の管理下にあるが、他人の声は別の話。
このうち、いちばん大事だと感じているのは最後の項目です。自分の声でやってみて分かったのは、音声合成は思っていたよりずっと「人格を運ぶ」ということでした。声には、その人の癖・テンポ・温度がそのまま乗ります。それを本人の許可なく学習させることは、「その人の何かをコピーする」ことと意味が近い。便利だからこそ、入口の設計を雑にしたくないテーマだと思っています。
仕事として誰かの声を扱う場合は、録音条件・利用範囲・解約条件まで含めて書面で整理しておく、というのを前提に置いています。「ちょっと声を貸してくれませんか」を口頭で済ませない、という地味なルールです。便利さの裏側で、相手の信頼を消費しないように気をつけたいところです。
Tiki 実際にどこで使っているか
完成したあと、いきなり大きな場で使うより、社内のちょっとした場面でこっそり試して、馴染んだものから外向きに広げていく、という順番にしました。いま実際に使っている場面を、軽く整理しておきます。
| 場面 | 使い方 | 気をつけていること |
|---|---|---|
| 動画ナレーション | 冒頭・中間の説明パートで使う | キャラ台詞には使わない(テト・Tikiの領域) |
| 議事録の読み上げ | 長文の議事録を耳で聞き直す | 機密ありのものはローカルで完結 |
| 朝のブリーフ音声化 | 移動中に予定と論点を聞く | 毎朝聞きすぎて飽きないよう、運用は緩く |
| 人前発言の補助 | 緊張しがちな解説部分を事前に音声化して練習 | 本番で AI音声をそのまま流すかは案件ごとに判断 |
| セミナー教材の補助ナレーション | 自分が話すと硬くなる箇所をAIで埋める | 必要に応じてAI音声であることを明記 |
自分にとって地味に効いているのは、議事録の読み上げと朝のブリーフ音声化です。文字で読むだけだと頭に入りきらない情報が、自分の声で耳から流れてくると、移動時間や家事の時間に少し進められる。「机に向かわないと進まない作業」のいくつかが、机の外でも進むようになりました。
動画やSNSでの活用は、まだ実験中のところもあります。台本を書く側のリズムが、声に乗せる前提で書くスタイルに切り替わりきっていなくて、慣らしている最中、というのが正直なところです。一旦は試行錯誤に振っています。
やってみて気づいたこと
1ヶ月やってみて、頭の中で整理がついたことをいくつか書いておきます。技術の話というより、自分との付き合い方の話に近いです。
- 声には、思っていたより人格が乗っている。声質だけでなく、テンポ・抑揚・癖までセットで「自分らしさ」になっている。それが学習素材の量で大きく変わる。
- 「再現できる失敗のしかた」が一番の財産。一発で成功させるより、何度でも同じ条件で再開できる作業に分解しておくと、不確実性が高くても前に進める。
- 不完全さが、味になる瞬間がある。語尾が少し揺れたり、固有名詞でアクセントを外したりするのが、完璧に滑らかな読み上げよりも「自分っぽさ」を支えてしまう場面があった。
- 自分の一部を渡している感覚。ベースが自分の声なので、再生されるたびに「自分の中の何かが、別の場所で動いている」感じがある。これは、文字や図版を作って手元から離す時とは少し違う。
- 用途は、後から増えていく。動画ナレーション目的で始めたのに、議事録読み上げや朝のブリーフのほうがハマった。決め打ちせずに、しばらく一緒に過ごすほうが、向く用途が見つかりやすい。
あとは、データ管理です。自分の声を学習させた以上、その音声データはそれなりに丁寧に扱わないといけません。「自分の声を、自分以外の用途に勝手に使われない場所に置いておく」のは、最低限の前提だと思っています。クラウドにそのまま置きっぱなしにせず、ローカル中心で扱うようにしています。
これから ― 自分のボイスクローンと、どう付き合っていくか
masaya-v2 ができたことで、自分の中で少し開けた景色がいくつかあります。
1つは、「人前で話すのが苦手」を補う相棒として使えそう、ということです。完全に代役にしてもらうというよりは、ナレーションや解説のうち、自分が直接喋らなくても成立する部分を、もう一人の自分に任せる。動画教材やセミナー資料で、私が直接喋ると硬くなる場面を、AI音声側で少しだけ和らげてもらう。そういう分担が組めるようになると、コンテンツづくりのテンポがだいぶ変わる気がしています。
もう1つは、コンテンツの量と質、両方の余白です。これまでは、私が机に座って収録できる時間が、そのままコンテンツの上限でした。これからは、AI音声側で巻ける部分があるぶん、本当に自分が喋らないといけない場面に集中できる。ナレーションの繰り返し作業から少し離れられて、企画や設計のほうに時間が回るようになりつつあります。
同時に、慎重さも要ると思っています。便利だからといって、自分の声を全方位に広げてしまうと、なりすましリスクの面積が広がっていきます。「使う場所」と「使わない場所」のラインを、運用しながら少しずつ整えていくつもりです。
もし「第二の自分を育てる」という発想に興味があれば、声よりも前段階の話を 「第二の自分」を育てるAI活用法 にまとめています。声づくりは、その先にある「もう一段の輪郭」みたいなものなので、文字側の自分の輪郭ができてから取り組むほうが、たぶん馴染みやすいです。テト・Tikiの声づくりについては、姉妹記事として テト君とTikiちゃんに、声をつくった話 に書いてあります。
Tiki