🎤 テキスト読み上げAI性能テスト環境 - サービス比較

📊 サービス概要比較表

サービス名	提供者	ローカル実行	無料利用	対応言語	R-18対応	主な特徴
にじボイス (Niji Voice)	株式会社テクノスピーチ	❌ なし	✅ 月1000文字	日本語	❓ 要確認	感情豊か、商用利用可
Google Cloud TTS	Google LLC	❌ なし	✅ 月1-4M文字	40+言語	✅ 許可	エンタープライズ級、多言語
StyleTTS2/Style-BERT-VITS2	オープンソースコミュニティ	✅ あり	✅ オープンソース	モデル依存	🔧 利用者判断	最先端品質、スタイル制御
Qwen2.5-Omni	Alibaba Cloud	✅ あり	✅ オープンソース	多言語	🔧 利用者判断	マルチモーダル対応

🔍 各サービス詳細情報

🌈 にじボイス (Niji Voice)

主な特徴

感情豊かなAI音声生成サービス（旧DMMボイス）
100種類以上の音声キャラクター
商用利用可能（クレジット表記必須）
ロボット的でない自然な音声表現
WebサービスとAPI両方提供

API設定パラメータ

音声ID (voice_id) - キャラクター選択
スクリプト (script) - 読み上げテキスト
速度 (speed) - 話速制御 (0.5-2.0)
音声形式 (format) - MP3出力
感情表現 - テキスト内容に応じた自動調整

価格・アクセス情報

無料枠：月1,000クレジット（1文字=1クレジット）

API料金：10,000文字あたり825円（前払い制）

新規登録特典：5,000クレジット無料（現在無期限）

APIキー：platform.nijivoice.comから取得

クレジット表記：「にじボイス」または「NIJI Voice」必須

❓ R-18コンテンツ対応

要確認：利用規約に明確な記載なし

推奨：商用利用前に公式サポートへ問い合わせ

注意：元DMMボイスとしての経緯もあり、慎重な確認が必要

公式サイト API文書 Webアプリ API管理

🌐 Google Cloud Text-to-Speech

主な特徴

エンタープライズ級ニューラルテキスト読み上げサービス
Googleの機械学習技術を活用
40+言語で220+音声をサポート
WaveNet（ニューラル）とStandard音声を提供

API設定パラメータ

音声選択 - 数百の音声から選択
言語・ロケール - 多言語サポート
話速 - 話す速度制御
ピッチ - 音声ピッチ調整
ボリュームゲイン - 音量制御
SSML対応 - 発音制御の高度なマークアップ
音声エンコーディング - 複数出力形式（MP3、WAV、OGG）
サンプルレート - 各種音質オプション

価格・アクセス情報

無料枠：WaveNet音声月100万文字、Standard音声月400万文字

料金：無料枠超過後は百万文字あたりの従量課金

APIキー：Google Cloud Consoleから取得

認証：サービスアカウントキーまたはOAuth 2.0

✅ R-18コンテンツ対応

基本的に許可：利用規約に明示的な禁止記載なし

条件：Google Cloud Platform利用規約およびAUP（Acceptable Use Policy）の遵守

注意：濫用検出時はGoogle側でログ記録される可能性あり

製品ページ API文書料金情報

🎨 StyleTTS2 / Style-BERT-VITS2

StyleTTS2の特徴

スタイル拡散と敵対的学習を使用した最先端TTSモデル
人間レベルの音声品質
参照音声なしでのスタイル生成
大規模音声言語モデルとの統合

Style-BERT-VITS2の特徴

制御可能な音声スタイルと感情表現
表現の強度制御
日本語特化版（JP-Extra）利用可能
CPU動作可能（推論にGPU不要）

インストール・API利用

pip インストール：pip install style-bert-vits2
GitHubからの手動インストール
Windows バッチインストールスクリプト
FastAPI サーバー - HTTP リクエスト対応
ローカルサーバー配置 - 統合用

価格・アクセス情報

完全無料：オープンソースモデル

ローカル実行：完全オフライン動作可能

モデル配布：Hugging Face、GitHub

🔧 R-18コンテンツ対応

利用者判断：オープンソースのため技術的制限なし

法的責任：利用者が適用法令に従って利用

注意：配布プラットフォームの規約は別途確認必要

StyleTTS2 GitHub Style-BERT-VITS2 GitHub

🤖 Qwen2.5-Omni（Alibaba）

重要な注意

Qwen-Audioは主に音声理解モデルであり、TTSサービスではありません。AlibabのQwenシリーズでTTS機能を持つのはQwen2.5-Omniです。

Qwen2.5-Omniの特徴

リアルタイム音声生成が可能なエンドツーエンドマルチモーダルモデル
マルチモーダル入力処理（テキスト、音声、画像、動画）
リアルタイムストリーミング応答
自然な音声合成機能

API利用方法

OpenAI API形式と互換
複数プラットフォーム対応（Hugging Face、ModelScope、DashScope）
Transformersライブラリ経由での利用

価格・アクセス情報

完全無料：オープンソースモデル

ローカル実行：モデルダウンロード後のローカル実行可能

🔧 R-18コンテンツ対応

利用者判断：オープンソースのため技術的制限なし

マルチモーダル：音声・画像・動画対応のため幅広い用途

注意：モデル配布元やAPI提供者の規約は別途確認

Qwen2.5-Omni Qwen-Audio 文書

💡 テスト環境構築の推奨事項

ローカル環境での開始推奨

Style-BERT-VITS2：高品質音声、感情制御可能
Qwen2.5-Omni：最新技術、マルチモーダル対応

クラウドサービスでの拡張

にじボイス：日本語感情表現、商用利用可
Google Cloud TTS：多言語対応、企業級品質