超～簡単に使える音声サービス、Azure Cognitive ServicesのText to Speech の使い方

この記事は更新から24ヶ月以上経過しているため、最新の情報を別途確認することを推奨いたします。

DXプラットフォーム 2部の崔です。

今回は書いた文章を音声に変更する Azure Cognitive Services の Text to Speech というサービスを紹介いたします。

YouTubeやTiktokといった動画サービスでは、動画の作成だけではなくナレーションも重要です。Text to Speech を利用することで、テキストデータからナレーションを自動的に作成することが可能になります。自身の声でナレーションを入れるといった方法と比較しすると時間的にもコスト的にもメリットは大きいと思います。

また Text to Speechは従来の機械的な音声ではなく、人が話しているのではと思うほどのクオリティです。ご興味があれば是非ご利用ください。
価格については以下をご参照ください。
Speech Services の価格

では、簡単なデプロイ＋使い方と料金について説明します。

▼デプロイ

①Azureポータルサイトにて、「すべてのサービス」→検索バーに「音声」と入力して検索後、「音声サービス」をクリック

②「作成」ボタンをクリック

③各項目を入力

▼使い方

④　https://speech.microsoft.com/portal　へログイン　
※別サイトへ移動します。Azureポータルと連携されているため、事前にリソースをデプロイしておく必要があります。ログインの際はリソースを作成したAzureサブスクリプションと同様のアカウントサインインをしてください。

⑤「Audio Content Creation」をクリック

⑥「テキストファイル」をクリック

⑦以下の手順を実施

❶文章を貼り付ける→❷言語を選択→❸性別を選択→❹プレイボタンをクリック（文字から変換された音声が流れます）→❺問題なければ、保存ボタンをクリックしてエクスポートする。

⑧以下は音声データの保存先を選択して音声を保存する手順となります。

「オーディオライフラリにエクスポート」を選択後、「次へ」をクリック

⑩名前と場所を設定して「完了」をクリック

⑪これまでの手順で文字から変換された音声データが作成されます。

当サイトはパーソルクロステクノロジー㈱より提供しています

▼デプロイ

▼使い方

注意事項・免責事項