ディープニューラルネットワーク活用したSpeech To Speech
声質変換サービス:
SyncLect Voichange
ユーザー自身の音声情報を変換する
API開発、スマホアプリ開発
Webサービス開発を行っています。
ユーザの録音した音声を
違う誰かの声に変換します
ディープニューラルネットワーク
声質変換で「音声アバター」
自分の声を録音した時に「こんな声だったの?なんか恥ずかしい」と思った事はありませんか?
自分の「声質」を変換する事で、男性の声を女性にしたり、幼くしたり、渋い声にしたりするのが「SyncLect Voice Changer」です。
高速フーリエ変換を用いて、音声の持つ周波数波形を単純化し、パワースペクトルを特徴量としたチューニングを施す事で
「声質」を変換させる事ができます。
主にPyTorch, Keras, LSTM, EfficientNetを利用しています。
機能をMulti AI Platformでコンポーネント化。
プロトタイプを高速で開発できるようになっています。
利用シーン
音声収録配信メディア
BtoCサービスにおいて、コンシューマーが音声を収録し、配信するブログや音声メディアが増加しています。
ただ有名人ならともかく、一般人が自分の声を収録・配信するのは、ちょっと勇気がいるものです。
そこで「声質変換」を用いて違う誰かになりすませる「声のアバター」を用意する事で、
音声のコミュニティが活発化します。
音声コンテンツのキャラクタライズ
キャラクター性の強い音声コンテンツの場合、機械っぽさが出るText to Speechは採用しづらいです。
また、予算の兼ね合いで、声優をアテンドできない場合、企画が流れてしまう事も多々あります。
そんな時、「声質変換」で「収録した抑揚付きの声そのまま」にデジタルコンテンツで音声表現をさせ、
ユーザーと機械の間の違和感を取り除きます。
動画の独自ナレーション
ユーザーが投稿する動画メディアにおいて、自分の声ではなくアニメ声などでナレーションを入れられたら面白いと思いませんか。
自分の声でナレーションを収録しようとした場合、「何かちょっと恥ずかしい」気持ちになりがちなのですが、
「音声アバター」であれば、楽しく面白くナレーションを収録する事ができ、視聴ユーザーの興味喚起も引き出す事ができます。
このようなご利用方法があります
音声スペクトラムチューニング
ご要望頂いている声のパターンをチューニングしながら、当社で構築を行っています。
男性、女性はもちろんのこと、野太い声、さわやかな声、落ち着いた声、幼い声、犯人の声、ロボットみたいな声、宇宙人みたいな声など、声質には様々なパターンがあり、
そのパターンの数だけ、音声スペクトラムチューニングを行いつつ、「声質」をSyncLectサーバに保持します。
細かなチューニングのブラッシュアップを行う事で、ようやく「好みの声」に出会う事ができます。
チューニング済の声質はAPI提供
SyncLectサーバに保持された「声質」はAPIベースで、すぐに取り出す事ができます。
録音や収録などの音声ファイルを投げ込むだけで、その音声波形特徴を抽出し、
指定されたキャラクターの波形特徴に変換し、音声ファイルで返します。
その為、難しい処理部分だけをSyncLect Voichangeにお任せ頂き、
既存サービスの拡張機能としてもご利用頂けます。
チューニング音声を効果音に応用
「SyncLect VoiChange」で保持しているのは、「声質」なので、予め決まった文言をセットする事で、
その声質で効果音などの作成も可能です。
音声メディアを楽しもうとした場合、効果音があると非常に盛り上がりやすい事が、開発途中で分かりました。
「いいね」「へぇ~」のようなガヤをボタンとして設置するだけで、エンターテイメントコンテンツの出来上がりです。
声質チューニング更新管理は
クラウドで提供
少し音声波形を変更したいだけなのに、何回も作り直すのは大変です。
そこで声質コンテンツマネジメントクラウドを用意する事で、
専門知識が無くとも簡易的に「声質チューニング」を行う事ができます。
また、作成した声質を一元管理し、どの声質がいつどこで使われているかを把握し、
人気の高い声質など利用頻度を分析する事ができます。
マルチインターフェース対応
音声投稿型Webサービス・アプリ
Webサイトやスマートフォンアプリでご利用頂けます。
音声を使ったSNSやコミュニティサービス、Webメディアなど構築の際にご利用頂けます。
当社ではReact・Laravelを用いたWeb構築プラットフォーム、クラウドネイティブアプリケーション開発、PWAアプリ開発など
様々なデジタルサービス開発を行っておりますので、新規構築の際は、一気通貫で承っております。
音声対話型デジタルサイネージ
労働力不足の小売流通業などで最近注目を集めている、音声接客型デジタルコンテンツでもご利用頂けます。 デジタルサイネージ上のキャラクターが音声に合わせて動き、接客やインフォメーションを行うような場面では、 接客スタッフの音源を録音し、声質変換でキャラクタライズを行う事ができます。
スピーカーデバイス
Amazon AlexaやGoogle Assistant、LINE ClovaのAIスピーカーも話しかけに応じた音源再生を行う事ができます。
音声にキャラクター付けを施したい場合などに、声質変換技術を用いて、様々なキャラクターの音源でスマートスピーカーのカスタムスキルの開発が可能となります。
当社では、Amazon Alexaスキル開発を含め、様々なスマートスピーカースキルを構築しており、声質変換+マルチスピーカー開発も承っております。
オプション
声優や芸能人の声を覚えさせたい時に
「声質」を覚えさせようとした時に、よく話が上がるのが「芸能人」ボイスです。
あの憧れのアイドルの声になりたい、あのイケメン俳優の声になりたい、と言った願望を叶える為に、
いくつかの企業とパートナーシップを組み、収録+声質学習オプションも可能です。
収録オプションではText to Speech型のAPI提供も可能としています。
Text to Speechより
Speech to Speechが合う場面
抑揚・感情・人間らしさを
音声表現したい時に
Text to Speechはテキスト情報から音声に変換する技術ですが、テキスト情報には抑揚や感情がありません。
専門の企業が「SSMLチューニング」を施す事で抑揚をつける事ができますが、ユーザが音声投稿を行うシーンを考えると、
「わざわざテキストに変換しない」という方法論にたどり着きます。
一般ユーザ一人一人が音声収録を気軽に行いつつ、音声配信コンテンツにエンターテイメントを提供するのが「声質変換技術」です。