ディープニューラルネットワーク活用したSpeech To Speech 声質変換サービス:
SyncLect Voichange

ユーザー自身の音声情報を変換する
API開発、スマホアプリ開発
Webサービス開発を行っています。

ユーザの録音した音声を
違う誰かの声に変換します

ディープニューラルネットワーク
声質変換で「音声アバター」

自分の声を録音した時に「こんな声だったの?なんか恥ずかしい」と思った事はありませんか? 自分の「声質」を変換する事で、男性の声を女性にしたり、幼くしたり、渋い声にしたりするのが「SyncLect Voice Changer」です。
高速フーリエ変換を用いて、音声の持つ周波数波形を単純化し、パワースペクトルを特徴量としたチューニングを施す事で 「声質」を変換させる事ができます。
主にPyTorch, Keras, LSTM, EfficientNetを利用しています。

機能をMulti AI Platformでコンポーネント化。 プロトタイプを高速で開発できるようになっています。

pixta_50397949_S.jpg

利用シーン

音声収録配信メディア

BtoCサービスにおいて、コンシューマーが音声を収録し、配信するブログや音声メディアが増加しています。

ただ有名人ならともかく、一般人が自分の声を収録・配信するのは、ちょっと勇気がいるものです。
そこで「声質変換」を用いて違う誰かになりすませる「声のアバター」を用意する事で、 音声のコミュニティが活発化します。

pixta_24665507_S.jpg

音声コンテンツのキャラクタライズ

キャラクター性の強い音声コンテンツの場合、機械っぽさが出るText to Speechは採用しづらいです。

また、予算の兼ね合いで、声優をアテンドできない場合、企画が流れてしまう事も多々あります。
そんな時、「声質変換」で「収録した抑揚付きの声そのまま」にデジタルコンテンツで音声表現をさせ、 ユーザーと機械の間の違和感を取り除きます。

pixta_47187161_S.jpg

動画の独自ナレーション

ユーザーが投稿する動画メディアにおいて、自分の声ではなくアニメ声などでナレーションを入れられたら面白いと思いませんか。

自分の声でナレーションを収録しようとした場合、「何かちょっと恥ずかしい」気持ちになりがちなのですが、 「音声アバター」であれば、楽しく面白くナレーションを収録する事ができ、視聴ユーザーの興味喚起も引き出す事ができます。

pixta_50555223_S.jpg

このようなご利用方法があります

音声スペクトラムチューニング

ご要望頂いている声のパターンをチューニングしながら、当社で構築を行っています。

男性、女性はもちろんのこと、野太い声、さわやかな声、落ち着いた声、幼い声、犯人の声、ロボットみたいな声、宇宙人みたいな声など、声質には様々なパターンがあり、 そのパターンの数だけ、音声スペクトラムチューニングを行いつつ、「声質」をSyncLectサーバに保持します。

細かなチューニングのブラッシュアップを行う事で、ようやく「好みの声」に出会う事ができます。

pixta_46816565_S.jpg
pixta_50372851_S.jpg
pixta_41507628_S.jpg
robot_200_S.jpg

チューニング済の声質はAPI提供

SyncLectサーバに保持された「声質」はAPIベースで、すぐに取り出す事ができます。

録音や収録などの音声ファイルを投げ込むだけで、その音声波形特徴を抽出し、 指定されたキャラクターの波形特徴に変換し、音声ファイルで返します。

その為、難しい処理部分だけをSyncLect Voichangeにお任せ頂き、 既存サービスの拡張機能としてもご利用頂けます。

pixta_50420574_S.jpg

チューニング音声を効果音に応用

「SyncLect VoiChange」で保持しているのは、「声質」なので、予め決まった文言をセットする事で、 その声質で効果音などの作成も可能です。

音声メディアを楽しもうとした場合、効果音があると非常に盛り上がりやすい事が、開発途中で分かりました。

「いいね」「へぇ~」のようなガヤをボタンとして設置するだけで、エンターテイメントコンテンツの出来上がりです。

pixta_41215282_S.jpg

声質チューニング更新管理は
クラウドで提供

少し音声波形を変更したいだけなのに、何回も作り直すのは大変です。
そこで声質コンテンツマネジメントクラウドを用意する事で、 専門知識が無くとも簡易的に「声質チューニング」を行う事ができます。

また、作成した声質を一元管理し、どの声質がいつどこで使われているかを把握し、 人気の高い声質など利用頻度を分析する事ができます。

SyncLect_lamberjack_image500.jpg

マルチインターフェース対応

音声投稿型Webサービス・アプリ

Webサイトやスマートフォンアプリでご利用頂けます。
音声を使ったSNSやコミュニティサービス、Webメディアなど構築の際にご利用頂けます。

当社ではReact・Laravelを用いたWeb構築プラットフォーム、クラウドネイティブアプリケーション開発、PWAアプリ開発など 様々なデジタルサービス開発を行っておりますので、新規構築の際は、一気通貫で承っております。

voichange_multi_S.jpg

音声対話型デジタルサイネージ

労働力不足の小売流通業などで最近注目を集めている、音声接客型デジタルコンテンツでもご利用頂けます。 デジタルサイネージ上のキャラクターが音声に合わせて動き、接客やインフォメーションを行うような場面では、 接客スタッフの音源を録音し、声質変換でキャラクタライズを行う事ができます。

signage_character_2S.jpg

スピーカーデバイス

Amazon AlexaやGoogle Assistant、LINE ClovaのAIスピーカーも話しかけに応じた音源再生を行う事ができます。

音声にキャラクター付けを施したい場合などに、声質変換技術を用いて、様々なキャラクターの音源でスマートスピーカーのカスタムスキルの開発が可能となります。

当社では、Amazon Alexaスキル開発を含め、様々なスマートスピーカースキルを構築しており、声質変換+マルチスピーカー開発も承っております。

chara_speaker_500S.jpg

オプション

声優や芸能人の声を覚えさせたい時に

「声質」を覚えさせようとした時に、よく話が上がるのが「芸能人」ボイスです。

あの憧れのアイドルの声になりたい、あのイケメン俳優の声になりたい、と言った願望を叶える為に、 いくつかの企業とパートナーシップを組み、収録+声質学習オプションも可能です。

収録オプションではText to Speech型のAPI提供も可能としています。

pixta_37615480_S.jpg

Text to Speechより
Speech to Speechが合う場面

抑揚・感情・人間らしさを
音声表現したい時に

Text to Speechはテキスト情報から音声に変換する技術ですが、テキスト情報には抑揚や感情がありません。
専門の企業が「SSMLチューニング」を施す事で抑揚をつける事ができますが、ユーザが音声投稿を行うシーンを考えると、 「わざわざテキストに変換しない」という方法論にたどり着きます。

一般ユーザ一人一人が音声収録を気軽に行いつつ、音声配信コンテンツにエンターテイメントを提供するのが「声質変換技術」です。

pixta_47123278_S.jpg