「人を活かして未来を創る」音声＆表情の感情解析AI 開発者の根底にある想いとは

音声や表情などから感情を分析・認識する多くのプロダクトを生み出し、感情解析の分野でトップランナーとして業界をけん引する、株式会社シーエーシー（以下、CAC）。

「HCTech®（Human Centered Technology®）」をソリューションのコンセプトに掲げるCACのサービスは、高い技術はもちろんのこと、「人を健やかにする」という理念に基づいた開発が注目を集め、多くの場面で活用が広がっている。

こうしたサービスに対して、開発者はどんな想いを抱いているのか。CACのサービスの特徴や独自の開発哲学、提供するソリューションについて、Empath事業推進室サービスプロデューサーの諏訪真史（写真左）と、R&D本部サービスプロデューサーの熊野弘幸（写真右）が語る。

諏訪真史（すわ・まさし）

Empath事業推進室サービスプロデューサー
慶應義塾大学理工学部卒、ロンドン大学ロンドン・スクール・オブ・エコノミクス経営学研究科修士課程修了。会社立ち上げや外資系企業でのコンサルティングなどを経て、2020年に感情解析事業を扱う株式会社Empathの執行役員に就任した。2023年に株式会社シーエーシーによる音声感情解析AI事業の買収に伴い、同社に入社。引き続きEmpath事業のR&Dを主導しつつ、他のプロジェクトの技術支援にも関わる。

熊野弘幸（くまの・ひろゆき）

R&D本部サービスプロデューサー
1994年に株式会社シーエーシーに入社し、食品・飲料系企業向けシステム開発に携わり、1998年より大阪支社にて金融機関向けのシステム構築に従事。2001年からは東京本社でERPパッケージを中心としたSI事業を推進。2016年よりAI、ロボティクス事業の企画推進、感情認識AIを中心としたソリューション展開に取り組み、2022年からR&D本部のサービスプロデューサーを務める。

――最初にお2人の経歴と、現在担当している業務について教えてください。

熊野　私は情報工学を学び、1994年に入社しました。しばらくいろいろな業界向けのシステム開発に携わり、その後、2016年に当社がAIとロボティクス関連の事業に進出したことを受け、そちらの企画や開発に関わるようになりました。現在はR&D本部に所属して、人の表情から感情を推定するという、感情認識AIのソリューション創出や、サービス開発などを行っています。

諏訪　私は大学卒業後、イギリスの大学院に留学し、日本に帰ってきてからは自分の会社を立ち上げたり、外資系企業でコンサルティングの仕事をしたりしていました。その後、音声による感情解析事業を手がけるEmpath社でCSOとして技術戦略の策定などを担当し、昨年、その音声感情解析AI事業がCACに買収されたことを受け、当社の所属となりました。現在は、引き続きEmpath事業の技術戦略を策定するほか、社内の他のプロジェクトの技術支援にも携わっています。

音声感情解析AI Empath

Empathは、音声等の物理的な特徴量から気分の状態を独自のアルゴリズムで判定するプログラムです。数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定します。現在50か国、4,300ユーザーのご利用実績があります。開発者の方々に簡単にご利用頂けるように、Web API化しました。

クリックして詳細を確認する

――それぞれ画像と音声から人間の感情を推定したり判定したりするプロダクトに携わっています。感情解析AIと一般的なAIの違い、感情解析AIならではの開発の難しさや面白さについて教えていただけますでしょうか。

諏訪　感情解析AIと他のAIは、主観的なデータを扱うか、客観的なデータを扱うかという点で大きな違いがあると言えるのではないでしょうか。例えば画像認識AIの場合、ある1つのデータが犬なのか猫なのか、客観的に判断してラベルをつけることができますが、感情解析の場合は、例えばある1つの音声データに対して、怒っているのか、怒っているふりをして楽しんでいるのか、その判断に主観が必要になってきます。

人間の複雑な見えない部分、つまり感情を判別して、ラベルをつけ、AIに教えることが求められます。そのため、感情解析の場合、抽象的なレイヤーでの概念形成や認識のさせ方が、そのほかのAIとは異なってきます。

熊野　画像でも、諏訪さんが言ったような難しさがありますね。表情の場合、「見たらわかりますよね」と言われることも多いのですが、ある1つの表情がどのような感情を表しているのか、それを理解するのは一筋縄ではいかないです。

お客さまからは、「喜んでいる」「悲しんでいる」という感情だけではなく、例えば「話を聞いて理解しているのか」を知りたいとか、「おいしいと感じているのか」を測りたいなど、状態を取りたいというご要望もよくいただきます。

しかし、これは簡単なことではありません。例えば、炭酸飲料やビールを飲んだときにおいしいと感じている時の顔が、笑顔とは限りません。ビールを飲んで「うまい！」と感じたときに、鼻にしわを寄せて、ぎゅっと目を閉じる人もいます。感情解析AIの開発においては、アナログで抽象的なものから、計算値として具体的に「こうです」と言えるデジタルなものを作り出していくところが、難しくもあり面白いところですね。

――感情解析AIの特徴や強み、他社のサービスとの違いは、どういう点にあるのでしょうか。

諏訪　音声に関して言うと、そもそもビジネスとして音声解析を行っている会社は世界的にそれほど多くありません。比較的ニッチなところで戦っており、なおかつ私たちの技術は長年研究開発を続けていたこともあり世界でトップレベルの水準にあると自負しています。

その上で、主な強みとして2つが挙げられるかと思います。1つは日本のビジネスシーンにおいて、日本語の音声による日本人の感情表現を、AIに学習させている点です。当社以外で音声解析に強い会社は、英語やヘブライ語で開発している海外の企業が多いです。日本語の音声での感情解析には、独特の難しさがあるので、これは、日本のお客さまにサービスを提供する上で、大きな強みであると考えています。

もう1つは、哲学や行動科学などの考え方を組み込んで開発にあたっている点です。音声解析は、データサイエンスと音響工学に立脚している領域ではあるのですが、音声から感情を読み取るためには、形而上学的な分野、哲学的な物の見方なくしては、実践で良い結果を出すことができないと考えているためです。

当社では科学哲学（科学の方法や科学的認識の基礎についての哲学的探究）を取り入れた技術戦略をとっていて、実際にこれを主導しているのは博士課程で哲学を専攻していた研究員です。哲学、心理学、行動科学、データサイエンス、音響工学の5つの分野が重なっている領域が我々が取り組んでいる音声感情解析の世界です。

AIは学習したデータに対して、良い結果を出すのは得意ですが、運用環境で学習していないものに出くわしたときに、結果が思わしくなくなってしまうことがよくあります。いかにして学習時でも本番環境でも差異が少ない結果を出すAIを作るのか、そこには表で見えるデータから読み取れる傾向だけを見るのではなく、その裏側に潜んでいる真意の不変的な因果関係を明らかにすることが重要です。我々のチームはこの点に強いこだわりを持って技術を作りこんでおり、またこれを可能にする多様な分野の専門的知見を持つ人材が携わっているのは、他社と比較してもかなり独特だろうと思います。

――生成AIなどの活用が急速に広がり、今後、AIの活用によって生じる課題はどのようなものがあるのか、どの程度までルール化が必要か、いろいろな場面で議論が進んでいます。特に倫理面などで、サービスの開発において気をつけていることはあるのでしょうか。

熊野　特に表情からの感情認識の場合は、カメラで撮影した映像を使うので、個人情報の取り扱いに気を配っています。映像による顔認証や感情認識に対しては、「全てを監視されてしまうのではないか」「映像がどこかに集められてしまうのではないか」という不安を抱きがちだと思います。そうした懸念を払拭できるよう、各種のガイドラインや法令を確認しています。また感情認識をローカルで処理し、映像を外部に残さないようにして、他のデータと混ざらないような仕組みを作るなど、細心の注意を払っています。

もう1つ意識しているのは、あくまでも人間の判断をサポートをするという、プロダクトの位置づけです。例えば入社試験の合否判定など、人の人生を左右するような判断をAIだけに任せて良いのかといったことに対しては、いろいろな議論があります。近い将来にそうした活用方法が出てくるかもしれませんが、私たちの当面のミッションは、AIによる1つの見方を提示できるようにすることです。

客観的なAIによる結果を参考にすることはできますが、人による判断は引き続き必要です。人に取って代わるためのものではなく、あくまでも、人をサポートするためのものという意識を持った上で、より高い精度のAIを目指して開発を進めています。

――感情解析技術を用いて実現したいことや解決したい課題というのは、顧客によって様々だと思います。顧客ニーズをソリューションに落とし込む際に意識していることはありますか。

諏訪　お客さまにとって音声感情解析技術を使うにあたっての投資対効果は強く意識しています。私たちのビジネスはほとんどがBtoBです。BtoCであれば、役に立つ、面白そうという価値があれば、使っていただけるケースも出てくると思うのですが、BtoBはそれだけではなく、お客さまにとって投資対効果があることが必須要件になります。

売上が上がる、コストが下がるといった効果が見込めないと、私たちの技術に興味を持ってくださった担当の方も社内でプロジェクトを動かすのが難しくなってしまいます。ですので、ビジネスとしての効果をしっかり生み出すことが大切ですね。

熊野　実際にお客さまの利用環境で無理なく使用できるサービスにする、という点も意識しています。感情認識などの画像解析は、総じて処理に負荷がかかるんです。高性能なコンピュータであれば問題ないのですが、お客さまは、一般的には普通のノートパソコンを使っています。1台数百万円もするコンピュータが必要ですとなってしまうと、皆さんに使っていただくことができません。パフォーマンスを下げずに一般的な環境で問題なく使えるようにするため、例えば画像を間引いたり高速化をはかったり、細かな工夫を積み重ねています。

――お2人が考える感情解析AIを使った理想の形、将来目指したい姿はどのようなものでしょうか。

諏訪　感情を認識するという技術が、余計なお世話にならず、察してほしい状況にある方の気持ちを察することができる、そんな形にしていきたいと思っています。

日本では労働人口が急速に減っています。困っている人がいても、労働人口が少ないため助けてもらえない、徐々に見捨てられる人たちが増えてくることにつながると危機感を感じています。人手不足によって救済できない人たちを救うための1つのフックとして、この技術を使っていければと思っています。

例えば現在、コールセンターで働くオペレーターの方たちの音声から感情解析をするプロダクトをご提供しています。オペレーターの皆さんは毎日、お客さまからのクレームや時には罵詈雑言を浴び続け、精神的に大きなダメージを受けていることが多いそうです。中には電話のあとに、トイレでこっそり泣いている人もいると聞きます。本来はメンタル的なケアが必要ですが、戦場のように忙しい職場で、上司の方は気が付くことができず、また気が付いたとしても、一人ひとりに時間を取って話を聞く余裕もないそうなんです。

私たちのプロダクトは、オペレーターの音声から、ストレスやメンタルの状態を感情認識AIで察知し、上司に通知をしたり、AIがその人に対して自動的にケアをしたりします。こうした機能を今後拡張させていくことで、社会を良くすることができれば素敵だと考えています。

熊野　当社では、HCTech®（Human Centered Technology®）というソリューションコンセプトを掲げています。「人を活かして未来を創る」をキーワードに、人を中心に考えた開発を行っています。

感情解析の分野は、残念ながら、企業が従業員を監視するとか、悪い結果が出たときにマイナス評価を受けるとか、ディストピア的にイメージされてしまうことがあります。

しかし、私たちが目指しているのは、感情を察することで人々を支えることができるAIです。感情解析というテクノロジーを使って、仕事を充実させたり、日々困っている人を助けたりできる、そんなプロダクトを作っていきたいと思っています。

関連記事