Case StudiesCase Studies

Home
Case Studies
音声認識モデルを活用した、AI文字起こしの研究開発を推進

音声認識モデルを活用した、AI文字起こしの研究開発を推進

IT・情報通信

AI開発

音声認識モデルを活用した、AI文字起こしの研究開発を推進

主要な音声認識モデルであるOpenAIのWhisper APIとGoogle Cloud Speech-to-Text APIを活用した、ミーティングなどの議事録の自動作成と、自動で作成された議事録からミスコミュニケーションを自動発見するための研究開発（R&D）事例をご紹介します。

まずは研究開発における初期調査として、現状のWhisper APIとGoogle Cloud Speech-to-Text APIのそれぞれの特性や精度の調査を実施しました。

研究調査の背景

わたしたちSHIFT ASIAは、ベトナムから主に日本のクライアント向けにソフトウェアの開発やテストサービスを提供するオフショア開発企業です。
SHIFT ASIAのようなベトナム人と日本人をはじめとする多国籍組織においては、日本語や英語といった母語以外の言語を使ってやりとりをするため、普段からミスコミュニケーションには細かく気を配る必要があります。
特に日本語でのコミュニケーションは外国人にとって複雑であり、細かなニュアンスや専門用語が豊富に含まれるミーティングなどでスムーズに意思の疎通を図ることは、日本語が流暢な外国人技術者にとってもそう簡単ではありません。

また、今後日本の人口が減少していくことが確実視されるなかで、このように多国籍の組織で仕事を進める機会がより増えていくだろうということは想像に難くありません。
したがって、SHIFT ASIAのようなオフショア開発企業だけではなく、今後さまざまな会社や組織で多国籍なメンバー間でのミスコミュニケーションは大きな課題となっていく可能性も考えられます。

一方で、近年のAIの発展は著しく、まさに目を見張るものがあります。
AI技術を活用した新たなシステムやサービスが日に日に世に出てくるなかで、特に大規模な言語モデルの発展を背景に、高性能な音声認識モデルが数多く生まれています。

このような状況において、既存の音声認識モデルを活用して会話内容を自動で文字起こしすることで、手間をかけず高精度での議事録を作成することで、ある程度の会話におけるミスコミュニケーションの軽減・解決がはかれるのではという仮説を立てました。
この仮説の検証にあたり、その前段階として現時点での主要な音声認識モデルであるWhisper APIとGoogle Cloud Speech-to-Text APIの特性や精度についての調査を行い、各モデルに対しての理解を深めることが今回の研究調査の背景です。

具体的な取り組み

Whisper APIとGoogle Cloud Speech-to-Text APIを活用し、試験的に自社独自の議事録自動生成システムを構築。
この議事録自動生成システムを通じて、複数人によって行われるミーティングの内容を録画し、その内容をもとにテキストデータで議事録が自動で生成されます。

Whisper APIとGoogle Cloud Speech-to-Text APIそれぞれのアウトプットを比較することで、各モデル間の特性や精度の比較を行いました。

研究調査の成果と今後の展望

本研究調査を通じて得られた成果は以下のとおりです。

本調査用に構築した自社独自の議事録自動生成システムは、想定通りに動作
Whisper APIとGoogle Cloud Speech-to-Text APIについての知見を深化
- 現時点では、Whisper APIとGoogle Cloud Speech-to-Text APIのいずれも、アウトプットの精度は高くなく、公的な会議の議事録などに使用できる精度には達していない
- Whisper APIとGoogle Cloud Speech-to-Text APIにおいて、言語の自動検知や話者ダイアライゼーションなどで明確な差が存在しており、各モデルの特性や得意・不得意、限界点を認識

このように、今回の研究開発では、既存の主要音声認識モデルであるWhisper APIとGoogle Cloud Speech-to-Text APIでは、複数人での会話から高精度で議事録を自動生成するにはまだまだ乗り越えなければならないハードルがあるということがわかりました。
しかしながら、簡易的なメモの生成は可能であり、参考文書としてその後手動や生成AIで議事録をアップデートするといった使い方においては、十分有用なレベルにあります。

オフィシャルな文章を生成するには、まだまだ技術力の向上やシステムのカスタマイズなどを通じた精度向上が必要ですが、SHIFT ASIAでは音声データの高精度な文字起こしおよび、そのテキストデータをもとにさらに高度な分析が可能となるように、引き続き音声認識モデルを活用したAI文字起こしの研究開発を続けてまいります。