
エレブンラボは、1億8000万ドルのメガファンディングラウンドを受けたばかりのAIスタートアップで、主にオーディオ生成能力で知られていました。同社は、最初のスタンドアローン音声toテキストモデルであるScribeを立ち上げることで、別の技術的方向に進みました。
この3.3億ドル相当のスタートアップは、広範囲な声のライブラリを通じて多くの他社に音声toテキストサービスを提供してきました。しかし、同社は今、Gladia、Speechmatics、AssemblyAI、Deepgram、OpenAIのWhisperモデルなどと競合するべく、音声検出に進出しようとしています。
ElevenLabsのScribeモデルは、ローンチ時点で99以上の言語をサポートしています。同社は、このモデルのために25以上の言語を卓越した精度カテゴリに分類しており、単語エラー率が5%未満です。このリストには、英語(97%の正確性率)、フランス語、ドイツ語、ヒンディー語、インドネシア語、日本語、カンナダ語、マラヤーラム語、ポーランド語、ポルトガル語、スペイン語、ベトナム語などが含まれています。その他の言語は、高い(5%から10%の単語エラー率)、良い(10%から20%の単語エラー率)、および中程度(25%から50%の単語エラー率)の異なるカテゴリにランク付けされています。
同社によると、このモデルは、FLEURS&Common Voiceのベンチマークテストで、複数の言語においてGoogle Gemini 2.0 FlashとWhisper Large V3を凌駕しています。

ElevenLabsは、昨年リリースされたAI会話エージェントプラットフォームの音声toテキストコンポーネントを開発していましたが、今回が初めて独立した音声検出モデルをリリースしています。先月のTechCrunchとのインタビューで、CEOのMati Staniszewskiは音声検出モデルの改善について語りました。
「会話で何が言われているかをよりよく理解したいと考えています。我々はコンテンツのみを生成するだけでなく、音声を理解し、記述する方法に取り組んでいます」とStaniszewskiは述べています。「多くの人々が音声toテキストは解決済みの問題だと言います。しかし、多くの言語ではかなり悪いです。私たちはデータの注釈付けを行い、迅速なフィードバックを得るための社内チームを持っているため、より良い音声検出モデルを構築できると考えています」。
このモデルには、スマートスピーカーダイレーション(話者を認識する機能)、単語レベルのタイムスタンプによる正確な字幕、観客の笑いなどの音声イベントの自動タギングが備わっています。このスタートアップは、顧客がビデオコンテンツを直接転記して字幕やキャプションを追加する方法を提供しています。
Scribeは現在、事前録音されたオーディオ形式のみで動作しています。同社は近日中にモデルの低遅延リアルタイムバージョンをリリースすると述べています。つまり、会議の転記やボイスノートの作成にはまだ効果的ではありません。
ElevenLabsは、Scribeを1時間の転記オーディオにつき0.40ドルで提供しています。この料金は競争力がありますが、一部の競合他社は現在、一部の機能の差別化を行いつつ、オーディオ転記により低価格を提供しています。