Cartesia Sonic-3とElevenLabsの違いは？

Sonic-3は90msのレイテンシ＋42言語ネイティブ対応で、低遅延と多言語の両立が強み。ElevenLabsは音質と英語圏中心の利用が強い。CartesiaはMamba作者Albert Gu氏が共同創業者で、State Space Modelベースの効率性が低遅延を支える。

Cartesiaはいくら調達したの？

2026年5月に$100Mを調達した。Kleiner Perkins、Index Ventures、Lightspeed、NVIDIA主導で、累計約$186M（シード$22M＋Series A $64M＋今回$100M）。

音声AIはどんな用途で使われている？

コールセンター、カスタマーサポート、ボイスエージェント、IVR、音声書籍、ゲームNPC、教育コンテンツ等。Sonic-3は90ms低遅延でリアルタイム対話に使える、笑いや感情合成APIで自然な応答が可能。

Mambaって何？Cartesiaとどう関係する？

Mambaは2023年に発表されたState Space Model（SSM）系の新しいAIアーキテクチャで、Transformerと異なり長いシーケンスを高速・省メモリで扱える。Cartesia共同創業者Albert Gu氏が主著者で、この技術が同社音声AIの低遅延を支える。

cartesia voice-ai sonic-3 elevenlabs tts

🎙️ AI音声、もう人間と区別つかないかも｜Cartesia Sonic-3が42言語90msで業界標準を塗り替えた話

アイ

2026-05-07

音声AI、ついに「人間と区別がつかない」フェーズに入った

正直、Cartesia Sonic-3のデモを聞いた時「これ、人間でしょ」って何度か思ったんだよね。笑い声が混じる、感情で声色が変わる、しかも反応速度が90ms。これって人間が話しかけて0.09秒後にAIが返してるってことで、わたしたちが普段Zoomで会話してる時の遅延（だいたい150〜300ms）よりも速い。

それでね、Cartesiaが5月に**$100M調達してSonic-3を公開した。Kleiner Perkins、Index Ventures、Lightspeed、そしてNVIDIA**が主導。これはもう「音声AIの主役、ElevenLabsからCartesiaに移るかも」っていう号砲なんだよ。

Cartesiaの面白いところは、創業者のAlbert GuがMamba（State Space Model）の主著者ってこと。Transformerじゃない別系統のアーキテクチャでAIを動かしてる人で、それが「90ms低遅延」につながってるって考えると、技術的にもなかなかロマンがある会社なんだよね。

これって、わたしたちの生活にどう関わってくるかというと「コールセンター・カスタマーサポート・読み上げサービス・ゲームNPCの声、全部AIになる」って未来が、もう本当にすぐそこ。

そう考える4つの理由

理由1：90msのレイテンシは「人間の会話と同じ速度」

90msっていう数字、ピンとこないかもしれないけど、これは本当にすごい。人間が「会話してる」と感じる遅延の限界が約150〜200msって言われてるから、Sonic-3はそこを軽く下回ってる。

実際、CartesiaのSonic製品ページでは「リアルタイムで笑いと感情を合成できるTTS API」と謳ってる。電話越しに話してて「あれ、これAI？」って気づかないレベルの応答速度なんだよね。

これまでElevenLabsは音質では業界トップだったけど、レイテンシは300〜500msくらいが標準だった。これだと「ちょっと反応が遅い」って人間が違和感を感じる領域に入っちゃう。Cartesiaの90msはここを完全に超えてきた。

あと、低遅延って何が嬉しいかというと、コールセンターの「人間オペレータ完全代替」が現実的になるってこと。これまでは「AIだとバレる」「会話のテンポが悪い」で導入できなかった企業が、Sonic-3なら使えるようになる。

普段わたしたちが「カスタマーサポートに電話したら相手が人間かAIか」を気にする日が来るとは思わなかったけど、もう来てる。

理由2：42言語ネイティブ対応で英語圏ローカル独占が崩れる

Sonic-3は42言語に対応していて、世界人口の95%をカバーしてる。ここがElevenLabsとの差別化の二つ目のポイント。

ElevenLabsは英語＋主要欧州言語が強いけど、東南アジアや中東、アフリカの言語は弱かった。日本語も「使えるけど、ネイティブが聞くと違和感がある」レベル。これがSonic-3だと「すべてネイティブ音声」って表現してて、日本語の自然さも別格らしい。

42言語ネイティブが何を意味するかって、グローバル企業が「1つのAI音声基盤」で世界展開できるってこと。これまでは「英語版はElevenLabs、日本語版は別ベンダー、アラビア語は社内録音」みたいに分断されてた。それが1社で済む。

たとえば、Booking.comとかExpediaみたいなグローバルOTA、Stripe／PayPalみたいな決済、NetflixやSpotifyみたいなコンテンツ系。全部「1つのAPIで42言語の自然音声」が出せるなら、コスト構造が一気に変わる。

ベトナムや東南アジアでサービスやってる立場で言うと、現地語のAI音声が「日本語並みの自然さ」で出せるようになると、現地カスタマーサポートの完全AI化が3〜6ヶ月で来る。これは雇用にも影響大。

理由3：Mamba作者が共同創業者という技術的な底力

Cartesiaの面白いところは、創業者のAlbert Gu氏がMamba論文の主著者ってこと。Mambaって名前は聞いたことあるかな？簡単に言うと「Transformerじゃない、別系統のAIアーキテクチャ」で、特に長いシーケンス（長文・長時間音声）を高速・省メモリで扱える設計。

State Space Model（SSM）系統の最先端がMambaで、それを音声AIに応用したのがCartesia Sonicシリーズ。だから低遅延が出せてる、っていう構造的な理由がある。

これって何が嬉しいかって、技術的な独自性があるってこと。AIスタートアップで「OpenAI APIの上で薄く加工してます」みたいな会社はもう何百社もあって、競争で消える。Cartesiaは違って、自前のアーキテクチャから自前のモデルまで持ってる。

NVIDIA NVenturesが投資してるのも、おそらくここを見てる。Mambaは「Transformerの次」候補の一つとして数年前から注目されてて、Cartesiaの音声AIはその実用化の最前線。

スタートアップ投資の世界では「創業者の論文citation数で評価する」みたいな指標があるんだけど、Albert Gu氏のMamba論文は数年で数千citationされてる超優良ペーパー。技術的バックグラウンドで言うと、ElevenLabsより一段深い。

理由4：NVIDIAが投資した時点で「インフラ確定路線」

今回の$100M調達で個人的に一番グッと来たのが、NVIDIAが投資家に入ってること。NVIDIAって基本的に「自社GPUを大量に使ってくれそうな会社」にしか投資しないから、ここに入ったってことは「Cartesiaは将来のGPUインフラ消費の中心になる」って判断されてる。

実際、リアルタイム音声AIってGPU超食う。テキスト生成と違って「ストリーミングで連続的に音声波形を生成」してるから、推論コストが高い。Sonic-3を42言語×全世界規模で展開するとなると、おそらくChatGPT並みのGPU需要が立ち上がる。

NVIDIAの投資ロジックは「Cartesiaが伸びれば、Cartesiaから受注するGPU需要も伸びる」っていうエコシステム拡大戦略。実際、過去のNVIDIA投資先（Mistral、Cohere、Inflection、Hugging Face、CoreWeaveなど）はすべて急成長してる。

これって、わたしたち利用者には何が嬉しいかというと「Cartesiaは少なくとも数年は潰れない」って安心感。AIスタートアップは「APIサービスが急に終わる」リスクがあるから、NVIDIAやSequoia級の支援先は導入する側にとっても安心材料になる。

逆にElevenLabs側はこの動きにどう対応するか。最近IBM EnterpriseとTTS提携を発表したけど、Cartesiaの90ms 42言語に対抗するには、それ以上の何かが必要になりそう。

まとめ：声で操作する時代は、もう半年後

Cartesia Sonic-3 ＋$100Mで言える結論は「音声AIの標準が90ms 42言語に書き換わった」っていうこと。これまで「AI音声って便利だけど不自然」だったのが、向こう半年で「AIの方が人間より自然」になる。

わたしたちが「AIに話しかけて済ませる」シーンが、確実に増える。Siri / Alexa / Googleアシスタントが第二世代に進化するのも、おそらく内部的にはこういうfoundation model音声に置き換わっていく流れ。

ElevenLabs vs Cartesiaの音声AIシェア争いは、向こう12〜18ヶ月で結論が出そう。個人ユーザーで音声AI試してみたい人は、Cartesiaのデモを一度触ってみるのおすすめ。「人間との区別がつかない」がどういう感覚か、体験するとAIに対する見方が変わるよ。

あわせて読みたい

ソース:

よくある質問

Cartesia Sonic-3とElevenLabsの違いは？: Sonic-3は90msのレイテンシ＋42言語ネイティブ対応で、低遅延と多言語の両立が強み。ElevenLabsは音質と英語圏中心の利用が強い。CartesiaはMamba作者Albert Gu氏が共同創業者で、State Space Modelベースの効率性が低遅延を支える。
Cartesiaはいくら調達したの？: 2026年5月に$100Mを調達した。Kleiner Perkins、Index Ventures、Lightspeed、NVIDIA主導で、累計約$186M（シード$22M＋Series A $64M＋今回$100M）。
音声AIはどんな用途で使われている？: コールセンター、カスタマーサポート、ボイスエージェント、IVR、音声書籍、ゲームNPC、教育コンテンツ等。Sonic-3は90ms低遅延でリアルタイム対話に使える、笑いや感情合成APIで自然な応答が可能。
Mambaって何？Cartesiaとどう関係する？: Mambaは2023年に発表されたState Space Model（SSM）系の新しいAIアーキテクチャで、Transformerと異なり長いシーケンスを高速・省メモリで扱える。Cartesia共同創業者Albert Gu氏が主著者で、この技術が同社音声AIの低遅延を支える。