本稿はKDDIが運営するサイト「MUGENLABO Magazine」に掲載された記事からの転載
音声生成AI技術の研究開発に特化したKotoba Technologies。2023年10月に設立されたスタートアップ企業で、最先端の音声AI技術を活用し、日本語を中心に、流暢で自然な音声生成を可能にする「Kotoba-SpeechGen」などの技術をはじめ、エンドツーエンドの音声翻訳やダビング、ボイスクローニング、感情の反映など、多様な機能を備えた同時通訳技術、超高速な日本語音声認識モデルや、日英双方向の音声からテキストへの翻訳機能を提供しています。
同社は、米国のトップ校でAI分野の博士号を取得した小島熙之氏(CEO)と笠井淳吾氏(CTO)によって設立されました。
2024年10月には、経済産業省およびNEDOが推進する国内生成AI開発プロジェクト「GENIAC」の第1.5期と第2期に連続採択され、日本語音声生成モデルのプレイグラウンド「Kotoba SpeechGen」のβ版を公開しています。
日本とアジアをメインターゲットとしながら、多言語展開を進める同社の革新的な技術と、創業からわずか15ヶ月で急成長を遂げた背景には何があったのか。同社代表取締役の小島熙之氏に話を伺いました。
音声生成AIのフロントランナーとして
Kotoba Technologiesの原点は、スーパーコンピュータ「富岳」を活用した大規模な研究開発プロジェクトにありました。2022年に立ち上げられた「富岳LLM」プロジェクトでは、世界最速のスーパーコンピュータを用いて日本語に特化した生成AI開発に取り組み、2年の歳月をかけて今年の春に完了。
この経験が、同社の技術基盤を形作ることになります。
現在、同社の技術は3つの柱で構成されています。1つ目は音声認識技術です。「Kotoba-Whisper」をHugging Faceというプラットフォームで展開し、すでに30万人以上のプロフェッショナルユーザーにダウンロードされています。その性能の高さは「NVIDIA AI Summit Japan 2024」でのライブ文字起こしに採用されるなど、業界からの信頼を獲得しています。
2つ目の柱は音声生成技術です。この分野では、OpenAIやGoogleといった世界的企業と比較して、プロフェッショナルユーザーから高い評価を得るまでの技術力を確立。この実力は、KDDIとの協業プロジェクトという具体的な成果に結実しています。
KDDIの仲介により実現したpalan社とのコラボレーションでは、CES2025における観光ガイドアバターの音声に採用が決定。キャラクターボイスを活用した観光案内の実現に向けて、開発が進められています。
▼KDDIとpalanとのコラボレーション観光ガイドアバター
3つ目の柱が、同社が最も注力している音声同時通訳技術です。この技術は、話者の声質や感情表現を保ったまま、リアルタイムで別の言語に変換することを可能にします。さらに、特定の専門分野に特化した通訳機能も実現しており、汎用的な翻訳とは一線を画す精度を実現しています。
音声AIの開発を本格的に始めてからわずか8ヶ月ほどですが、日本のAI業界では多くの方々に知っていただけるまでになりました。(小島氏)
同社の技術は、研究開発の段階から実用化のフェーズへと着実に歩みを進めています。
音声生成AI技術のフロントランナーとしての地位を確立したKotoba Technologies。その成長を支えているのが、日米二極体制という独自の組織構造です。
日米二極体制で挑む世界市場
Kotoba Technologiesの特徴的な組織体制は、2023年に確立されました。7月にアメリカ・シアトルで設立されたKotoba Technologies Inc.を親会社とし、その3ヶ月後の10月に子会社として株式会社Kotoba Technologies Japanが設立されています。
当初は日本とアメリカのどちらを活動の拠点にするのか、かなり議論がありました。(小島氏)
最終的に同社が選んだのは、両国の強みを最大限に活かす明確な役割分担でした。資金調達はデラウェア州に設立したアメリカ法人が担当し、技術開発や市場展開は日本法人が主導するという体制です。
この独自の体制を支えているのが、創業メンバーの強固な学術的バックグラウンドです。共同創業者の一人はワシントン大学で博士号を取得後、豊田工業大学シカゴ校で教鞭を執った経験を持ち、小島氏自身もコーネル大学から博士号を取得しています。この経歴が、アメリカの投資家コミュニティとの重要な接点となっています。
アメリカの投資家との出会いは、大学時代のコネクションから始まりました。一人の投資家との出会いが、次の投資家を紹介してくれるという形で広がっていきました。(小島氏)
特に博士号をアメリカのトップスクールで取得していることが、投資家からの信頼獲得に大きく貢献しているといいます。
アメリカの投資家を重視する理由について、小島氏は明確な見解を示します。
特にアーリーステージのスタートアップにとって、アメリカの投資家の評価を得ることは非常に重要です。アメリカ以外の投資家は、技術面での目が十分に肥えていないことがあります。甘い評価で育った技術では、本番の市場で通用しない可能性があります。(小島氏)
創業から15カ月が経過した現在、この二極体制は着実に成果を上げていると言います。
「基本的にはコアな部分は日本のエンティティに集まってきている」と小島氏は現状を評価する一方、「6カ月後、1年後を見据えると、グローバルな拠点にもオフィスを作って研究開発も行うようになる可能性は十分にある」と、より柔軟な体制づくりも視野に入れているそうです。
アメリカでの資金調達力と日本での技術開発力を組み合わせたこの独自の戦略は、アジア市場への展開という次なる挑戦の土台となっています。
アジアを起点とした独自の成長戦略
現在、市場という観点ではアメリカにはまだ進出していません。(小島氏)
小島氏のこの言葉は、Kotoba Technologiesの戦略的な市場選択を端的に表しています。同社が目指すのは、日本を起点として、非英語圏が主として使用される市場への展開です。
具体的な展開はすでに始まっています。特に注目すべきは、国際会議やウェブ会議システムを多用する企業との取引です。海外系のコールセンター企業との実証実験も進行中で、マルチリンガルなコミュニケーションシステムのニーズに応えています。
「活用場所としては、例えば日本以外の場所、東南アジアというのがポツポツ出始めてきている」そうで、特に同時通訳の分野では、明確な市場機会を見出しています。
我々が考えているコマーシャライゼーションを考えると、同時通訳での事業機会という路線で一つ生成AI企業の中で突き抜けられる。(小島氏)
同社の成長戦略において特徴的なのは、現地企業とのパートナーシップに対する考え方です。「言語の壁を取り払ったら何が起こるか」という視点で共に考えられるパートナーとの協業を重視しています。これは単なるビジネス展開を超えて、グローバルコミュニケーションの在り方そのものを変革しようという野心的な試みといえます。
研究開発型企業として出発したKotoba Technologiesは今、その革新的な技術を実用化のフェーズへと移行させつつあります。その先に見据えているのは、テクノロジーが実現する新しいコミュニケーションの世界です。
テクノロジーが実現する新しいコミュニケーション
全世界で数千人しか、ハイレベルな同時通訳ができる人材がいない。(小島氏)
小島氏が指摘するのは、グローバルコミュニケーションが直面している根本的な課題です。特に深刻なのは、主要言語以外の組み合わせです。
日本語と英語だったらまだ結構ハイクオリティな人材が見つかるのですが、例えばそれが日本語とベトナム語など、あまりコミュニケーションがない言語の組み合わせになると、両方の言語を話せる程度の人が来るのが精一杯です。(小島氏)
この人材不足という壁に対し、Kotoba Technologiesは技術で突破口を開こうとしています。
同社が描く未来のコミュニケーションは、従来の同時通訳の概念を大きく超えています。音声でマルチリンガルにやり取りできるAIエージェントの開発も視野に入れており、人間対人間、人間対AIのコミュニケーションをあらゆる言語で可能にすることを目指しています。
「我々が作るものは、真の意味でグローバル化を加速させられる」と小島氏は語ります。その視点は、単なる言語変換を超えて、社会全体のコミュニケーションの在り方を変革することにあります。
同社が目指す革新性は、iPhoneの登場になぞらえて説明されます。「iPhoneが最初に出てきたとき、あれは説明不要だったわけですよ。見ただけでもわかった」。同様に、言語の壁を取り払う技術も、使った瞬間にその価値が直感的に理解されるものでなければならないと小島氏は考えています。
そして最も重要なのは、この技術革新がもたらす社会的インパクトです。「人間対人間、人間対AIのコミュニケーションがどの言語でもできるようになる。そしたら社会がどうなりますか、社会のアプリケーションでどういうことが起きますか」。この問いに対する答えを追求し続けることが、Kotoba Technologiesの存在意義なのです。
テクノロジーによって言語の壁が取り払われ、世界中の人々が自由にコミュニケーションを取れる世界。その実現に向けたKotoba Technologiesの挑戦は、まだ始まったばかりです。