ご存知の通り、最近の音声入力認識技術はAIの進化とともに大きく精度が向上しており、superwhisperやAquaVoiceといった非常に高精度な音声入力アプリケーションが利用可能だ。
YouTube でも多くの YouTuber がこれらのツールの比較や紹介を取り上げており、その中でもAquaVoice が一つ抜けているというのが2026年2月時点での状況だろう。僕自身、Windows PCで作業を行うことが多いため、AquaVoice のスピーディーな変換処理や高精度の変換、そして価格の安さも相まって、しばらくの間は AquaVoice を愛用していた。
しかし、ここに来て「Typeless」という新しい音声入力アプリの存在を知り、実際に試してみたところ、僕の用途には AquaVoice よりもこちらが最適であるという結論に至った。そこで、AquaVoice と Typeless の比較を、実体験に基づいた忖度なしの視点で詳しく紹介する。
YouTube 動画と違って案件ではないので、それぞれのアプリの良い点と悪い点を忖度なしに、どこよりも詳しく紹介したい。
AI音声入力アプリには個性(コンセプト)がある
まず理解しておくべきは、AI音声入力アプリにはそれぞれ明確な「個性」と「コンセプト」があるということだ。単に声を文字にするという点では同じだが、その出力結果が目指すゴールは大きく異なっている。
「ありのまま」を追求するAquaVoice

コンセプト:高精度の高速の文字起こしツール
AquaVoiceは、キーボードに代わる「最も自然で高速なインターフェース」であることを目指している。
「ありのまま」を高速にデジタル化:
話した内容を、その場の雰囲気やニュアンスを保ったまま、極めて高い精度(誤り率0.9%程度)で即座にテキスト化することに特化しています。もちろん不要な言い直しや「えー」「あのー」といったフィラーは適切に修正してくれる。
コンテキスト(文脈)の自動理解:
独自の「Client Context Engine」を搭載しており、今開いているアプリケーション(Slack、Notion、コードエディタ等)を認識し、その場に最適なフォーマットで入力を行う。また、それらをある程度指示することもできる。

思考を妨げないスピード:
起動時間は200ms未満、応答速度は約500~600msと、話している最中からリアルタイムに近い感覚で出力が始まり、ユーザーの思考の流れを止めない設計になっている(←ここ重要)。
「音声入力の先」を考えるTypeless

コンセプト:音声入力を起点としたテキスト編集やAI処理のワークスペース
Typelessは、単なる文字起こしではなく、話し手の意図を汲み取って「完成された文章」を作り上げる「AI編集エージェント」としての側面が強いツールである。
インテリジェンスな「推敲」と「構造化」:
「えーと」などのフィラー除去や言い直しの自動修正はもちろんのこと、話した内容をそのまま出すのではなく、まるで清書・推敲したかのような、明確でプロフェッショナルなテキストに変換することに全力を注いでいる(箇条書きやリスト形式への返還も自動)
音性入力から派生した多彩な機能:
既存のテキストを選択して要約・翻訳させたりなど、単なる音声入力アプリではなく、音声を起点としたサービスを提供するワークスペース的な感覚。
プライバシーの徹底:
音声データをサーバーに保存しないことを全面的に謳っており、ビジネス環境での機密性を重視している。

簡単に言えば、AquaVoiceは「自分の声をそのまま高速デジタル変換するマシン」、Typelessは「話し手の頭の中にある完成図を代わりに出力してくれる秘書」と言えるかもしれない。
だから LINE や Discord、Xといった SNS ツールを常用するような人にとっては Typelessは自分の話した言葉が過度に編集されてしまい、使いにくさを感じるだろう。
反対に、メールやドキュメントの作成、Cursor エディタなどでの AI バイブコーディングなど、整理された文章を必要としている人にとっては AquaVoice は物足りなさを感じると思う。
このように、YouTuberが紹介しているような「単純にどちらが良いか」などという視点では測れない奥深さが、現在のAI音声入力アプリの難しいところでもあり、面白い点でもある。
出力結果の比較
ここでは、実際に僕が同じ内容を喋った際に、AquaVoiceとTypelessがどのようなテキストを生成したかを並べて提示する。()内は出力されるまでにかかったおおよその時間。
原文1(短文)
AquaVoiceとTypelessの違いを教えて
AquaVoice(0.51s)
AquaVoiceとType-lessの違いを教えてTypeless(1.2s)
AquaVoiceとTypelessの違いを教えて。
AquaVoice は短文でもレスポンスが速い。一方で Typeless はさすがに自社製品の名前を間違えない。
原文2(フィラー付き長文)
えーっと、AquaVoiceとTypelessを比較する方法について考えたいんだけど、一つは入力した単語、あ違う、音声がどの程度その通りに変換されるかどうか、逆に言うとどの程度要約して整理してくれるかどうか。
それから出力速度がどれぐらい早いかどうかも重要だし、えーあのー長文をしゃべったときに速度に違いが出るのかどうかも知りたい。
それと基本的なことだけど入力の精度がどれぐらいあるかももちろんだね。AquaVoice(0.5s)
Aqua Voice と Type-less を比較する方法について考えたいんだけど。
一つは、入力した単語が音声としてどの程度その通りに変換されるかどうか。逆に言うと、どの程度要約して整理してくれるかどうか。
それから、出力速度がどれぐらい速いかどうかも重要だし、長文を喋った時に速度に違いが出るのかどうかも知りたい。
それと、基本的なことだけど、入力の精度がどれくらいあるかももちろんだね。Typeless(3.5s)
AquaVoiceとTypelessを比較する方法について検討したい項目は、以下の通りです。
1. 音声がどの程度正確にテキスト化されるか
(a) 入力した音声が、どの程度その通りに変換されるか
(b) 逆に、どの程度要約して整理してくれるか
2. 出力速度のパフォーマンス
(a) 全体的な処理速度がどれぐらい速いか
(b) 長文を喋った際に、速度に違いが出るかどうか
3. 基本的な入力精度の高さこれらの観点を中心に考えたいと思います。
長文入力において、Typeless は AquaVoice と比較すると回答までのレスポンスに遅さを感じる。特に AquaVoice を使っていた方が Typeless に乗り換えた直後のタイミングでは、ストレスを感じるだろう。
しかし、Typeless は出力結果を見ての通り、文字起こし後に要約・整形という高度な処理を自動で行っていることなどを考えるとレスポンスの悪さも少し納得感が持て、さらに長く使っていくと、それが当たり前になってくるので、それほどストレスには感じない。
見方を変えると、AquaVoiceで出力した後に「この内容を要約して」と改めて指示を出して要約させることがよくあるが、Typeless は最初から要約されるのでその手間が省ける。時間短縮できる分、トータルで見れば AquaVoice よりも早い音声変換が実現できているケースもあると言える。
原文3(内容がまとまっていない文章)
あのー、無化調ラーメンっていうのがあって、無化調っていうのは要するに化学調味料を使っていないよっていうことを表してるんだよね。
で、中華料理なんかでは化学調味料を使うっていうのも一般的なんだけども、ラーメンでももちろん使われていたわけなんですよ。
でもやっぱりそういう化学調味料をずっと使い続けるっていうのは、あのーそういうものに頼りすぎると化学調味料で、の味になってしまうというわけで、そういったものを使わずに食材とかの本来の味わいとか品質というものを際立たせるために、素材を、あのいい素材を大量に使ったり、より旨味の強いような良質な食材を使ったり、みたいなことをいろいろとしなきゃいけないんだよね。AquaVoice(0.61s)
あの無化調ラーメンっていうのがあって、無化調っていうのは要するに化学調味料を使っていないよっていうことを表してるんだよね。
中華料理なんかでは化学調味料を使うっていうのも一般的なんだけども、ラーメンでももちろん使われていたわけなんですよ。
でもやっぱりそういう化学調味料をずっと使い続けるっていうのは、そういうものに頼りすぎると化学調味料で味になってしまうというわけで、そういったものを使わずに食材とかの本来の味わいとか品質というものを際立たせるために。
素材を、いい素材を大量に使ったり、より旨味の強いような良質な食材を使ったり、みたいなことをいろいろとしなきゃいけないんだよね。Typeless Windowsアプリ(4.37s)
「無化調ラーメン」というものがあって、この「無化調」というのは、要するに化学調味料を使っていないということを表しています。
中華料理などでは化学調味料を使うのが一般的ですし、もちろんラーメンでも使われてきました。しかし、やはり化学調味料を使い続けてそれらに頼りすぎてしまうと、どうしても「化学調味料の味」になってしまいます。
そういったものを使わずに、食材本来の味わいや品質を際立たせるためには、次のような工夫が必要になります:
1. 質の良い素材を大量に使う
2. より旨味の強い良質な食材を選ぶ
このように、素材を活かすためにさまざまな試行錯誤をしていかなきゃいけないんですよね。Typeless Android版(5.0s)
無化調ラーメンというのがあって、無化調というのは要するに「化学調味料を使っていない」ということを表しているんだよね。
中華料理なんかでは化学調味料を使うのが一般的だけども、ラーメンでももちろん使われてきたわけですよ。
でも、やっぱりそういう化学調味料をずっと使い続けると、それに頼りすぎて化学調味料の味になってしまう。
そういったものを使わずに、食材本来の味わいや品質を際立たせるためには、いろいろな工夫が必要になります。
1. 質のいい素材を大量に使う
2. より旨味の強い良質な食材を選ぶ
こういった手間をかけなきゃいけないんだよね。
話し手が内容をよく整理できていないような言葉や文章を喋ったときの例だが、AquaVoice は良くも悪くも最低限の調整しかせずに出力する(その代わり高速)。
一方で Typeless は出力速度は遅いものの、しっかりと内容を意味の通る文章に変えて出力してくれていることがわかる。
このように難しい文章や内容の複雑な文章を与えるほど、Aqua Voice と Typeless の違いが際立ってくる。また、Typeless にはスマホ版もあるが、それほど時間的な差異、同じようなクオリティで出力してくれていることがわかる。
原文4(Cursol チャットWindow上での変数・関数名の認識)
DEST_DIRという行を追加しました。
もしこの値が SOURCE_DIR と異なっていた場合は、変換後のファイルの出力先は DEST_DIR 配下とし、そこにサブフォルダも含めて SOURCE_DIR とフォルダ構成を維持したまま、つまり SOURCE_DIR には何の変更も行わないように出力してください。AquaVoice
デストDIRという行を追加しました。
もしこの値がソースDIRと異なっていた場合は、変換後のファイルの出力先はdestdir-hikerとし、そこにサブフォルダも含めてソースDIRとフォルダ構成を維持したまま出力してください。また、この時ソースDIRのファイル群は削除しないようにしてください。Typeless
DEST_DIRという行を追加しました。もしこの値が SOURCE_DIR と異なっていた場合は、変換後のファイルの出力先は DEST_DIR 配下とし、そこにサブフォルダも含めて SOURCE_DIR とフォルダ構成を維持したまま出力してください。
また、この時、SOURCE_DIR のファイル群は削除しないように(つまり SOURCE_DIR には何の変更も行わないように)してください。
Cursor エディタで、ソースコード内の変数名や関数名を言葉で表して指示を出すことはよくあるが、そのケースを実験してみた。AquaVoice はそのような変数名や関数名を認識せず、そのまま音声入力された内容を出力する。また、一部で変数名をご認識している。
一方で Typeless は画面の内容を見ているのか、アンダーバーも含めて変数名が正確に再現されていることに驚きを禁じ得ない。また、自動で()書きを入れたことにも驚いた。
次ページ:使い勝手の比較
AquaVoice 1か月無料紹介コード
Typeless を試してみる

コメント