
LiveTRとは
PCで再生中の動画の英語音声をリアルタイムに認識して、日本語に翻訳するWindows用アプリです。翻訳結果は字幕として画面にオーバーレイ表示され、日本語で読み上げもしてくれます。
YouTube、Twitch、ローカル動画ファイル。英語の音声が流れていれば、ソースは問いません。
主な機能
- リアルタイム音声認識 — faster-whisperで英語音声をその場で文字起こしします
- 日本語翻訳 — オンライン翻訳サービス(Google Cloud、DeepL、Azure、Amazon)に対応しています
- 字幕オーバーレイ — 翻訳結果を透過ウィンドウで表示します。位置やサイズは調整可能で、クリックは透過します
- 日本語読み上げ — AivisSpeechで翻訳結果を読み上げます。話者の声質を自動で反映します
- 自動ダッキング — 読み上げ中は動画の音量を自動で下げて、聞き取りやすくします
- プロセス単位の音声キャプチャ — 指定したアプリの音声だけを拾います。読み上げ音声を再キャプチャするループも防止しています
使い方
- アプリを起動します
- 音声をキャプチャしたいプロセスを選択します
- 「開始」を押すと、音声認識・翻訳・字幕表示・読み上げが始まります
動作環境
- Windows 10 / 11(64bit)
- NVIDIA GPU(CUDA 12.x対応)
- メモリ 16GB以上推奨
GPU必須です。音声認識モデルをリアルタイムで回すので、それなりのスペックが要ります。
開発の話
Claude Codeだけで作りました。期間は約4日。
OLTranslatorが画面のテキストを翻訳するアプリだったので、「じゃあ音声も同じことできないか」と思って作り始めました。OLTranslatorはCopilotで2週間かかったので、それと比べるとかなり速い。もちろん自分がAIコーディングに慣れてきた部分もあるが、CLAUDE.mdでプロジェクトの方針を引き継げることと、設計→指示→レビューのサイクルがClaude Codeだと自然に回るのが大きかった。
こだわったところ
音声認識で拾った文を、どこで切って翻訳に回すか。一文をどこで区切るか、途中で切られてしまったらどう繋げるか。これは翻訳精度に直結するので、かなり気を使いました。
話者の性別判定にもこだわりました。読み上げの声を話者に合わせたかったので、論文や特許を参考にしながらClaude Codeと一緒にロジックを組みました。AivisSpeechには複数の話者モデルがあるので、男性の声なら男性っぽく、女性の声なら女性っぽく読み上げます。
ただ、この性別判定がかなり厄介だった。ピッチだけで判定すると、F1実況みたいに興奮してピッチが上がる場面で男性が女性判定になる。この問題をどう解決したかは「自力じゃ無理なロジック、Claudeと論文から組み立てた話」で詳しく書いた。
ダウンロード
関連記事
- OLTranslator — 画面テキスト版の翻訳アプリ。OLTranslatorが「文字」、LiveTRが「音声」。同じ翻訳でもアプローチが全然違う
- 自力じゃ無理なロジック、Claudeと論文から組み立てた話 — 性別判定ロジックの技術的な深掘り
このブログ「Claude Code 始めました」は、Claude MAX ユーザーが実際の開発で使いながら学んだことを記録していくサイトです。