リアルタイムの音声文字起こしが可能なWebアプリケーションです。マイクからの直接入力または音声ファイルのアップロードに対応しており、OpenAI GPT-4のAudioモデルを使用して高精度な文字起こしを実現します。
- 🎤 マイクを使用したリアルタイム音声録音と文字起こし
- 📁 音声ファイル(MP3)のアップロードによる文字起こし
- 🔊 録音した音声の再生機能
- 🇯🇵 日本語の音声に対応
- Python 3.13以上
- ffmpeg(音声変換用)
- OpenAI APIキー
- LangSmith API設定(オプション)
- uv(パッケージマネージャー)
- リポジトリのクローン:
git clone [リポジトリURL]
cd stt-tts-example- 依存パッケージのインストール:
uv sync- ffmpegのインストール:
- Windows: wingetを使用してインストール
winget install ffmpeg- macOS: Homebrewを使用してインストール
brew install ffmpeg.env.exampleを.envにコピー:
cp .env.example .env.envファイルを編集し、必要な環境変数を設定:
OPENAI_API_KEY="your-api-key-here"
AZURE_OPENAI_ENDPOINT="https://your-resource-name.openai.azure.com/"
AZURE_OPENAI_API_KEY="your-azure-openai-api-key-here"
AZURE_OPENAI_API_VERSION="2025-01-01-preview"
AZURE_OPENAI_DEPLOYMENT_NAME="your-deployment-name"
LANGSMITH_TRACING="true" # オプション
LANGSMITH_ENDPOINT="https://api.smith.langchain.com" # オプション
LANGSMITH_API_KEY="your-langsmith-api-key" # オプション
LANGSMITH_PROJECT="your-project-name" # オプション
- アプリケーションの起動:
export UV_ENV_FILE=.env
uv run streamlit run app.py-
ブラウザで
http://localhost:8501を開く -
入力方法を選択:
- 「マイクでリアルタイム文字起こし」: マイクボタンをクリックして録音を開始/停止
- 「音声ファイルをアップロード」: MP3ファイルをドラッグ&ドロップまたは選択
-
文字起こし結果が画面に表示されます
- マイクでの録音時は、ブラウザがマイクへのアクセスを要求します。許可してください。
- 音声ファイルのアップロードは現在MP3形式のみ対応しています。
- OpenAI APIの利用には課金が発生する可能性があります。