工具介绍
Whisper 是 OpenAI 开发的开源自动语音识别(ASR)系统,基于 68 万小时的多语言数据训练,采用 Transformer 序列到序列模型架构。支持多语言语音识别、语音翻译、口语语言识别和语音活动检测等功能,对口音、背景噪音和专业术语具有出色的鲁棒性。提供从 tiny 到 large-v3 等六种模型规格,turbo 版本在保持精度的同时大幅提升速度。完全开源免费,可在本地部署运行。2025 年 OpenAI 还推出了基于 GPT-4o 的新一代转录模型。
核心功能
- 开源免费
- 99种语言
- 高精度
- 本地运行
- API接口
使用场景
1将多语言音频和视频内容自动转录为精确的文字稿
2在本地服务器部署运行,保护音频数据隐私
3为播客和视频内容自动生成字幕和时间轴
4将外语语音实时翻译为英文文本
5为会议录音自动生成文字记录和摘要
6集成到应用程序中实现语音转文字功能
7处理口音和专业术语较多的音频内容转录
相关资源
定价方案
价格更新于 2026-04-22开源免费
免费
- MIT开源协议
- 本地部署无限使用
- 支持多语言
- 接近人类水平准确率
- 完全免费自托管
API调用
$0.006/每分钟
- OpenAI托管API
- 无需本地部署
- 新账户$5免费额度
- 按量计费
以上价格仅供参考,以官方最新定价为准
准备好开始使用 Whisper 了吗?
完全免费,立即开始体验