Whisper Transcription

专业级AI驱动语音转文字工具

MacWhisper(Whisper Transcription)是一个专为Mac用户设计的音频文件转写文本的应用,采用OpenAI的尖端转录技术Whisper,无论是录制会议、讲座还是其他重要音频,MacWhisper都能快速准确地将您的音频文件转换成文本。

这个应用允许用户轻松地录制并转写音频文件,只需拖放音频文件即可获得高质量的转录文本。MacWhisper支持直接从麦克风或Mac上的任何其他输入设备录制,所有转录工作都在设备上完成,不会有数据离开您的机器,非常适合处理采访等敏感音频。

此外,您可以将转录保存或导出为.whisper文件,包含原始音频和所有转录编辑,方便分享,并支持导出.srt、.vtt字幕以及csv、dote、docx、pdf和html格式。MacWhisper利用Metal和GPU加速实现极速转录,几乎实时获取准确的文本转录,并支持100种不同语言。

MacWhisper Pro版提供更多功能,包括批量转录、支持WhisperKit和Distilled模型、手动添加发言者以清晰导出、菜单栏应用快速访问、全局访问、集成ChatGPT和Anthropic Claude(需自有API密钥)、录制和转录系统音频、支持多种大小模型和自定义GGML模型、通过Whisper将音频文件翻译成另一种语言、使用DeepL API密钥翻译整个转录或特定片段、内置和独立视频播放器支持字幕和多语言字幕、转录播客的单轨音频等。

MacWhisper Pro是一次性付费,提供更高优先级的支持,并为记者、学生或非营利组织提供折扣。如果购买后7天内不满意,提供退款服务。MacWhisper要求Mac具有超过8GB的RAM以支持中等和大型模型,对旧款基于Intel的Mac性能可能会有影响。

Whisper for Mac可以转录100种不同的语言的音频。Whisper是在Georgi Gerganov的辛勤工作的基础上制作的,你可以在这里查看他的Whisper实现:https://github.com/ggerganov/whisper.cpp。

功能
MacWhisper:使用OpenAI先进技术快速准确转录音频文件

使用OpenAI的先进转录技术Whisper,您可以快速轻松地将音频文件转录成文本。无论是录制会议、讲座还是其他重要音频,MacWhisper都能迅速准确地将您的音频文件转录成文本。

特点
  • 在您的Mac上轻松录制和转录音频文件
  • 只需拖放音频文件即可获得高质量的转录
  • 直接从您的麦克风或Mac上的任何其他输入设备录制
  • 所有转录工作都在您的设备上完成,不会有数据离开您的机器。这使得MacWhisper成为处理敏感音频(如访谈)的绝佳应用程序。
  • 将您的转录保存或导出为.whisper文件,其中包括原始音频和所有转录编辑,便于分享
  • 支持.srt和.vtt字幕导出,以及csv、dote、docx、pdf和html格式导出
  • 支持Metal和GPU,极速转录
  • 几秒钟内获得准确的文本转录(最高可达约30倍实时速度)
  • 搜索整个转录并高亮显示单词
  • 音频播放与转录同步
  • 支持100种不同语言
  • 复制整个转录或个别部分
  • 标星/收藏片段
  • 紧凑模式(隐藏时间戳)
  • 自动移除呃、嗯等填充词
  • 直接从语音备忘录拖放
  • 编辑和删除转录中的片段
  • 忽略转录中的[SILENCE]等片段
  • 手动添加最多两名发言人
  • 内嵌视频播放器
  • 选择转录语言(或使用自动检测)
  • 支持的格式包括mp3、wav、m4a、ogg、opus、mov和mp4视频。
  • 调整Whisper设置(beam search / greedy,beam大小等)
  • 支持Tiny、Base和Small转录质量(并且您可以比较所有质量级别之间的转录质量)
MacWhisper Pro
  • 包括以上所有特性
  • 批量转录多个文件。如果您想为整个节目季添加字幕,或者有很多访谈需要处理,这非常有用
  • 支持WhisperKit和Distilled模型
  • 手动向您的转录中添加发言人,以便更干净的导出
  • 菜单栏应用程序,从您的Mac的任何地方访问Whisper
  • 全局访问MacWhisper,从任何地方以类似Spotlight的视图即时转录并轻松粘贴到其他应用中
  • 集成ChatGPT(需使用您自己的API密钥)
  • 集成Anthropic Claude(需使用您自己的API密钥)
  • 录制和转录系统音频(例如录制会议)
  • 支持Tiny(仅限英语)、Tiny、Base、Small、Medium和Large(V2和V3)模型
  • 添加您自己的自定义GGML模型
  • 通过Whisper将音频文件翻译成另一种语言(使用Medium或Large模型,结果可能不完美,我正在研究更高级的方法来实现这一点)
  • 通过添加您自己的(免费的)DeepL API密钥翻译整个转录
  • 将片段翻译成不同语言,以自动生成自定义字幕
  • 内嵌和独立视频播放器,支持字幕和多种翻译字幕
  • 通过合并每位主持人的单轨音频来转录播客(测试版)
支持的100种语言

MacWhisper可以转录以下语言的音频:

英语、中文、德语、西班牙语、俄语、韩语、法语、日语、葡萄牙语、土耳其语、波兰语、加泰罗尼亚语、荷兰语、阿拉伯语、瑞典语、意大利语、印尼语、印地语、芬兰语、越南语、希伯来语、乌克兰语、希腊语、马来语、捷克语、罗马尼亚语、丹麦语、匈牙利语、泰米尔语、挪威语、泰语、乌尔都语、克罗地亚语、保加利亚语、立陶宛语、拉丁语、毛利语、马拉雅拉姆语、威尔士语、斯洛伐克语、泰卢固语、波斯语、拉脱维亚语、孟加拉语、塞尔维亚语、阿塞拜疆语、斯洛文尼亚语、卡纳达语、爱沙尼亚语、马其顿语、布列塔尼语、巴斯克语、冰岛语、亚美尼亚语、尼泊尔语、蒙古语、波斯尼亚语、哈萨克语、阿尔巴尼亚语、斯瓦希里语、加利西亚语、马拉地语、旁遮普语、僧伽罗语、高棉语、绍纳语、约鲁巴语、索马里语、南非荷兰语、奥克西坦语、格鲁吉亚语、白俄罗斯语、塔吉克语、信德语、古吉拉特语、阿姆哈拉语、意第绪语、老挝语、乌兹别克语、法罗语、海地克里奥尔语、普什图语、土库曼语、尼诺斯克语、马耳他语、梵文、卢森堡语、缅甸语、藏语、塔加洛语、马达加斯加语、阿萨姆语、鞑靼语、夏威夷语、林加拉语、豪萨语、巴什基尔语、爪哇语、巽他语。

系统要求

MacWhisper需要大量的计算机内存才能正常工作。要使用Medium和Large模型,您的Mac应该有超过8GB的RAM。在较旧的基于Intel的Mac上性能也可能不佳,但我还没有能够适当地测试这一点。

版本历史
常见问题

运行终端.app,执行sudo xattr -rc /Applications/xxx.app,路径改成安装包的路径;完成后再次打开应用程序,你会看到一个信息确认框,大意是提示运行该程序有风险,点击「打开」即可。

点击查看详细帮助

按住 Control 键,鼠标单击该软件,在弹出的菜单中选择 打开;或 鼠标右键 点击该软件,选择「显示包内容」,然后进入 Contents → MacOS → 按住 Control + 鼠标左键单击此目录中与该软件同名的 Unix 可执行程序; 以上操作过后,该软件会加入 macOS 内置的安全设置白名单中,下次就可以正常从启动台运行。

点击查看详细帮助

打开:偏好设置 → 隐私与安全性 → 安全性;选择任何来源

没有任何来源选项?

运行终端.app,执行下面代码:

  • 如果是 macOS 10.12 ~ 10.15.7:sudo spctl --master-disable
  • 如果是 macOS 11.0 及以上版本系统:sudo spctl --global-disable

点击查看详细帮助

  • 首先选择与自己macOS系统对应的版本,比如电脑芯片、版本等。
  • 多个破解版本存在建议使用TNT版,安装简单方便,其他的都有点复杂,对于小白用户来说有点困难。
  • 100M以内的文件在蓝筹云里,下载速度还可以。大于100M的分别在百度网盘和阿里云盘;百度网盘限速严重,因此建议使用阿里网盘。

本站前期的部分安装包需要密码,请尝试输入hellomac.cc。后面逐渐取消密码设置。

如何关闭 SIP?关闭后有什么影响??

SIP 指的是 System Integrity Protection,即系统完整性保护。这是一个用于保护 macOS 系统文件不被篡改的安全机制,自 macOS 10.11 开始引入。当 SIP 被关闭后,macOS 会面临一定的安全风险,如果你的数据非常重要则请谨慎关闭,风险自担。


如何关闭 SIP?

首先进入回复模式:

  • 英特尔机型:重启,当屏幕彻底变黑后,赶快按住 Command + R 键,直到屏幕上出现苹果标志。如果之前没有进入过这个模式,macOS 可能需要下载一些数据,当下载完成后,macOS 将自动进入恢复模式,即 Recovery。
  • M1/M2(Apple Silicon):Mac 处于关机状态时,按住电源按钮大约 10 秒直到屏幕亮起,然后转到“选项”(Options),可能需要输入系统密码。

终端.app中运行:csrutil disable

重启!