语音笔记自动化：我是怎么把每天的碎碎念变成可发布内容的

我有一个用了好几年的习惯：随时录音。

走路想到什么，录。开车有个念头，录。刚开完会脑子还热着，录。我用的是一支 DJI Mic 3，小小一个挂在脖子上，按一下就开始录，再按一下停，文件自动存到录音笔的内存里。

问题是录完以后怎么办。

把录音导出来、用工具转成文字、再手动整理成结构化的笔记、再决定哪些内容可以发布、发布前再润色一遍... 每一步都不难，但加在一起每天要花掉我一到两个小时。而且这件事没有截止日期，没有外部压力，所以它很容易就被推到"等我有空的时候"那个抽屉里。

结果就是：录了很多音，整理了很少，发布了更少。

我真正想要的是什么

我给自己设了一个目标：把整个流程压缩到"一条命令"。

录音笔 SD 卡里的文件拷进来，跑一个脚本，然后我就能在 Obsidian 里看到当天整理好的笔记。如果有些内容值得发布，打个 #Share 标签，再跑一个命令，三个平台（推特、LinkedIn、YouTube）各自准备好的内容就全存到内容库里。

这不是说我想让 AI 替我写东西。我想要的是：我的想法，我的声音，用我的语气写出来，但不需要我坐在那里一个字一个字整理。整个过程我可以全程不参与，但每个环节都有我的影子。

这是一个细节上的区别，但对我来说非常重要。

这就是最终成果：AI自动整理的笔记，按天、分类，自动加上标签和场景。

动手之前先想清楚架构

我不会编程，但我会用 Claude Code 做 Vibe Coding。对我来说，这个过程有点像跟一个超级靠谱的工程师结对——我说想法，它写代码，我测试，出了问题一起 debug，然后继续迭代。

整个流程我拆成三个阶段：

第一阶段：录音变文字。 录音笔里出来的 .wav 文件，用 Whisper 模型转成文本。我优先用 Buzz（一个 macOS 上的 Whisper GUI），失败了自动切到 Python 的 whisper 库。

第二阶段：文字变笔记。 把一天的转写文本打包发给 Claude API，让它帮我整理成结构化的 Markdown 笔记。每条笔记有标题、场景标注、时间戳，内容一字不删，只修错别字和断句。

第三阶段：笔记变帖子。 我在笔记里打 #Share 标签的条目，会被提取出来，然后再调用一次 Claude，同时生成三个版本：推特中文长文、LinkedIn 英文、YouTube Shorts 标题加 hashtag。每条帖子单独存成一个 Markdown 文件，进我的内容库。

实际搭建的过程

说起来三步，做起来当然不是这么顺滑的。

最开始的 bug 很典型：Buzz 的命令行接口在新版本里把子命令藏起来了。我的代码直接调 Buzz --task transcribe ...，结果它每次都悄悄打开 GUI 等待用户操作，两分钟超时，然后 fallback 到 whisper。程序没报错，但其实从来没有真正用过 Buzz。

找到原因的时候有点好笑。正确的调用方式是 Buzz add --task transcribe ...，差一个 add，完全两种行为。而且 Buzz 输出的文件名还带着时间戳后缀，跟代码里预期的不一样，又要加一步重命名。这种 "程序跑通但结果不对" 的情况，是 Vibe Coding 里最难调的——因为你的第一反应是"它成功了"，而不是"这里有问题"。

比较有意思的是 token 截断的问题。生成社交帖子时，我给 Claude 的 max tokens 按输入长度的 1.2 倍估算。听起来有余量，但问题是：输入是一段语音笔记，输出要生成三个平台的内容，实际输出量是输入的三四倍。7 条笔记送进去，只有 6 条出来，最后一条被截断了。改成 4 倍之后，全部完整。

还有一个关于架构判断的决策，我选择了"一次 API 调用生成所有平台内容"，而不是分三次。这样更快，而且 Claude 能在同一个上下文里保持语气的一致性。代价是 prompt 要写得更清楚，每个平台的要求要讲明白。

现在的运行效果

目前这套流程已经稳定跑了几周。

每天的录音，从录音笔拷出来，跑一条命令，几分钟之内就能在 Obsidian 里看到当天的笔记。12 条语音，8 个主题，时间戳、场景标注都在，全量保留，没有任何删减。

社交帖子的部分，我在笔记里标注好 #Share，跑一条命令，每条帖子就有推特、LinkedIn 和 YouTube Shorts 三个版本，按月份存到 Bear Content Vault 里，等我发布的时候直接拿来用或者微调。

最让我觉得值得的，是我现在在做这件事的过程本身。我不需要在发布的时候再坐下来想"这条内容怎么改成英文"，也不需要在录完音之后马上找时间整理，流程已经在那里了，我的工作是往里放原材料，它自动处理。

几个我认为重要的设计判断

零删减原则。 精修只修错别字和断句，不压缩、不总结、不删内容。这条原则很重要，因为我记录语音的目的是把脑子里的东西完整地留下来，而不是只留下重点。

幂等设计。 所有步骤重复运行都是安全的，已处理的文件会被跳过。这让我可以随时中断，随时继续，不用担心重复处理或数据丢失。

分层输出。 同一批内容，一次处理完，同时输出到三个平台。这不只是效率问题，更是风格一致性问题。在同一个 context 里生成的内容，表达方式更统一，比分开处理更自然。

还在想的事情

这套流程里有个地方我还没解决：会议和通话。

我有时候会和客户开会，和合作者通话，这些录音里有很多有价值的东西。但它的处理方式跟个人语音笔记不太一样，它需要的是"结构化摘要"，包括议题、决策、行动项，而不是全量保留。这是下一个要做的版本。

还有一件更有意思的事：当我把播客的制作也自动化了之后，我发现自己一周能更新三期，而原来只能一期。内容量上去了，但"我在每期里的存在感"反而没有消失，因为那些材料、那些判断、那些措辞，还是我的。

这就是我认为好的自动化应该长的样子：不是替代你，而是让你的东西跑得更远。

工具链

硬件：DJI Mic 3 录音笔
转写：Buzz（macOS）/ OpenAI Whisper（fallback）
精修 & 生成：Claude API（claude-sonnet-4-5）
笔记管理：Obsidian
内容库：Bear Content Vault（iCloud 同步）
代码协作：Claude Code（Vibe Coding）

项目开源在 GitHub：voice-daily-note

语音笔记自动化：我是怎么把每天的碎碎念变成可发布内容的

语音笔记自动化：我是怎么把每天的碎碎念变成可发布内容的

我真正想要的是什么

动手之前先想清楚架构

实际搭建的过程

现在的运行效果

几个我认为重要的设计判断

还在想的事情

Comments

More from this blog

我评了 21 个 Hackathon Pitch 之后，整理出这个金字塔 Pitch 公式

工程师为什么离不开 Linear：一个设计师的诚实拉片

45 岁：离开系统之后

AI 时代设计师的跃迁与机遇

诚实复盘：裸辞 Xero 单干一年，值吗？

Command Palette

语音笔记自动化：我是怎么把每天的碎碎念变成可发布内容的

我真正想要的是什么

动手之前先想清楚架构

实际搭建的过程

现在的运行效果

几个我认为重要的设计判断

还在想的事情

Comments

More from this blog