我第三次挑战自媒体视频：这次一个镜头都没拍

TL;DR：这是我第三次挑战自媒体视频了，前两次都失败了——不是没想法，是一个人扛不动选题、写稿、录制、剪辑、运营这一整套活。这次我没自己剪一秒视频、没拍一个镜头，而是用AI搭了一条内容流水线，自己只当「指挥家」：定方向、把关。一条视频从16到20个小时，压到了2个小时。

2020年的某个晚上，我把自己锁在房间里，对着手机镜头，一句话都说不出来。

那是我想拍的一条加拿大生活的8分钟左右的视频。我写了20年代码，对着开发工具从不打怵，可一对上那个小小的镜头，舌头就打结。一个镜头，我反反复复重录，录到第十几遍还在卡壳。光是录制，就耗掉我四五个小时。把选题、写稿、剪辑全都算上，一条片子前前后后吃掉16到20个小时。那一年，我做了5条视频，然后悄悄的停更了。

2020年，一个人深夜对着镜头，怎么也开不了口

这是我第三次挑战自媒体视频了。前两次，都失败了。今天想聊的不是「我成功了」——恰恰相反，是我怎么失败了两次，第三次又凭什么觉得这回不一样。

前两次：我在用蛮力，去填那个我一个人填不满的坑

第一次就是2020年那回，露脸拍海外生活。最折磨我的是录制那一关。镜头一开，我整个人就僵，越想说好越说不利索，一条几分钟的影片能录一晚上。剪辑也磨人，鼠标在时间轴上来回拖到半夜。做了5条，我就没力气了。

第二次是2024年，我学乖了，不露脸，改录科技产品开箱，前后做了大概20条，硬撑了三个月。这次撞上的是另一堵墙：我是小白，无法提前拿到最新的产品——等产品上架了，我自己掏钱买到，热度早过了，没人看（厂商都给头部大V样品让他们提前制作视频）；退货太多，还被商店悄悄盯上；想做点深度评测，又是个填不满的时间无底洞。三个月二十几个视频之后，又停更了。

两次失败，我后来仔细复盘，病根是同一个：我白天要上班，能匀给内容制作的时间，只有每天晚上那一两个小时、周末那三四个小时。我一个人，去填那个一个人根本填不满的坑。

网上教你做自媒体的，十个里有九个在喊「年入百万」「睡后收益」「普通人最后的机会」。可你冷静想想：网红千千万，真正能站到头部、靠这个养活一家人的，就那么几个。剩下绝大多数人，是默默无闻的分母。那两年的我，就是在用自己的下班时间和那点体力，去跟这个残酷的概率死磕——磕不过，是迟早的事。

三次做自媒体：前两次都败给"一个人扛不动"，第三次我把活交给了AI

第三次：我变的不是更勤奋，是想通了三件事

今年，我又开始挑战自媒体视频了。这次能做下去，靠的不是我突然长出了三头六臂，而是我想通了三件以前没想通的事。

第一件：把脏活交给机器，我不再亲自当那个瓶颈。 前两次，整条流水线上的每一个工位——构思、写稿、张嘴、剪辑、配字幕、做图、发布——都是我本人。我就是瓶颈，我累垮了，整条线就停了。这一次，我把能交出去的工作，全交给了AI。

第二件：专业的事情，交给专业的工位去做。 前两次，不管哪一摊活，从头到尾都是我一个人扛。可说实话，我真正算得上专业的，拿得准的，就是我自己的想法，剩下的全是半路出家、赶鸭子上架的半桶水。这一次我换了个办法：流水线上每一个AI工位，我都让它去学对应那一行的专业知识、去看那一行里真正的门道和高手怎么做、去用那一行最趁手的工具。一个工位只钻一件事，反倒比我从前样样自己上、样样稀松，做得好太多了。

第三件，也是更要紧的：做我喜欢折腾的东西。 前两次，我是「为了做内容而做内容」——加拿大生活、科技开箱，说实话都不是我心里真正惦记的事，是我觉得「这个有人看」才去做的。做着做着就空了。这次不一样：平时业余时间，我本来就在瞎折腾各种AI工具、写自动化脚本，这是我真正的爱好。现在我干脆把这个折腾的过程本身，变成了内容。当内容就是你本来在做的事，它就不再是额外的负担，而是顺手的副产品。 这三件事一叠加，做内容从一件要咬牙坚持的苦差，变成了一件顺手的事。

最难的不是干活，是找对工具、再把流程定下来

很多人以为，自动化做内容，难在「写代码」「调AI」。对我来说真不是。真正磨人的，是找到那个对的工具，再把它固定成一条不会崩的流程。

最早做视频，我用的是ffmpeg。出来的东西，说白了就是一页一页翻的电子相册——图片硬切，配上字，干巴巴的。更要命的是配图：一条5分钟左右的视频要30多张图，我得对着AI写提示词，生成一张、下载一张、改个名、放进指定文件夹，再生成下一张。每张折腾一分多钟，30多张排着队，又机械又乏味，做到一半就想砸键盘。有人可能会问，那为什么不让AI自动生成图片呢？不是技术无法实现，而是通过网络API调用AI直接生成图片贵啊，而且不一定是你觉得行的，然后各种反复，各种烧钱……

后来我一路查、一路学，撞见了Remotion——用写代码的方式去「画」动画。这一下，视频从电子相册变成了能动、有运镜、有节奏的片子，完全是另一个量级。再往后，我让AI分饰几个不同的角色：一个当「编剧」，把我写好的长文章改写成适合念出来的口播稿；一个当「分镜师」，把稿子切成一个一个镜头；剪辑、配字幕、做封面、切竖屏短视频、写发布文案，各有各的工位。到这一步，做出来的视频已经越来越像一部正经的电影了，而我自己，则是那个制片人兼导演。

我的AI剧组：一篇长博客进，一条成片出

我把这条流水线，从头到尾用大白话、一步一步写给你看。整条线的地基，是最前面那篇长博客——也是我花力气最多的地方。 后面的视频，全是通过这篇长博客生成的：

第一步，写长博客（我亲自下功夫最多的一步）：我跟AI来回讨论，把脑子里那点零碎想法，磨成一篇像样的长文章——就是你现在读的这篇。这一步定调、定事实、定我想说的话，是整条线的根。后面所有环节，都只是在搬运、转化它。
第二步，编剧把博客转成口播稿：「编剧」工位出场，把这篇长文章，改写成适合「念出来」的口播稿——书面话和说出来的话不是一回事，这个工位专门负责这个转换。
第三步，我照着口播稿录音：这一步我得亲自来，毕竟得是我的声音、我的话。我对着手机，照着稿子一段一段地念。不用露脸，没了当年那种磕巴和紧张——念着念着，居然还生出了练习语气语调，以后想当声优的念头。
第四步，分镜师切镜头：「分镜师」工位出场，把口播稿切成一个一个镜头，标好每一句该配什么画面，该如何运镜。
第五步，动画制作：「动画师」工位出场，我让「动画师」学最新的Remotion最佳实践，用代码把这些镜头一帧一帧画成会动的画面，有运镜、有节奏。
第六步，对字幕：「剪辑」工位出场，拿我的录音去跑语音识别，把字幕一个字一个字卡到和我说话的节奏严丝合缝——差半秒都不行。
第七步，拼成片：「剪辑」工位继续工作，把片头、片尾（这两段做一次就能反复用，不必每条重做）和正片的各个分段拼到一起，拼接成完整的横屏长视频。
第八步，切竖屏短视频：如果还想发短视频，「剪辑」工位继续加班，把长视频里最钩人的那一小段切出来、改成竖屏，做广告和导流。
第九步，运营发布：「运营」工位出场，帮我拟标题、配标签、安排好哪天几点发出去。

一整条线走下来，我真正下功夫的，是最前面那篇长博客，那是我最真实，最精髓的想法；剩下的，几乎只是照着既定的脚本一步一步地执行。

我只发动第一下——长博客转起来，后面的工序顺着脚本自动跟着转

流程里面每一个「工位」，我都不是随手点个工具就完事的，是一个一个试、一个一个踩坑试出来的。挑几个真实翻车的讲给你听：

有一次，我要的是横屏的长视频，结果一个尺寸参数搞反，整条影片做出来是竖的，白忙活一场；
字幕和我的录音老是对不齐，差个零点几秒，看着就别扭，把几个语音识别工具挨个试了一遍，才定下现在这套；
还有一次，我让AI画一个「存钱罐」当配图，它画出来是个圆角方块加一个圈——我自己都认不出那是啥，更别说观众。后来我才学会，得把图标画得「一眼能认出」，宁可土一点，也别抽象。

这些坑教会我一件事：AI很强，但它每次给的东西都不一样，质量飘忽。 你今天调得好好的，明天它又给你整点幺蛾子。所以我没有每次都现场跟它磨，而是把每一个环节，都写成一套固定的「技能」——相当于给每个工位立了规矩、定了标准动作，逼着AI每次都按这套既定要求来。这才是把「能做出来」变成「能稳定做出来」的关键。另外，光靠网上搜资料太浅，我还专门找了能扒各个平台真实数据的工具，去做选题调研，免得闭门造车。

把家底亮出来：这条线到底用了些什么

可能有人好奇，这么一条线，到底是拿什么搭起来的？我干脆把家底全亮出来——说穿了，大多是公开的开源工具，或者一个月几十块的AI服务，没什么神秘的大件。我挨个给你说说：

Claude（大脑，也是程序员）：整条线的总指挥。我那些代码、脚本，没一行是我自己写的，全是它写的；平时我就是跟它商量「这条该怎么弄」，它来调度后面每一个环节。
「技能」（给每个工位立的规矩）：这不是某个软件，而是我的笨办法——把选题调研、写博客、编剧、分镜、动画、字幕、切短视频、发布每一道工序，都写成一套固定的「操作手册」，逼着AI每次都照同一套标准来，不让它即兴发挥。这是把「偶尔做得出」变成「次次都稳」的关键。
Remotion（动画师）：一个用「写代码」的方式去画动画的工具。就是它，把我的视频从一页页翻的电子相册，变成了能动、有运镜、有节奏的片子。
Gemini（美工）：Google的AI画图，我用它出封面和文章配图，连图里的中文字都能写清楚。你现在看到的这些插图，都是它画的。
Whisper（字幕员）：一个语音识别工具。它把我的录音逐字听写出来，再把字幕一个字一个字卡到跟我说话的节奏严丝合缝。
agent-reach、yt-dlp（情报员）：动笔之前，我用它们去各个平台扒点真实数据，看看大家最近在看什么、什么角度有人爱听，免得自己闷头瞎写。
Hugo ＋ Cloudflare（博客的地基和门面）：Hugo把我写的文章生成一个真正的网站，Cloudflare负责把它挂到网上、让全世界都能打开——你现在看的这个站，就是这么来的。
YouTube（成片的去处）：视频做好了，往这儿发。

你看，没一样是花大价钱、要天赋异禀才玩得转的。难的从来不是某个工具单拎出来有多神，而是把它们一个一个串成一条不会断的线——这才是我这段时间正在磨的功夫。

我这条流水线的家底：用到的模型、软件、技能和工具

我一行代码都没写——那我到底干了什么？

说出来你可能不信：这一整套流水线，我一行代码都没碰。代码，全是AI写的。

那我这个「导演」到底干嘛？

我干的是机器干不了的那一摊活儿：想清楚到底要做什么、去理解这个世界和我的读者、跟人沟通、最后拍板。 AI能一口气给我十个版本的开头，但「哪一个才像人话、才戳得到屏幕那头的观众」，得我来挑；它能把稿子写得花团锦簇，但「这句会不会太像广告？那个事实对不对？」得我来把关；它能列一堆选题，但「这条灵感到底值不值得做」，得我来判断。

一句话——我是这支AI乐团的指挥家，也是总调度。乐手各司其职、技艺精湛，但他们不知道今晚要演什么、为谁演、什么时候该停。我作为指挥家，不亲自演奏任何音符，我只负责把这个团队攒起来并指挥他们为大家献上一场精彩的演出。

如此分工以后，效率就不可同日而语了。现在做一条视频，从过去的16到20个小时，压到了2个小时。跟AI来回讨论，把那篇长博客磨出来，是我花时间最多的地方，每次大概一个多小时。然后，机器照着文章埋头执行后续步骤，只要十几分钟。剩下半小时，我用来验收、修改。我亲手下功夫的，就三件事：把长博客磨出来、对着稿子录音、最后逐一把关。

一条视频从16-20小时压到2小时——我只做：磨长博客、录音、把关

这套思路，到底对谁有用

我特别认同Dan Koe那句话：「you are the niche」——你自己，就是那个独一无二的领域和品牌。每个人的经历、手艺、想法，都有值得分享出去的价值。这也是我一直深信不疑信的朴素道理：既然我刚好懂怎么折腾这些工具，那就把总结的经验分享出来，希望能够帮到同一条街上的邻居。

做内容：选题、调研、录制、配音、剪辑、运营……一个人，业余时间，还得养家，怎么忙得过来？一个人，又怎么可能精通这么多行当？工欲善其事，必先利其器。我的解法，就是搭一支各司其职的AI班子，让它们各自去学对应的专业、用对应的工具，帮我把心里那点东西，尽可能体面地传播出去。

所以这套东西，对有想法、有手艺、有热爱，却苦于一个人扛不动的人，最有用。你不一定要会写代码——我虽然会写但是一行代码都没出。你要会的，是想清楚自己到底想说什么，然后学会当那个指挥。

老实话：做得出来，不等于有人看

我得把丑话说在前头。别看我把这条流水线讲得这么顺——它远没到完美。 它还会崩、还在改，我还在一个坑一个坑地填。它解决的，只是「做得出来」这一关。

至于「有没有人看」？

我现在做的是个全新的频道，目前就3个订阅；上一条视频，发出去4个小时，播放是0。一点没夸张。「做得出来」和「有人看」，是两场完全不同的战役，第二场我还没打赢，甚至刚上场。所以你要是冲着「年入百万」点进来的，我得让你失望了——我连第一桶水还没见到。

但有一样东西，是实实在在变好了的：我晚上的时光，又属于我自己和家人了。

前两次做内容，我一下班、一到周末，就把自己锁进房间，对着屏幕熬。儿子在客厅喊我打游戏，我总说「等会儿、等会儿」，那个「等会儿」常常就到了半夜。现在，我把制作时间固定在周末的两到四个小时，完成以后上传平台并设置定时发布，剩下的每一个晚上，我都能踏踏实实陪陪家人、接送孩子、打两局游戏。灵感来了，随手用手机记一句，攒着，等周末让流水线自己去翻、去掂量哪条值得做。

现在，我把晚上还给了家人

回到2020年那个对着镜头说不出话、急得满头汗、憋屈的一脑袋包的我，这一次我终于明白：机器生来就是干脏活累活的，人，只需要留下方向和判断。我不必再把自己熬干，也能把想说的话，说出来，传播出去。

人类思考，科技支招｢AI｣起草，老夏定稿

前两次：我在用蛮力，去填那个我一个人填不满的坑#

第三次：我变的不是更勤奋，是想通了三件事#

最难的不是干活，是找对工具、再把流程定下来#

把家底亮出来：这条线到底用了些什么#

我一行代码都没写——那我到底干了什么？#

这套思路，到底对谁有用#

老实话：做得出来，不等于有人看#

订阅 · 老夏的自动化实验室