TL;DR:这是我第三次挑战自媒体视频了,前两次都失败了——不是没想法,是一个人扛不动选题、写稿、录制、剪辑、运营这一整套活。这次我没自己剪一秒视频、没拍一个镜头,而是用AI搭了一条内容流水线,自己只当「指挥家」:定方向、把关。一条视频从16到20个小时,压到了2个小时。
2020年的某个晚上,我把自己锁在房间里,对着手机镜头,一句话都说不出来。
那是我想拍的一条加拿大生活的8分钟左右的视频。我写了20年代码,对着开发工具从不打怵,可一对上那个小小的镜头,舌头就打结。一个镜头,我反反复复重录,录到第十几遍还在卡壳。光是录制,就耗掉我四五个小时。把选题、写稿、剪辑全都算上,一条片子前前后后吃掉16到20个小时。那一年,我做了5条视频,然后悄悄的停更了。

这是我第三次挑战自媒体视频了。前两次,都失败了。今天想聊的不是「我成功了」——恰恰相反,是我怎么失败了两次,第三次又凭什么觉得这回不一样。
前两次:我在用蛮力,去填那个我一个人填不满的坑
第一次就是2020年那回,露脸拍海外生活。最折磨我的是录制那一关。镜头一开,我整个人就僵,越想说好越说不利索,一条几分钟的影片能录一晚上。剪辑也磨人,鼠标在时间轴上来回拖到半夜。做了5条,我就没力气了。
第二次是2024年,我学乖了,不露脸,改录科技产品开箱,前后做了大概20条,硬撑了三个月。这次撞上的是另一堵墙:我是小白,无法提前拿到最新的产品——等产品上架了,我自己掏钱买到,热度早过了,没人看(厂商都给头部大V样品让他们提前制作视频);退货太多,还被商店悄悄盯上;想做点深度评测,又是个填不满的时间无底洞。三个月二十几个视频之后,又停更了。
两次失败,我后来仔细复盘,病根是同一个:我白天要上班,能匀给内容制作的时间,只有每天晚上那一两个小时、周末那三四个小时。我一个人,去填那个一个人根本填不满的坑。
网上教你做自媒体的,十个里有九个在喊「年入百万」「睡后收益」「普通人最后的机会」。可你冷静想想:网红千千万,真正能站到头部、靠这个养活一家人的,就那么几个。剩下绝大多数人,是默默无闻的分母。那两年的我,就是在用自己的下班时间和那点体力,去跟这个残酷的概率死磕——磕不过,是迟早的事。

第三次:我变的不是更勤奋,是想通了三件事
今年,我又开始挑战自媒体视频了。这次能做下去,靠的不是我突然长出了三头六臂,而是我想通了三件以前没想通的事。
第一件:把脏活交给机器,我不再亲自当那个瓶颈。 前两次,整条流水线上的每一个工位——构思、写稿、张嘴、剪辑、配字幕、做图、发布——都是我本人。我就是瓶颈,我累垮了,整条线就停了。这一次,我把能交出去的工作,全交给了AI。
第二件:专业的事情,交给专业的工位去做。 前两次,不管哪一摊活,从头到尾都是我一个人扛。可说实话,我真正算得上专业的,拿得准的,就是我自己的想法,剩下的全是半路出家、赶鸭子上架的半桶水。这一次我换了个办法:流水线上每一个AI工位,我都让它去学对应那一行的专业知识、去看那一行里真正的门道和高手怎么做、去用那一行最趁手的工具。一个工位只钻一件事,反倒比我从前样样自己上、样样稀松,做得好太多了。
第三件,也是更要紧的:做我喜欢折腾的东西。 前两次,我是「为了做内容而做内容」——加拿大生活、科技开箱,说实话都不是我心里真正惦记的事,是我觉得「这个有人看」才去做的。做着做着就空了。这次不一样:平时业余时间,我本来就在瞎折腾各种AI工具、写自动化脚本,这是我真正的爱好。现在我干脆把这个折腾的过程本身,变成了内容。当内容就是你本来在做的事,它就不再是额外的负担,而是顺手的副产品。 这三件事一叠加,做内容从一件要咬牙坚持的苦差,变成了一件顺手的事。
最难的不是干活,是找对工具、再把流程定下来
很多人以为,自动化做内容,难在「写代码」「调AI」。对我来说真不是。真正磨人的,是找到那个对的工具,再把它固定成一条不会崩的流程。
最早做视频,我用的是ffmpeg。出来的东西,说白了就是一页一页翻的电子相册——图片硬切,配上字,干巴巴的。更要命的是配图:一条5分钟左右的视频要30多张图,我得对着AI写提示词,生成一张、下载一张、改个名、放进指定文件夹,再生成下一张。每张折腾一分多钟,30多张排着队,又机械又乏味,做到一半就想砸键盘。有人可能会问,那为什么不让AI自动生成图片呢?不是技术无法实现,而是通过网络API调用AI直接生成图片贵啊,而且不一定是你觉得行的,然后各种反复,各种烧钱……
后来我一路查、一路学,撞见了Remotion——用写代码的方式去「画」动画。这一下,视频从电子相册变成了能动、有运镜、有节奏的片子,完全是另一个量级。再往后,我让AI分饰几个不同的角色:一个当「编剧」,把我写好的长文章改写成适合念出来的口播稿;一个当「分镜师」,把稿子切成一个一个镜头;剪辑、配字幕、做封面、切竖屏短视频、写发布文案,各有各的工位。到这一步,做出来的视频已经越来越像一部正经的电影了,而我自己,则是那个制片人兼导演。

我把这条流水线,从头到尾用大白话、一步一步写给你看。整条线的地基,是最前面那篇长博客——也是我花力气最多的地方。 后面的视频,全是通过这篇长博客生成的:
- 第一步,写长博客(我亲自下功夫最多的一步):我跟AI来回讨论,把脑子里那点零碎想法,磨成一篇像样的长文章——就是你现在读的这篇。这一步定调、定事实、定我想说的话,是整条线的根。后面所有环节,都只是在搬运、转化它。
- 第二步,编剧把博客转成口播稿:「编剧」工位出场,把这篇长文章,改写成适合「念出来」的口播稿——书面话和说出来的话不是一回事,这个工位专门负责这个转换。
- 第三步,我照着口播稿录音:这一步我得亲自来,毕竟得是我的声音、我的话。我对着手机,照着稿子一段一段地念。不用露脸,没了当年那种磕巴和紧张——念着念着,居然还生出了练习语气语调,以后想当声优的念头。
- 第四步,分镜师切镜头:「分镜师」工位出场,把口播稿切成一个一个镜头,标好每一句该配什么画面,该如何运镜。
- 第五步,动画制作:「动画师」工位出场,我让「动画师」学最新的Remotion最佳实践,用代码把这些镜头一帧一帧画成会动的画面,有运镜、有节奏。
- 第六步,对字幕:「剪辑」工位出场,拿我的录音去跑语音识别,把字幕一个字一个字卡到和我说话的节奏严丝合缝——差半秒都不行。
- 第七步,拼成片:「剪辑」工位继续工作,把片头、片尾(这两段做一次就能反复用,不必每条重做)和正片的各个分段拼到一起,拼接成完整的横屏长视频。
- 第八步,切竖屏短视频:如果还想发短视频,「剪辑」工位继续加班,把长视频里最钩人的那一小段切出来、改成竖屏,做广告和导流。
- 第九步,运营发布:「运营」工位出场,帮我拟标题、配标签、安排好哪天几点发出去。
一整条线走下来,我真正下功夫的,是最前面那篇长博客,那是我最真实,最精髓的想法;剩下的,几乎只是照着既定的脚本一步一步地执行。

流程里面每一个「工位」,我都不是随手点个工具就完事的,是一个一个试、一个一个踩坑试出来的。挑几个真实翻车的讲给你听:
- 有一次,我要的是横屏的长视频,结果一个尺寸参数搞反,整条影片做出来是竖的,白忙活一场;
- 字幕和我的录音老是对不齐,差个零点几秒,看着就别扭,把几个语音识别工具挨个试了一遍,才定下现在这套;
- 还有一次,我让AI画一个「存钱罐」当配图,它画出来是个圆角方块加一个圈——我自己都认不出那是啥,更别说观众。后来我才学会,得把图标画得「一眼能认出」,宁可土一点,也别抽象。
这些坑教会我一件事:AI很强,但它每次给的东西都不一样,质量飘忽。 你今天调得好好的,明天它又给你整点幺蛾子。所以我没有每次都现场跟它磨,而是把每一个环节,都写成一套固定的「技能」——相当于给每个工位立了规矩、定了标准动作,逼着AI每次都按这套既定要求来。这才是把「能做出来」变成「能稳定做出来」的关键。另外,光靠网上搜资料太浅,我还专门找了能扒各个平台真实数据的工具,去做选题调研,免得闭门造车。
把家底亮出来:这条线到底用了些什么
可能有人好奇,这么一条线,到底是拿什么搭起来的?我干脆把家底全亮出来——说穿了,大多是公开的开源工具,或者一个月几十块的AI服务,没什么神秘的大件。我挨个给你说说:
- Claude(大脑,也是程序员):整条线的总指挥。我那些代码、脚本,没一行是我自己写的,全是它写的;平时我就是跟它商量「这条该怎么弄」,它来调度后面每一个环节。
- 「技能」(给每个工位立的规矩):这不是某个软件,而是我的笨办法——把选题调研、写博客、编剧、分镜、动画、字幕、切短视频、发布每一道工序,都写成一套固定的「操作手册」,逼着AI每次都照同一套标准来,不让它即兴发挥。这是把「偶尔做得出」变成「次次都稳」的关键。
- Remotion(动画师):一个用「写代码」的方式去画动画的工具。就是它,把我的视频从一页页翻的电子相册,变成了能动、有运镜、有节奏的片子。
- Gemini(美工):Google的AI画图,我用它出封面和文章配图,连图里的中文字都能写清楚。你现在看到的这些插图,都是它画的。
- Whisper(字幕员):一个语音识别工具。它把我的录音逐字听写出来,再把字幕一个字一个字卡到跟我说话的节奏严丝合缝。
- agent-reach、yt-dlp(情报员):动笔之前,我用它们去各个平台扒点真实数据,看看大家最近在看什么、什么角度有人爱听,免得自己闷头瞎写。
- Hugo + Cloudflare(博客的地基和门面):Hugo把我写的文章生成一个真正的网站,Cloudflare负责把它挂到网上、让全世界都能打开——你现在看的这个站,就是这么来的。
- YouTube(成片的去处):视频做好了,往这儿发。
你看,没一样是花大价钱、要天赋异禀才玩得转的。难的从来不是某个工具单拎出来有多神,而是把它们一个一个串成一条不会断的线——这才是我这段时间正在磨的功夫。

我一行代码都没写——那我到底干了什么?
说出来你可能不信:这一整套流水线,我一行代码都没碰。代码,全是AI写的。
那我这个「导演」到底干嘛?
我干的是机器干不了的那一摊活儿:想清楚到底要做什么、去理解这个世界和我的读者、跟人沟通、最后拍板。 AI能一口气给我十个版本的开头,但「哪一个才像人话、才戳得到屏幕那头的观众」,得我来挑;它能把稿子写得花团锦簇,但「这句会不会太像广告?那个事实对不对?」得我来把关;它能列一堆选题,但「这条灵感到底值不值得做」,得我来判断。
一句话——我是这支AI乐团的指挥家,也是总调度。乐手各司其职、技艺精湛,但他们不知道今晚要演什么、为谁演、什么时候该停。我作为指挥家,不亲自演奏任何音符,我只负责把这个团队攒起来并指挥他们为大家献上一场精彩的演出。
如此分工以后,效率就不可同日而语了。现在做一条视频,从过去的16到20个小时,压到了2个小时。跟AI来回讨论,把那篇长博客磨出来,是我花时间最多的地方,每次大概一个多小时。然后,机器照着文章埋头执行后续步骤,只要十几分钟。剩下半小时,我用来验收、修改。我亲手下功夫的,就三件事:把长博客磨出来、对着稿子录音、最后逐一把关。

这套思路,到底对谁有用
我特别认同Dan Koe那句话:「you are the niche」——你自己,就是那个独一无二的领域和品牌。每个人的经历、手艺、想法,都有值得分享出去的价值。这也是我一直深信不疑信的朴素道理:既然我刚好懂怎么折腾这些工具,那就把总结的经验分享出来,希望能够帮到同一条街上的邻居。
做内容:选题、调研、录制、配音、剪辑、运营……一个人,业余时间,还得养家,怎么忙得过来?一个人,又怎么可能精通这么多行当?工欲善其事,必先利其器。我的解法,就是搭一支各司其职的AI班子,让它们各自去学对应的专业、用对应的工具,帮我把心里那点东西,尽可能体面地传播出去。
所以这套东西,对有想法、有手艺、有热爱,却苦于一个人扛不动的人,最有用。你不一定要会写代码——我虽然会写但是一行代码都没出。你要会的,是想清楚自己到底想说什么,然后学会当那个指挥。
老实话:做得出来,不等于有人看
我得把丑话说在前头。别看我把这条流水线讲得这么顺——它远没到完美。 它还会崩、还在改,我还在一个坑一个坑地填。它解决的,只是「做得出来」这一关。
至于「有没有人看」?
我现在做的是个全新的频道,目前就3个订阅;上一条视频,发出去4个小时,播放是0。一点没夸张。「做得出来」和「有人看」,是两场完全不同的战役,第二场我还没打赢,甚至刚上场。所以你要是冲着「年入百万」点进来的,我得让你失望了——我连第一桶水还没见到。
但有一样东西,是实实在在变好了的:我晚上的时光,又属于我自己和家人了。
前两次做内容,我一下班、一到周末,就把自己锁进房间,对着屏幕熬。儿子在客厅喊我打游戏,我总说「等会儿、等会儿」,那个「等会儿」常常就到了半夜。现在,我把制作时间固定在周末的两到四个小时,完成以后上传平台并设置定时发布,剩下的每一个晚上,我都能踏踏实实陪陪家人、接送孩子、打两局游戏。灵感来了,随手用手机记一句,攒着,等周末让流水线自己去翻、去掂量哪条值得做。

回到2020年那个对着镜头说不出话、急得满头汗、憋屈的一脑袋包的我,这一次我终于明白:机器生来就是干脏活累活的,人,只需要留下方向和判断。我不必再把自己熬干,也能把想说的话,说出来,传播出去。
人类思考,科技支招 「AI」起草,老夏定稿
