SkillAgentSearch skills...

Xiaoniu

小牛视频翻译 是一款支持本地视频翻译、字幕翻译和 YouTube 视频翻译下载的 AI 工具,集成自动语音识别与多语言翻译功能,助力创作者高效完成视频翻译,应用于视频本地化与视频出海场景。

Install / Use

/learn @agan-j/Xiaoniu

README

《小牛AI视频翻译》: 专注短剧-视频出海 . ☛查看下载地址

一、介绍:

《小牛AI视频翻译》是一款视频AI翻译工具。它可以一键将视频中的语音或字幕翻译成中文、英语、日语、法语、韩语等多种语言,轻松实现多语言版本。通过AI技术,它还能生成全新的翻译视频,自动保留背景音效并替换为新的翻译语音,实现声音和嘴型的精准同步。 无论是制作短剧,还是企业推广抖音、TikTok、YouTube等平台的视频,《小牛AI视频翻译》都能助您轻松跨越语言障碍,让视频在全球范围内更广泛地传播与分享。

二、小牛翻译的效果:

<table> <tr> <td width="25%">

https://github.com/user-attachments/assets/f4ff67cc-dd8f-448b-ab18-ac91c3dd190e

</td> <td width="25%">

https://github.com/user-attachments/assets/10df7ce5-eac5-4907-9609-261fcd1a5f78

</td> <td width="25%">

https://github.com/user-attachments/assets/1b2f6d84-c139-4f37-8ee4-405adfa51a30

</td> <td width="25%">

https://github.com/user-attachments/assets/49203f91-71b7-4a74-8bee-69b84f7aec9b

</td> </tr> </table>

短剧出海:采用声音克隆+嘴型对齐的技术,把短剧视频翻译为英语en、日语ja、西语es、葡语pt、法语fr、俄语ru、阿语ar 等,请大家观看体验。

<table> <tr> <td> <video src="https://github.com/user-attachments/assets/9f2be588-ee99-46ae-bc70-46bf4e0a00a9" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/ba9c96bc-c9fa-43f3-a9fb-d3269f4e0487" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/294de18c-3ffb-4d7f-9738-1da989f8b6c6" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/d470fcbe-7c88-4d1b-bc05-3d0dd7382e72" controls width="200"></video> </td> </tr> <tr> <td> <video src="https://github.com/user-attachments/assets/e9139a87-c68d-4a0e-91e3-99c9ddb32744" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/c27b38df-e13a-46ed-98f9-811a67f178d7" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/6fb7c853-e05f-4734-8cb6-ceb69a2c2ffb" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/7ffa9124-70a1-4653-b63d-263369530826" controls width="200"></video> </td> </tr> <tr> <td> <video src="https://github.com/user-attachments/assets/0a1e8a43-07fc-4451-bf16-3d65656daa2a" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/c2ab58c0-2a4c-4962-b67c-7bbad70204dc" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/bdf5321e-7c33-40ad-a799-bded85e23bca" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/847fcdb1-ee52-4105-ad73-87f9bbb6247e" controls width="200"></video> </td> </tr> <tr> <td> <video src="https://github.com/user-attachments/assets/75ed289e-be6d-4bb4-8806-60e036f30787" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/c2fc7ee2-99d5-48bc-a9de-2f94e93099f0" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/ce6754b2-6fb7-48cc-b319-8e9e66504985" controls width="200"></video> </td> <td> <video src="https://github.com/user-attachments/assets/1b305870-dc96-46ea-a40e-785419ec7425" controls width="200"></video> </td> </tr> </table>

三、核心功能:

  1. 视频翻译: 一键翻译视频中的语音或字幕为中文、英语、日语、法语、韩语等多种语言,支持本地和YouTube视频,让您轻松创建多语言版本,拓展全球传播。
  2. 字幕翻译: 自动生成多语言字幕,并提供多种字幕样式选择,让视频内容更直观地传达给全球观众。
  3. 字幕转语音: 借助AI技术,将字幕内容转换为音频,支持多种男女声线选择,实现声音与画面的精准对齐,使语音与口型同步,提升观众体验。
  4. 语音转字幕: 智能识别视频语音并生成字幕,支持多语言,免去手动添加字幕的繁琐,帮助创作者轻松制作多语言视频,扩大内容影响力。
  5. 人声分离与翻译: 自动分离背景音乐和人声,将人声翻译为其他语言音频(例如,将英文转为中文),保留背景音乐,增强视频的沉浸感。
  6. 创作Web UI界面: 在视频观看时实时修改字幕内容和语音,界面简洁易用,创作者可以迅速调整视频表现形式,充分发挥创意,使视频内容更贴合您的意图,提升您的个性化创作体验。

四、小牛的核心技术

1、自建小牛字幕翻译模型

自研 AI 字幕翻译模型,基于涵盖 100 万部视频字幕的数据集,采用 深度微调(CPT、SFT 、DPO) 训练而成,显著增强了字幕翻译的 语义理解与精准表达能力。
经过调校优化的上下文理解机制,使模型能够充分把握视频整体内容,在翻译时灵活调整词句,确保译文更符合真实语境,避免生硬直译。
同时,经过调校改进的多语言匹配技术使模型能更准确地捕捉并修正不同语言间的细微差别,特别是在短语转换、省略句处理和复杂句结构优化上,实现了更自然、流畅的翻译效果。

2、小牛翻译5步法:

  1. 理解核心: 首先深入理解视频的主旨和核心信息。通过这一过程提取出清晰的大纲和简洁的摘要,确保AI对视频内容有全面而深刻的理解,为后续翻译奠定坚实的基础。
  2. 语境翻译: 根据视频的大纲和摘要,把字幕翻译成目标语言。确保翻译后的字幕既保留原视频的意思和情感,又容易理解。
  3. 文化调整: 针对意译的结果,根据目标语言的文化背景和表达习惯,对翻译文本进行适当调整。这一步骤旨在使翻译后的文本更加自然流畅、易于被目标语言的观众理解和接受。
  4. 反思调整: AI对翻译结果自动评估,检测并修正文化语义偏差、流畅度问题及风格一致性等方面的问题。结合AI模型给出的优化建议,对译文进行必要的迭代改进,确保最终翻译的准确性与可读性。
  5. 字幕精校: 最后对翻译好的字幕进行全面检查,确保字幕与视频同步准确无误,语言表述精准,格式规范统一。任何遗漏或错误都应在此阶段得到纠正,以确保字幕质量的整体提升和良好的观看体验。

五、开源计划:取决于社区反馈

小牛是否开源,完全取决于你的声音!我们相信,开源的真正价值来自于社区的支持和参与。如果你希望小牛开源,或者有创意想法和实际需求,欢迎在 Issues 中踊跃提出。

六、系统展示:

<img src="img/niu.png" /> <img src="img/10.png" /> <img src="img/11.png" /> <img src="img/12.png" /> <img src="img/13.png" /> <img src="img/14.png" /> <img src="img/15.png" /> <img src="img/20.png" /> <img src="img/30.png" /> <img src="img/40.png" /> <img src="img/50.png" />

七、安装说明

| 操作系统 | 下载地址 | |----------|----------| | Win系统 | | | CPU版本 | 下载CPU版本 | | GPU版本(CUDA12.7以下) | 下载GPU CUDA12.7以下版本 | | GPU版本(50显卡) | 下载RTX50系列GPU版本 | | Mac系统 | | | Intel芯片 | 下载Intel芯片Mac版本 | | M系列芯片 | 下载M系列Mac版本 |

模型文件(建议提前下载)

如果不提前下载,软件运行时会自动下载,但速度可能较慢。

  • 百度网盘:https://pan.baidu.com/s/1aa9FUhkEX46DJ2TWpYUErg?pwd=8888
  • 天翼云盘(不限速):https://cloud.189.cn/t/neQ3y2uMr6Vv (访问码:bi9y)

启动软件

我们的绿色版本不需要安装,操作非常简单:

  1. 解压文件:下载后,将压缩包解压到任意位置。
  2. 运行软件:双击运行 小牛视频翻译
  3. 访问界面:打开浏览器,输入地址:http://127.0.0.1:8181/home
如果您在使用过程中遇到任何困难,请加入微信群
<img src="img/wx.png?a=1" alt="Description" width="600"/>

软件更新历史记录

2026年03月13日

重磅新增:全球最顶尖、最高端ElevenLabs克隆配音


2026年03月2日

针对背景音乐,加入 AI 波形指纹修复与「自动滤噪」技术。提取后的伴奏更加纯净通透,如同录音棚效果,消除杂音与干扰声,音质更清爽自然。

2026年02月24日

1、解决短剧字幕跳动问题:彻底解决短剧字幕随机“漂移”痛点,视听体验更稳固。
2、短剧支持多行字幕显示:打破单行限制,新增字幕自动换行功能,让短剧字幕呈现更完整。
3、增加批量功能:针对“字幕配音生成视频”及“字幕翻译生成视频”模块,现已全面支持批量操作,大幅提升生产效率。


2026年02月09日

新增全球最好的 ElevenLabs语音转录大模型(提取字幕)。
1、超高精度识别: 支持 90+ 语种多模态识别与自动实体检测,凭借毫秒级低延迟技术,实现精准的文本转化。
2、智能字幕专家: 专为复杂音频设计,支持多达 32 位发言人的自动分离与身份识别,并提供像素级精准的时间轴对齐。


2026年02月02日

本次更新深度适配 Gemini、 DeepSeek、GPT 推理引擎,对《小牛翻译5步法》进行了底层架构优化。
1、通过强化思维链CoT逻辑推算,新版本全量语义捕捉。AI会像“对账”一样校验每一秒音轨,确保复杂几十人的短剧群戏、翻译对白100% 还原,彻底解决长视频翻译中常见的丢句、跳行等“断片”顽疾。
2、自动审视全片的性别指代、人物称呼与情感基调。不会出现“上一秒叫老板、下一秒叫小弟”或“男女不分”的低级错误,确保从片头到片尾逻辑高度自洽。


2026年01月27日

优化字幕断句策略:采用 BERT 类语义模型+标点符号+语音时间戳对齐+声学停顿特征(如语调变化与静音段)等4大算法,让字幕断句更自然、看起来更舒适


2026年01月23日

重点对 ElevenLabs 配音能力进行了第2轮深度打磨与优化
1、针对视频翻译场景,解决elevenlabs 3大问题:①、配音不再忽快忽慢,说话节奏更真人。②、同一声音前后更一致,不容易“变声”。③、多条字幕配音衔接更自然,听起来不割裂。
2、精选高质量配音员:从 10 万名配音员库中,为每个语种精选 300 个超高质量、超丝滑本地口音作为小牛配音
3、优化配音界面,现在一目了然知道配音员的属于哪个国家哪个口音


2026年01月21日

升级阿里千问大模型,语音克隆算法,升级后克隆音色情感逼真、优化11种小语种克隆情感语音(中文、英文、西班牙语、俄语、意大利语、法语、韩语、日语、德语、葡萄牙语、印尼)


2026年01月20日

接入全球顶尖ElevenLabs模型

1、新增 5577 个高品质真人 AI 配音员 - 音色选择更丰富
2、覆盖 22 种全球主流语言 - 本地化口音纯正自然
3、情感化语音 - 支持多种情绪表达,让配音更具感染力


2025年12月20日

新增piper神经语音,913个免费配音员。17语种免费配音(中文、英文、法语、德语、俄语、越南语、印尼语、西班牙语、葡萄牙语、印地语、阿拉伯语、意大利语、波兰语、土耳其语、荷兰语、捷克语、匈牙利语)


2025年12月10日

声音克隆终极进化:增加7星级indextts2.5 影院级声音克隆效果(音色自然度、情感表达和背景降噪方面进行了全面优化改进)


2025年11月30日

全面升级语音克隆CosyVoice-v3能力,新增覆盖 11 大主流语种:中文、英语、日语、韩语、德语、法语、俄语、意大利语、葡萄牙语、西班牙语与印尼语,实现更自然、更精准的跨语种声音复刻。


2025年11月23日

1、角色识别更全:针对视频短剧场景进行了深度优化,能够在复杂场景下识别并捕捉更多独立说话人。
2、配音区分更准:针对短剧常见的“多角色配音”环境,现在能更精准地拆分不同角色的对白流,并实现高准确率的自动标记。
3、引入剪映大模型,极致性价比 :相比抖音模型,成本大幅降低 60%,同时识别准确率提升 10 倍以上。这是为您准备的“降本增效”首选方案。
4、集成 Gemini-3-Pro 顶级模型,小语种翻译的终极利器:在处理非通用语种翻译时,请务必选择此模型,其准确率表现极佳,重新定义翻译质量。


2025年11月06日

1、解决部分视频播放过程中,声音和字幕不对齐的问题,现在声音字幕100%对齐。

2、增加“关闭嘴型对齐”功能,关闭后,速度能提升1倍。

3、很多人反馈声音小,故,音量调高30%。

4、优化性能,性能比以前有很大提升。

5、优化背景音乐,解决背景音乐杂音问题。


2025年10月23日

本次更新重磅推出——视频字幕擦除功能 🎬!

现在,您只需一键操作,智能识别并去除视频中的字幕,自动修复背景画面,让视频焕然一新。

适用于视频翻译、影视修复、再创作、素材处理等多种场景,效果自然无痕。


2025年10月01日

1、新增3种声音克隆:越南语、阿拉伯语、印地语

2、新增60个克隆音色,从原先的59个音色,提升到120个克隆音色。


2025年9月26日

新增7种声音克隆:日语、韩语、法语、德语、俄语、西班牙语、葡萄牙语


2025年9月15日

接入IndexTTS-2声音克隆,打磨IndexTTS-2的音质。

1、提升了 Index2 的音质,声音更清晰、更自然。

2、优化了语音的情感,更生动、更有喜怒哀乐的真实感。


2025年9月10日

本次针对背景音问题进行了全面改进优化,涵盖乐器/节奏残留、瞬态爆破音、嗡嗡声、混响/回声及分离后的人声残影。

  1. 消除乐器 / 节奏残留
    采用多尺度神经声源分离,并通过 2 轮掩码生成与融合,最大程度去除鼓点及低频乐器残留。
  2. 消除爆破音
    自动检测短时脉冲噪声,利用频谱域插值与瞬态抑制算法修复,避免传统谱减造成的“凹陷”或金属伪影。
  3. 消除嗡嗡声
    结合噪声谱自适应谱减,实施动态窄带抑制,精准去除人声分离后背景音残留的嗡嗡声。
  4. 抑制人声残影
    在伴奏与背景声分离过程中,残留人声可能混入背景轨道。通过二次细化降噪与多模型置信度加权,自动识别并抑制这些残影,确保背景干净,同时最大限度保留主说话人音色与清晰度。
  5. 消除卡顿与不连续音
    通过时域波形平滑与频谱一致性补偿,修复因信号缺失或处理延迟导致的断续现象,确保背景音流畅自然。

2025年9月07日

  • 新增超实用的 声音克隆修改 功能。

1、从视频里挑好声音克隆:

如果你觉得某个角色的声音不好听,可以直接从他在视频里的语句中挑选最“好听”的几句来做克隆。例如:张三在视频里讲了 100 句,你可以挑出最喜欢的 2 句作为样本,系统会用这两句生成更接近你选中声音的效果。

2、用小牛内置的 100 条好声音替换:

我们准备了 100 条优选音色可供选择。如果你不想用视频里的声音(比如李四声音不合适),可以直接从这 100 条里挑一条,替换该角色的声音,操作简单明了。


2025年9月01日

新增了角色筛选功能 —— 你可以只看某个角色的发言视频,快速定位并检查角色有没有标错。有了这个功能,修正角色的工作效率比以前提效10倍以上!


2025年8月27日

字幕配音,支持多角色自动识别,自动配音,也可以自动克隆音色配音。


2025年8月17日

增加了字幕的免费字体、字体颜色、字体大小、字体高度、描边粗细、描边颜色等6大字幕样式功能


2025年7月27日

上线「上传字幕」功能,跳过转写直达成片,省时省钱更省心:

  1. 一键导入字幕+视频,即可直接翻译或配音;
  2. 全流程跳过“视频转写”环节,节省时间与转录成本;
  3. 生成视频自动同步“视频+音频+字幕+画面+嘴型+音速”,六维一致性一步到位。

2025年7月24日

新增声音克隆功能,支持 IndexTTS 和 cosyvoice-v2 两大主流模型,语音生成更自然、更智能:

  1. 支持情感克隆配音,可还原说话人的语气、语调与情绪,实现更真实、生动的语音表现;
  2. 支持最多100个角色,实现全自动克隆配音,特别适用于多角色短剧的语音生成需求。

2025年7月14日

解决视频翻译中,AI生成视频后,音频和人物动作不协调问题;例如演讲发布会上,演讲人的声音和手动作 协调一致性问题。


2025年7月8日

发布了“画面 + 音频 + 字幕 + 嘴型 + 音速” 对齐的稳定版本202500708。 相比上一版本,该版本的对齐准确率提升了 50%。 特别感谢过去 40 天内200+ 位用户的积极反馈与建议,很多用户甚至将翻译效果不佳的视频发给我进行研究与优化,真的非常感谢大家的信任与支持!


2025年6月16日

  • 《基于 AI 的嘴型与画面驱动音频速率调整,最终保证 视频+音频+字幕+画面+嘴型+音速的一致性。》
    1、基于嘴型与画面节奏的音频动态速率调整
    引入智能嘴型识
View on GitHub
GitHub Stars334
CategoryContent
Updated22h ago
Forks20

Security Score

85/100

Audited on Apr 5, 2026

No findings