1 00:00:00,066 --> 00:00:01,333 今天介绍的bus
2 00:00:01,333 --> 00:00:04,099 是一个能够大幅减轻录制影片后
3 00:00:04,100 --> 00:00:06,166 制作字幕时间的语音
4 00:00:06,166 --> 00:00:06,999 识别工具
5 00:00:07,000 --> 00:00:09,066 它的底层是使用来自open
6 00:00:09,066 --> 00:00:10,999 AI公司的Whisper模型
7 00:00:11,266 --> 00:00:12,999 AI是一家美国公司
8 00:00:13,000 --> 00:00:14,366 他的创始人之一
9 00:00:14,366 --> 00:00:16,966 正是推特的新老板伊龙马斯克
10 00:00:16,966 --> 00:00:18,366 在今天的影片里面
11 00:00:18,366 --> 00:00:20,466 会来介绍BUZ的使用方法
12 00:00:20,466 --> 00:00:23,733 并且在跟剪映的智能字幕来做比较
13 00:00:23,733 --> 00:00:26,799 最后再介绍字幕编辑工具Saptito edit
14 00:00:26,800 --> 00:00:29,966 使用whisper的步骤bus的安装非常简单
15 00:00:29,966 --> 00:00:33,566 只要找到bus在get up上面的网址以后
16 00:00:33,566 --> 00:00:35,799 点击右方的releases
17 00:00:35,933 --> 00:00:38,199 在releases里面找到你的作业系统
18 00:00:38,200 --> 00:00:39,400 对应的安装档
19 00:00:39,400 --> 00:00:40,800 并且执行以后
20 00:00:40,800 --> 00:00:43,266 就可以很顺利的把它安装起来了
21 00:00:43,266 --> 00:00:45,099 它的操作也非常的简单
22 00:00:45,100 --> 00:00:47,333 启动以后就会是转录的画面
23 00:00:47,333 --> 00:00:50,199 在这边你可以马上使用你的麦克风
24 00:00:50,200 --> 00:00:53,366 他就会把你的录音直接就转成了文字
25 00:00:53,366 --> 00:00:55,366 只要点击这个record就可以了
26 00:00:55,500 --> 00:00:57,166 他这边出现了秒数以后
27 00:00:57,166 --> 00:00:58,699 你就可以开始录音
28 00:00:58,700 --> 00:01:00,566 并且他就及时的转录
29 00:01:00,566 --> 00:01:03,366 因为我们现在是要测试读入一个影片
30 00:01:03,366 --> 00:01:06,299 因此点击这个file再使用import
31 00:01:06,333 --> 00:01:07,899 因为要使用影片档
32 00:01:07,900 --> 00:01:11,066 所以把右边的选项和从audio file时
33 00:01:11,300 --> 00:01:12,733 跟成video file下去
34 00:01:12,733 --> 00:01:15,566 找到你要操作的影片档就可以
35 00:01:15,566 --> 00:01:17,866 我们就用刚刚录制的这个影片
36 00:01:17,866 --> 00:01:18,733 来做示范
37 00:01:18,733 --> 00:01:22,366 选到了这个bus点MP4以后点击开启
38 00:01:22,466 --> 00:01:25,399 他就会再出现一个transcribe的画面
39 00:01:25,400 --> 00:01:27,700 接着再来选择使用的语言
40 00:01:27,700 --> 00:01:29,366 这边我是建议大家直接
41 00:01:29,366 --> 00:01:30,966 选好要使用的中文
42 00:01:30,966 --> 00:01:31,933 然后这个夸的题
43 00:01:31,933 --> 00:01:34,466 如果你希望能够辨识的更精准的话
44 00:01:34,466 --> 00:01:34,999 你就可以
45 00:01:35,000 --> 00:01:36,400 选择medium或者是high
46 00:01:36,400 --> 00:01:38,766 但是要注意就是这个medium或者是high
47 00:01:38,766 --> 00:01:40,599 它会执行非常久的时间
48 00:01:40,600 --> 00:01:43,533 那如果你只是要大概的一个内容
49 00:01:43,533 --> 00:01:45,899 就可以选择是low或者是very low
50 00:01:45,900 --> 00:01:48,266 再来选择你要输出的格式
51 00:01:48,266 --> 00:01:49,499 它有t x t
52 00:01:49,500 --> 00:01:51,566 s r t跟v t t三种格式
53 00:01:51,566 --> 00:01:54,466 现在要使用字幕档的s r t
54 00:01:54,500 --> 00:01:55,333 请大家注意着
55 00:01:55,333 --> 00:01:56,866 你在第一次执行的时候
56 00:01:56,866 --> 00:02:00,366 它会去自动下载whisper对应的模型
57 00:02:00,366 --> 00:02:03,066 也就是说这边对应的Lola medium hi
58 00:02:03,066 --> 00:02:05,599 它会自动下载对应的模型的档案
59 00:02:05,600 --> 00:02:08,333 medium跟high都是比较大的一个空间
60 00:02:08,333 --> 00:02:10,366 因此有比较多的下载的时间
61 00:02:10,366 --> 00:02:13,166 现在就选择好了以后就直接点击run
62 00:02:13,366 --> 00:02:16,499 然后再指定你要输出的路径跟档名
63 00:02:16,666 --> 00:02:17,733 再点击存档
64 00:02:17,733 --> 00:02:20,733 它就会开始做transcribe的动作了
65 00:02:22,100 --> 00:02:25,500 我分别使用了media模型跟SMOL模型
66 00:02:25,500 --> 00:02:26,800 产生出来一个结果
67 00:02:26,800 --> 00:02:29,800 这个media模型它产生出来的这个段句
68 00:02:29,800 --> 00:02:31,900 它会形成一个比较长的字
69 00:02:32,000 --> 00:02:33,666 那右边这个是low
70 00:02:33,666 --> 00:02:35,766 使用low这个模型来产生的
71 00:02:35,766 --> 00:02:37,299 可以看到它的断句呢
72 00:02:37,300 --> 00:02:38,666 其实是比较短的
73 00:02:38,666 --> 00:02:40,466 就请大家自行去
74 00:02:40,700 --> 00:02:42,533 测试看看哪一个模型
75 00:02:42,533 --> 00:02:44,999 对于你的影片的字幕的录制
76 00:02:45,000 --> 00:02:46,900 能够达到比较好的一个效果
77 00:02:46,900 --> 00:02:50,000 接着就用同样的档案来使用剪映测试
78 00:02:50,000 --> 00:02:50,566 看看
79 00:02:50,566 --> 00:02:53,199 剪映产生出来的字幕会是什么样子
80 00:03:31,133 --> 00:03:34,133 目前右边荧幕就是剪映产生的字幕档
81 00:03:34,133 --> 00:03:35,266 可以来识别一下啊
82 00:03:35,266 --> 00:03:37,999 它跟BUZ也就是whisper产生出来的字幕
83 00:03:38,000 --> 00:03:39,300 到底差距有多少
84 00:03:39,300 --> 00:03:42,533 我先来把它的字幕从简体改成繁体
85 00:03:42,533 --> 00:03:44,199 这个就是第一个差异点
86 00:03:44,200 --> 00:03:46,800 剪映现在目前产生出来的会是简体
87 00:03:46,800 --> 00:03:48,366 把它变更成繁体
88 00:03:48,366 --> 00:03:49,666 再来对照一下
89 00:03:49,666 --> 00:03:51,266 可以看到目前剪映后
90 00:03:51,266 --> 00:03:53,199 它的段距都是比较短的
91 00:03:53,200 --> 00:03:54,900 而且它的正确率
92 00:03:54,900 --> 00:03:57,766 感觉起来是比whisper还来得低
93 00:03:57,900 --> 00:04:00,333 我初步使用以后的结果是这个样子
94 00:04:00,333 --> 00:04:03,066 第一个如果使用bus要注意如果quality
95 00:04:03,200 --> 00:04:05,133 是使用me点或者是high的时候
96 00:04:05,133 --> 00:04:06,866 他会花非常久的时间
97 00:04:06,966 --> 00:04:08,533 但是辨识出来的正确率呢
98 00:04:08,533 --> 00:04:09,933 通常会是比较高的
99 00:04:09,933 --> 00:04:10,599 感觉起来
100 00:04:10,600 --> 00:04:13,466 bus他的辨识的正确率还有他
101 00:04:13,666 --> 00:04:15,133 断句的试切性哦
102 00:04:15,133 --> 00:04:17,366 其实都会比剪映台来的好
103 00:04:17,366 --> 00:04:19,899 但是这两个工具有最大的差别就是
104 00:04:19,900 --> 00:04:22,933 bus完全在本地端就可以独立完成
105 00:04:23,000 --> 00:04:26,200 因此在执行bus说不必连上网路同时
106 00:04:26,200 --> 00:04:29,133 我们也不用再担心说我的这些档案哦
107 00:04:29,133 --> 00:04:30,766 上传到别的平台
108 00:04:30,766 --> 00:04:32,999 有可能会被那个平台保留下来
109 00:04:33,000 --> 00:04:34,866 这一些自然方面的问题
110 00:04:34,866 --> 00:04:36,533 bus完全都在本地端
111 00:04:36,533 --> 00:04:38,299 就可以单独的运行了
112 00:04:38,300 --> 00:04:39,933 我是觉得使用bus
113 00:04:40,200 --> 00:04:41,533 虽然它花的时间
114 00:04:41,533 --> 00:04:44,199 会是比较久的一个辨识的时间
115 00:04:44,200 --> 00:04:45,800 但是它有安全性
116 00:04:45,800 --> 00:04:48,100 还有正确性的这一些因素
117 00:04:48,100 --> 00:04:50,166 因此我觉得可以使用bus
118 00:04:50,166 --> 00:04:52,266 来取代剪映的智能字幕
119 00:04:52,266 --> 00:04:55,299 而且它也是不需要任何费用的剪映
120 00:04:55,300 --> 00:04:57,100 因为它的VIP的版本啊
121 00:04:57,100 --> 00:04:59,666 也已经推出了这个免费的智能字幕
122 00:04:59,666 --> 00:05:01,933 不晓得能够提供到什么时候
123 00:05:01,933 --> 00:05:04,099 因此如果你能够使用80的话
124 00:05:04,100 --> 00:05:06,933 也许也可以使用80来测试看看
125 00:05:06,933 --> 00:05:09,066 最后再来看一下stop title editor
126 00:05:09,066 --> 00:05:10,133 它其实在三点
127 00:05:10,133 --> 00:05:11,366 六点八版以后
128 00:05:11,366 --> 00:05:14,199 也增加了两个语音变式的整合
129 00:05:14,200 --> 00:05:15,900 简单的来看一下这个整
130 00:05:15,900 --> 00:05:17,133 合要怎么来操作
131 00:05:17,133 --> 00:05:20,133 首先就是先把字幕档给开启起来
132 00:05:21,466 --> 00:05:23,333 再点击找到影片档
133 00:05:23,333 --> 00:05:25,499 就可以在这个视讯的功能表里面
134 00:05:25,500 --> 00:05:26,666 找到这两个
135 00:05:26,666 --> 00:05:28,866 语音识别的整合的选项
136 00:05:28,866 --> 00:05:32,199 第一个是使用Vosk这个引擎
137 00:05:32,200 --> 00:05:33,700 现在要使用这个whisper
138 00:05:33,700 --> 00:05:35,900 就是使用这个audio to text
139 00:05:36,500 --> 00:05:39,533 然后接着来选择语言并且选择模型
140 00:05:39,533 --> 00:05:42,466 选择好以后就可以直接点击产生
141 00:05:42,500 --> 00:05:45,866 初步使用的结果就是发现title edit
142 00:05:45,866 --> 00:05:48,299 它虽然能够辨识出这些中文
143 00:05:48,300 --> 00:05:48,966 但是它
144 00:05:48,966 --> 00:05:52,299 产生出来这个持续时间不是非常正确
145 00:05:52,466 --> 00:05:55,333 试用的结果我觉得还是bus会比较
146 00:05:55,333 --> 00:05:55,999 正确一点
147 00:05:56,000 --> 00:05:58,066 这个就请大家自行再去测试
148 00:05:58,066 --> 00:06:00,899 看看你觉得是不是可以使用subtitle edit
149 00:06:00,900 --> 00:06:01,933 来直接做
150 00:06:01,933 --> 00:06:03,266 语音识别的的处理
151 00:06:03,266 --> 00:06:05,499 我是觉得bus给我初步的体验
152 00:06:05,500 --> 00:06:06,466 感觉还不错
153 00:06:06,466 --> 00:06:08,166 那么这个就是今天介绍的
154 00:06:08,166 --> 00:06:11,366 这个可以离线使用的语音识别工具bus
155 00:06:11,666 --> 00:06:12,733 如果你觉得bus
156 00:06:12,733 --> 00:06:15,966 还有它这个Whisper神经网络的引擎
157 00:06:16,066 --> 00:06:18,733 使用起来的正确性跟便利性
158 00:06:18,733 --> 00:06:21,399 都会比别的语音识别工具来的高的话
159 00:06:21,400 --> 00:06:24,200 那么建议大家可以尽量的来使用bus
160 00:06:24,200 --> 00:06:26,333 如果你觉得我介绍的工具
161 00:06:26,333 --> 00:06:28,533 对你日常使用电脑的效率
162 00:06:28,533 --> 00:06:29,599 有所提升的话
163 00:06:29,600 --> 00:06:32,966 请各位记得订阅按赞并且分享
164 00:06:32,966 --> 00:06:33,933 谢谢各位