emisjerry/Buzz-JianYing-test.md

## Buzz-JianYing-test.md

      
    Raw
  

              Buzz-JianYing-test.md
            
          
    Buzz-JianYing-test


影片：https://youtu.be/wHwZNixV2rI

1
00:00:00,066 --> 00:00:01,333
今天介绍的bus
2
00:00:01,333 --> 00:00:04,099
是一个能够大幅减轻录制影片后
3
00:00:04,100 --> 00:00:06,166
制作字幕时间的语音
4
00:00:06,166 --> 00:00:06,999
识别工具
5
00:00:07,000 --> 00:00:09,066
它的底层是使用来自open
6
00:00:09,066 --> 00:00:10,999
AI公司的Whisper模型
7
00:00:11,266 --> 00:00:12,999
AI是一家美国公司
8
00:00:13,000 --> 00:00:14,366
他的创始人之一
9
00:00:14,366 --> 00:00:16,966
正是推特的新老板伊龙马斯克
10
00:00:16,966 --> 00:00:18,366
在今天的影片里面
11
00:00:18,366 --> 00:00:20,466
会来介绍BUZ的使用方法
12
00:00:20,466 --> 00:00:23,733
并且在跟剪映的智能字幕来做比较
13
00:00:23,733 --> 00:00:26,799
最后再介绍字幕编辑工具Saptito edit
14
00:00:26,800 --> 00:00:29,966
使用whisper的步骤bus的安装非常简单
15
00:00:29,966 --> 00:00:33,566
只要找到bus在get up上面的网址以后
16
00:00:33,566 --> 00:00:35,799
点击右方的releases
17
00:00:35,933 --> 00:00:38,199
在releases里面找到你的作业系统
18
00:00:38,200 --> 00:00:39,400
对应的安装档
19
00:00:39,400 --> 00:00:40,800
并且执行以后
20
00:00:40,800 --> 00:00:43,266
就可以很顺利的把它安装起来了
21
00:00:43,266 --> 00:00:45,099
它的操作也非常的简单
22
00:00:45,100 --> 00:00:47,333
启动以后就会是转录的画面
23
00:00:47,333 --> 00:00:50,199
在这边你可以马上使用你的麦克风
24
00:00:50,200 --> 00:00:53,366
他就会把你的录音直接就转成了文字
25
00:00:53,366 --> 00:00:55,366
只要点击这个record就可以了
26
00:00:55,500 --> 00:00:57,166
他这边出现了秒数以后
27
00:00:57,166 --> 00:00:58,699
你就可以开始录音
28
00:00:58,700 --> 00:01:00,566
并且他就及时的转录
29
00:01:00,566 --> 00:01:03,366
因为我们现在是要测试读入一个影片
30
00:01:03,366 --> 00:01:06,299
因此点击这个file再使用import
31
00:01:06,333 --> 00:01:07,899
因为要使用影片档
32
00:01:07,900 --> 00:01:11,066
所以把右边的选项和从audio file时
33
00:01:11,300 --> 00:01:12,733
跟成video file下去
34
00:01:12,733 --> 00:01:15,566
找到你要操作的影片档就可以
35
00:01:15,566 --> 00:01:17,866
我们就用刚刚录制的这个影片
36
00:01:17,866 --> 00:01:18,733
来做示范
37
00:01:18,733 --> 00:01:22,366
选到了这个bus点MP4以后点击开启
38
00:01:22,466 --> 00:01:25,399
他就会再出现一个transcribe的画面
39
00:01:25,400 --> 00:01:27,700
接着再来选择使用的语言
40
00:01:27,700 --> 00:01:29,366
这边我是建议大家直接
41
00:01:29,366 --> 00:01:30,966
选好要使用的中文
42
00:01:30,966 --> 00:01:31,933
然后这个夸的题
43
00:01:31,933 --> 00:01:34,466
如果你希望能够辨识的更精准的话
44
00:01:34,466 --> 00:01:34,999
你就可以
45
00:01:35,000 --> 00:01:36,400
选择medium或者是high
46
00:01:36,400 --> 00:01:38,766
但是要注意就是这个medium或者是high
47
00:01:38,766 --> 00:01:40,599
它会执行非常久的时间
48
00:01:40,600 --> 00:01:43,533
那如果你只是要大概的一个内容
49
00:01:43,533 --> 00:01:45,899
就可以选择是low或者是very low
50
00:01:45,900 --> 00:01:48,266
再来选择你要输出的格式
51
00:01:48,266 --> 00:01:49,499
它有t x t
52
00:01:49,500 --> 00:01:51,566
s r t跟v t t三种格式
53
00:01:51,566 --> 00:01:54,466
现在要使用字幕档的s r t
54
00:01:54,500 --> 00:01:55,333
请大家注意着
55
00:01:55,333 --> 00:01:56,866
你在第一次执行的时候
56
00:01:56,866 --> 00:02:00,366
它会去自动下载whisper对应的模型
57
00:02:00,366 --> 00:02:03,066
也就是说这边对应的Lola medium hi
58
00:02:03,066 --> 00:02:05,599
它会自动下载对应的模型的档案
59
00:02:05,600 --> 00:02:08,333
medium跟high都是比较大的一个空间
60
00:02:08,333 --> 00:02:10,366
因此有比较多的下载的时间
61
00:02:10,366 --> 00:02:13,166
现在就选择好了以后就直接点击run
62
00:02:13,366 --> 00:02:16,499
然后再指定你要输出的路径跟档名
63
00:02:16,666 --> 00:02:17,733
再点击存档
64
00:02:17,733 --> 00:02:20,733
它就会开始做transcribe的动作了
65
00:02:22,100 --> 00:02:25,500
我分别使用了media模型跟SMOL模型
66
00:02:25,500 --> 00:02:26,800
产生出来一个结果
67
00:02:26,800 --> 00:02:29,800
这个media模型它产生出来的这个段句
68
00:02:29,800 --> 00:02:31,900
它会形成一个比较长的字
69
00:02:32,000 --> 00:02:33,666
那右边这个是low
70
00:02:33,666 --> 00:02:35,766
使用low这个模型来产生的
71
00:02:35,766 --> 00:02:37,299
可以看到它的断句呢
72
00:02:37,300 --> 00:02:38,666
其实是比较短的
73
00:02:38,666 --> 00:02:40,466
就请大家自行去
74
00:02:40,700 --> 00:02:42,533
测试看看哪一个模型
75
00:02:42,533 --> 00:02:44,999
对于你的影片的字幕的录制
76
00:02:45,000 --> 00:02:46,900
能够达到比较好的一个效果
77
00:02:46,900 --> 00:02:50,000
接着就用同样的档案来使用剪映测试
78
00:02:50,000 --> 00:02:50,566
看看
79
00:02:50,566 --> 00:02:53,199
剪映产生出来的字幕会是什么样子
80
00:03:31,133 --> 00:03:34,133
目前右边荧幕就是剪映产生的字幕档
81
00:03:34,133 --> 00:03:35,266
可以来识别一下啊
82
00:03:35,266 --> 00:03:37,999
它跟BUZ也就是whisper产生出来的字幕
83
00:03:38,000 --> 00:03:39,300
到底差距有多少
84
00:03:39,300 --> 00:03:42,533
我先来把它的字幕从简体改成繁体
85
00:03:42,533 --> 00:03:44,199
这个就是第一个差异点
86
00:03:44,200 --> 00:03:46,800
剪映现在目前产生出来的会是简体
87
00:03:46,800 --> 00:03:48,366
把它变更成繁体
88
00:03:48,366 --> 00:03:49,666
再来对照一下
89
00:03:49,666 --> 00:03:51,266
可以看到目前剪映后
90
00:03:51,266 --> 00:03:53,199
它的段距都是比较短的
91
00:03:53,200 --> 00:03:54,900
而且它的正确率
92
00:03:54,900 --> 00:03:57,766
感觉起来是比whisper还来得低
93
00:03:57,900 --> 00:04:00,333
我初步使用以后的结果是这个样子
94
00:04:00,333 --> 00:04:03,066
第一个如果使用bus要注意如果quality
95
00:04:03,200 --> 00:04:05,133
是使用me点或者是high的时候
96
00:04:05,133 --> 00:04:06,866
他会花非常久的时间
97
00:04:06,966 --> 00:04:08,533
但是辨识出来的正确率呢
98
00:04:08,533 --> 00:04:09,933
通常会是比较高的
99
00:04:09,933 --> 00:04:10,599
感觉起来
100
00:04:10,600 --> 00:04:13,466
bus他的辨识的正确率还有他
101
00:04:13,666 --> 00:04:15,133
断句的试切性哦
102
00:04:15,133 --> 00:04:17,366
其实都会比剪映台来的好
103
00:04:17,366 --> 00:04:19,899
但是这两个工具有最大的差别就是
104
00:04:19,900 --> 00:04:22,933
bus完全在本地端就可以独立完成
105
00:04:23,000 --> 00:04:26,200
因此在执行bus说不必连上网路同时
106
00:04:26,200 --> 00:04:29,133
我们也不用再担心说我的这些档案哦
107
00:04:29,133 --> 00:04:30,766
上传到别的平台
108
00:04:30,766 --> 00:04:32,999
有可能会被那个平台保留下来
109
00:04:33,000 --> 00:04:34,866
这一些自然方面的问题
110
00:04:34,866 --> 00:04:36,533
bus完全都在本地端
111
00:04:36,533 --> 00:04:38,299
就可以单独的运行了
112
00:04:38,300 --> 00:04:39,933
我是觉得使用bus
113
00:04:40,200 --> 00:04:41,533
虽然它花的时间
114
00:04:41,533 --> 00:04:44,199
会是比较久的一个辨识的时间
115
00:04:44,200 --> 00:04:45,800
但是它有安全性
116
00:04:45,800 --> 00:04:48,100
还有正确性的这一些因素
117
00:04:48,100 --> 00:04:50,166
因此我觉得可以使用bus
118
00:04:50,166 --> 00:04:52,266
来取代剪映的智能字幕
119
00:04:52,266 --> 00:04:55,299
而且它也是不需要任何费用的剪映
120
00:04:55,300 --> 00:04:57,100
因为它的VIP的版本啊
121
00:04:57,100 --> 00:04:59,666
也已经推出了这个免费的智能字幕
122
00:04:59,666 --> 00:05:01,933
不晓得能够提供到什么时候
123
00:05:01,933 --> 00:05:04,099
因此如果你能够使用80的话
124
00:05:04,100 --> 00:05:06,933
也许也可以使用80来测试看看
125
00:05:06,933 --> 00:05:09,066
最后再来看一下stop title editor
126
00:05:09,066 --> 00:05:10,133
它其实在三点
127
00:05:10,133 --> 00:05:11,366
六点八版以后
128
00:05:11,366 --> 00:05:14,199
也增加了两个语音变式的整合
129
00:05:14,200 --> 00:05:15,900
简单的来看一下这个整
130
00:05:15,900 --> 00:05:17,133
合要怎么来操作
131
00:05:17,133 --> 00:05:20,133
首先就是先把字幕档给开启起来
132
00:05:21,466 --> 00:05:23,333
再点击找到影片档
133
00:05:23,333 --> 00:05:25,499
就可以在这个视讯的功能表里面
134
00:05:25,500 --> 00:05:26,666
找到这两个
135
00:05:26,666 --> 00:05:28,866
语音识别的整合的选项
136
00:05:28,866 --> 00:05:32,199
第一个是使用Vosk这个引擎
137
00:05:32,200 --> 00:05:33,700
现在要使用这个whisper
138
00:05:33,700 --> 00:05:35,900
就是使用这个audio to text
139
00:05:36,500 --> 00:05:39,533
然后接着来选择语言并且选择模型
140
00:05:39,533 --> 00:05:42,466
选择好以后就可以直接点击产生
141
00:05:42,500 --> 00:05:45,866
初步使用的结果就是发现title edit
142
00:05:45,866 --> 00:05:48,299
它虽然能够辨识出这些中文
143
00:05:48,300 --> 00:05:48,966
但是它
144
00:05:48,966 --> 00:05:52,299
产生出来这个持续时间不是非常正确
145
00:05:52,466 --> 00:05:55,333
试用的结果我觉得还是bus会比较
146
00:05:55,333 --> 00:05:55,999
正确一点
147
00:05:56,000 --> 00:05:58,066
这个就请大家自行再去测试
148
00:05:58,066 --> 00:06:00,899
看看你觉得是不是可以使用subtitle edit
149
00:06:00,900 --> 00:06:01,933
来直接做
150
00:06:01,933 --> 00:06:03,266
语音识别的的处理
151
00:06:03,266 --> 00:06:05,499
我是觉得bus给我初步的体验
152
00:06:05,500 --> 00:06:06,466
感觉还不错
153
00:06:06,466 --> 00:06:08,166
那么这个就是今天介绍的
154
00:06:08,166 --> 00:06:11,366
这个可以离线使用的语音识别工具bus
155
00:06:11,666 --> 00:06:12,733
如果你觉得bus
156
00:06:12,733 --> 00:06:15,966
还有它这个Whisper神经网络的引擎
157
00:06:16,066 --> 00:06:18,733
使用起来的正确性跟便利性
158
00:06:18,733 --> 00:06:21,399
都会比别的语音识别工具来的高的话
159
00:06:21,400 --> 00:06:24,200
那么建议大家可以尽量的来使用bus
160
00:06:24,200 --> 00:06:26,333
如果你觉得我介绍的工具
161
00:06:26,333 --> 00:06:28,533
对你日常使用电脑的效率
162
00:06:28,533 --> 00:06:29,599
有所提升的话
163
00:06:29,600 --> 00:06:32,966
请各位记得订阅按赞并且分享
164
00:06:32,966 --> 00:06:33,933
谢谢各位