emisjerry/Buzz-low-test.md

## Buzz-low-test.md

      
    Raw
  

              Buzz-low-test.md
            
          
    Buzz-low-test


影片：https://youtu.be/wHwZNixV2rI

1
00:00:00.000 --> 00:00:04.000
今天介紹的Buds是一個能夠大幅減輕錄製影片後
2
00:00:04.000 --> 00:00:06.960
製作字幕時間的語音識別工具
3
00:00:06.960 --> 00:00:10.880
它的底層是使用來自Open AI公司的Whisper模型
4
00:00:10.880 --> 00:00:12.920
Open AI是一家美國公司
5
00:00:12.920 --> 00:00:15.880
它的創始人之一正式推特的新老闆
6
00:00:15.880 --> 00:00:16.920
伊隆馬斯克
7
00:00:16.920 --> 00:00:18.280
在今天的影片裡面
8
00:00:18.280 --> 00:00:20.400
會來介紹Buds的使用方法
9
00:00:20.400 --> 00:00:23.720
並且再跟簡硬的智能字幕來做比較
10
00:00:23.720 --> 00:00:25.720
最後再介紹智慕編輯工具
11
00:00:25.720 --> 00:00:28.360
Supptito Edit使用Whisper的步驟
12
00:00:28.360 --> 00:00:29.880
Buds的安裝非常簡單
13
00:00:29.880 --> 00:00:33.560
只要找到Buds在Gitab上面的網址以後
14
00:00:33.560 --> 00:00:35.680
頂級右方的Releases
15
00:00:35.680 --> 00:00:38.080
在Releases裡面找到你的作業系統
16
00:00:38.080 --> 00:00:39.360
對應的安裝檔
17
00:00:39.360 --> 00:00:40.720
並且執行以後
18
00:00:40.720 --> 00:00:43.160
就可以很順利的把它安裝起來了
19
00:00:43.160 --> 00:00:45.000
它的操作也非常的簡單
20
00:00:45.000 --> 00:00:47.320
啟動以後就會轉錄的畫面
21
00:00:47.320 --> 00:00:50.160
在這邊你可以馬上使用你的麥克風
22
00:00:50.160 --> 00:00:53.360
它就會把你的錄音直接就轉成了文字
23
00:00:53.360 --> 00:00:55.200
只要點擊這個Rake就可以了
24
00:00:55.200 --> 00:00:57.080
等它這邊出現的秒數以後
25
00:00:57.080 --> 00:01:00.480
你就可以開始錄音並且它就即使的轉錄
26
00:01:00.480 --> 00:01:02.239
因為我們現在是要測試
27
00:01:02.239 --> 00:01:03.280
獨入一個影片
28
00:01:03.280 --> 00:01:04.879
因此點擊這個File
29
00:01:04.879 --> 00:01:06.280
在使用Import
30
00:01:06.280 --> 00:01:07.800
因為要使用影片檔
31
00:01:07.800 --> 00:01:10.920
所以把右邊的選項從ODO5時
32
00:01:10.920 --> 00:01:12.320
變更成VDO5
33
00:01:12.320 --> 00:01:15.520
是要去找到你要操作的影片檔就可以了
34
00:01:15.520 --> 00:01:17.759
我們就用剛剛錄製的這個影片
35
00:01:17.759 --> 00:01:18.680
來做一示範
36
00:01:18.680 --> 00:01:22.200
選到了這個Buds點NP4以後點擊開啟
37
00:01:22.200 --> 00:01:25.320
它就會再出現一個Transcript的畫面
38
00:01:25.320 --> 00:01:26.560
接著再來選擇
39
00:01:26.560 --> 00:01:27.680
到使用的語言
40
00:01:27.680 --> 00:01:30.960
這邊我是建議大家直接選好要使用的中文
41
00:01:30.960 --> 00:01:31.920
然後這個Quarity
42
00:01:31.920 --> 00:01:34.440
如果你希望能夠辨識的更精準的話
43
00:01:34.440 --> 00:01:36.440
你就可以選擇Midium或者是Hive
44
00:01:36.440 --> 00:01:38.720
但是要注意就是這個Midium或者是Hive
45
00:01:38.720 --> 00:01:40.640
它會執行非常久的時間
46
00:01:40.640 --> 00:01:43.480
那如果你只是要大概的一個Nail
47
00:01:43.480 --> 00:01:45.840
就可以選擇是Low或者是Very Low
48
00:01:45.840 --> 00:01:48.200
再來選擇你要輸出的格式
49
00:01:48.200 --> 00:01:51.520
它有TXT、SRT跟VTT三種格式
50
00:01:51.520 --> 00:01:54.440
我們現在要使用字幕檔的SRT
51
00:01:54.440 --> 00:01:55.320
請大家注意一下
52
00:01:55.320 --> 00:01:56.800
你在第一次執行的時候
53
00:01:56.800 --> 00:02:00.320
它會去自動以下載Whisper對應的模型
54
00:02:00.320 --> 00:02:03.000
也就是說這邊對應的Low,Midium,Hive
55
00:02:03.000 --> 00:02:05.559
它會自動下載對應的模型的檔案
56
00:02:05.559 --> 00:02:08.320
Midium跟Hive都是比較大的一個空間
57
00:02:08.320 --> 00:02:10.400
因此有比較多的下載的時間
58
00:02:10.400 --> 00:02:11.959
現在就選擇好了以後
59
00:02:11.959 --> 00:02:13.359
就直接點擊Round
60
00:02:13.359 --> 00:02:16.480
然後再指定你要輸出的錄進跟檔名
61
00:02:16.480 --> 00:02:17.680
再點擊存檔
62
00:02:17.680 --> 00:02:20.600
它就會開始做Transcript的動作了
63
00:02:22.079 --> 00:02:24.200
我分別使用了Midium模型
64
00:02:24.200 --> 00:02:26.760
跟Smo模型產生出來一個結果
65
00:02:26.760 --> 00:02:28.040
這個Midium模型
66
00:02:28.040 --> 00:02:29.760
它產生出來的這個段距
67
00:02:29.760 --> 00:02:31.959
它會形成一個比較長的字幕
68
00:02:31.959 --> 00:02:33.640
那右邊這個是Low
69
00:02:33.640 --> 00:02:35.720
使用Low這個模型來產生的
70
00:02:35.720 --> 00:02:38.640
可以看到它的段距其實是比較短的
71
00:02:38.640 --> 00:02:41.399
就請大家自行去測試看看
72
00:02:41.399 --> 00:02:44.200
拿一個模型對於你的影片的字幕
73
00:02:44.200 --> 00:02:46.839
的錄製能夠達到比較好的一個效果
74
00:02:46.839 --> 00:02:49.640
接著就用同樣的檔案來使用簡硬
75
00:02:49.640 --> 00:02:50.480
測試看看
76
00:02:50.480 --> 00:02:54.840
簡硬產生出來的字幕會是什麼樣子
77
00:03:20.480 --> 00:03:25.480
目前右邊螢幕就是簡硬產生的字幕檔
78
00:03:25.480 --> 00:03:36.079
可以來識別一下它跟Buz
79
00:03:36.079 --> 00:03:39.280
也就是Whisper產生出來的字幕到底差距有多少
80
00:03:39.280 --> 00:03:42.519
我先來把它的字幕從簡體改成繁體
81
00:03:42.519 --> 00:03:44.160
這個就是第一個差一點
82
00:03:44.160 --> 00:03:46.679
簡硬現在目前產生出來的會是簡體
83
00:03:46.679 --> 00:03:48.280
把它變更成繁體
84
00:03:48.280 --> 00:03:49.640
再來對照一下
85
00:03:49.640 --> 00:03:53.160
可以看到目前簡硬它的段距都是比較短的
86
00:03:53.160 --> 00:03:57.839
而且它的正確率感覺起來是比Whisper還來的低的
87
00:03:57.839 --> 00:04:00.239
我初步使用以後的結果是這個樣子
88
00:04:00.239 --> 00:04:01.679
第一個如果使用Buz
89
00:04:01.679 --> 00:04:04.040
那要注意如果Clarity是使用Mini點
90
00:04:04.040 --> 00:04:06.920
或者是Hide的時候它會花非常久的時間
91
00:04:06.920 --> 00:04:09.880
但是便是出來的正確率通常會是比較高的
92
00:04:09.880 --> 00:04:10.959
感覺起來Buz
93
00:04:10.959 --> 00:04:15.119
它的便是正確率還有它段距的視切性
94
00:04:15.119 --> 00:04:17.320
其實都會比簡硬還來的好
95
00:04:17.320 --> 00:04:19.880
但是這兩個工具最大的差別就是
96
00:04:19.880 --> 00:04:22.840
Buz完全在本地端就可以獨立完成
97
00:04:22.840 --> 00:04:25.719
因此在執行Buz的時候不必連上網路
98
00:04:25.719 --> 00:04:30.760
同時我們也不用在擔心說我的這些檔案上傳到別的平台
99
00:04:30.760 --> 00:04:32.960
有可能會被那個平台保留下來
100
00:04:32.960 --> 00:04:34.800
這些自安方面的問題了
101
00:04:34.800 --> 00:04:38.240
Buz完全都在本地端就可以單獨的運行了
102
00:04:38.240 --> 00:04:41.520
我是覺得使用Buz雖然它花了時間
103
00:04:41.520 --> 00:04:44.159
會是比較久了一個辨識的時間
104
00:04:44.159 --> 00:04:45.800
但是它有安全性
105
00:04:45.800 --> 00:04:48.040
還有正確性的這些因素
106
00:04:48.040 --> 00:04:52.200
因此我覺得可以使用Buz來取代簡硬的智能字幕
107
00:04:52.200 --> 00:04:54.960
而且它也是不需要任何費用的
108
00:04:54.960 --> 00:04:58.160
簡硬因為它的VIP的版本也已經推出了
109
00:04:58.160 --> 00:05:01.880
這個免費的智能字幕不曉得能夠提供到什麼時候
110
00:05:01.880 --> 00:05:04.040
因此如果你能夠使用Buz的話
111
00:05:04.040 --> 00:05:06.880
也許也可以使用Buz來測試看看
112
00:05:06.880 --> 00:05:09.000
最後再來看一下SupTitle Edition
113
00:05:09.000 --> 00:05:11.360
它其實在3.6.8版以後
114
00:05:11.360 --> 00:05:14.200
也增加了兩個語音變式的整合
115
00:05:14.200 --> 00:05:17.080
簡單的來看一下這個整合要怎麼來操作
116
00:05:17.080 --> 00:05:20.080
首先就是先把智能字幕檔給開啟起來
117
00:05:21.360 --> 00:05:23.240
在點擊找到影片檔
118
00:05:23.240 --> 00:05:26.560
就可以在這個視訊的功能表裡面找到這兩個
119
00:05:26.560 --> 00:05:28.760
語音識別的整合的選項
120
00:05:28.760 --> 00:05:32.080
第一個是使用VOSK這一個引擎
121
00:05:32.080 --> 00:05:33.640
現在要使用這個Whisper
122
00:05:33.640 --> 00:05:36.440
就是使用這個Odio2Text Whisper
123
00:05:36.440 --> 00:05:37.960
然後接著來選擇語言
124
00:05:37.960 --> 00:05:40.680
並且選擇模型選擇好以後
125
00:05:40.680 --> 00:05:42.400
就可以直接點擊產生
126
00:05:42.400 --> 00:05:45.919
初步使用的結果就是發現SupTitle Edition
127
00:05:45.919 --> 00:05:48.239
雖然能夠辨識出這些中文
128
00:05:48.239 --> 00:05:52.239
但是它產生出來的持續時間不是非常正確
129
00:05:52.239 --> 00:05:55.960
使用的結果覺得還是Buz會比較正確一點
130
00:05:55.960 --> 00:05:58.400
這個就請大家自行再去測試看看
131
00:05:58.400 --> 00:06:00.799
你覺得是不是可以使用SupTitle Edition
132
00:06:00.799 --> 00:06:03.239
來直接做語音識別的處理
133
00:06:03.239 --> 00:06:06.400
我是覺得Buz給我初步的體驗感覺還不錯
134
00:06:06.400 --> 00:06:08.120
那麼這個就是今天介紹了
135
00:06:08.120 --> 00:06:11.400
這個可以離線使用的語音識別工具Buz
136
00:06:11.400 --> 00:06:14.400
如果你覺得Buz還有它這個Whisper
137
00:06:14.400 --> 00:06:16.000
神經網絡的引擎
138
00:06:16.000 --> 00:06:18.679
使用起來的正確性跟便利性
139
00:06:18.679 --> 00:06:21.400
都會比別的語音識別工具來的高的話
140
00:06:21.400 --> 00:06:24.200
那麼建議大家可以盡量的來使用Buz
141
00:06:24.200 --> 00:06:28.479
如果你覺得我介紹的工具對你日常使用電腦的效率
142
00:06:28.479 --> 00:06:29.560
有所提升的話
143
00:06:29.560 --> 00:06:32.919
請各位記得訂閱、按讚並且分享
144
00:06:32.920 --> 00:06:42.920
謝謝各位