emisjerry/Buzz-medium-test.md

## Buzz-medium-test.md

      
    Raw
  

              Buzz-medium-test.md
            
          
    Buzz-medium-test


影片：https://youtu.be/wHwZNixV2rI

1
00:00:00.000 --> 00:00:06.960
今天介紹的Buzz是一個能夠大幅減輕錄製影片後製作字幕時間的語音識別工具
2
00:00:06.960 --> 00:00:10.920
它的底層是使用來自OpenAI公司的Whisper模型
3
00:00:10.920 --> 00:00:16.920
OpenAI是一家美國公司,它的創始人之一正是推特的新老闆,伊隆馬斯克
4
00:00:16.920 --> 00:00:23.740
在今天的影片裡面,會來介紹Buzz的使用方法,並且再跟簡硬的智能字幕來做比較
5
00:00:23.740 --> 00:00:28.380
最後再介紹字幕編輯工具Subtitle Edit使用Whisper的步驟
6
00:00:28.380 --> 00:00:35.740
Buzz的安裝非常簡單,只要找到Buzz在GitHub上面的網址以後,點擊右方的Releases
7
00:00:35.740 --> 00:00:43.180
在Releases裡面找到你的作業系統對應的安裝檔,並且執行以後就可以很順利的把它安裝起來了
8
00:00:43.180 --> 00:00:47.320
它的操作也非常的簡單,啟動以後就會是轉錄的畫面
9
00:00:47.320 --> 00:00:53.379
在這邊你可以馬上使用你的麥克風,它就會把你的錄音直接就轉成文字
10
00:00:53.379 --> 00:00:55.260
只要點擊這個Raker就可以了
11
00:00:55.260 --> 00:01:00.519
等它這邊出現了秒數以後,你就可以開始錄音,並且它就即時的轉錄
12
00:01:00.519 --> 00:01:06.300
因為我們現在是要測試,讀入一個影片,因此點擊這個File,再使用Import
13
00:01:06.300 --> 00:01:12.380
因為要使用影片檔,所以把右邊的選項從Audio files變更成Video files
14
00:01:12.380 --> 00:01:15.500
是要去找到你要操作的影片檔就可以了
15
00:01:15.500 --> 00:01:22.259
我們就用剛剛錄製的影片來做示範,選到了Buzz.mp4以後點擊開啟
16
00:01:22.260 --> 00:01:27.620
它就會再出現一個Transcribe的畫面,接著再來選擇要使用的語言
17
00:01:27.620 --> 00:01:30.940
這邊我是建議大家直接選好要使用的中文
18
00:01:30.940 --> 00:01:36.380
然後這個Quality,如果你希望能夠辨識的更精準的話,你就可以選擇Medium或者是High
19
00:01:36.380 --> 00:01:40.580
但是要注意就是這個Medium或者是High,它會執行非常久的時間
20
00:01:40.580 --> 00:01:45.820
如果你只是要大概的一個內容,就可以選擇是Low或者是Very Low
21
00:01:45.820 --> 00:01:51.460
再來選擇你要輸出的格式,它有TXT、SRT跟VTT三種格式
22
00:01:51.460 --> 00:01:56.780
現在要使用字幕檔的SRT,請大家注意的你在第一次執行的時候
23
00:01:56.780 --> 00:02:00.300
它會去自動以下載Whisperer對應的模型
24
00:02:00.300 --> 00:02:05.500
也就是說這邊對應的Low、Medium、High,它會自動下載對應的模型的檔案
25
00:02:05.500 --> 00:02:10.340
Medium跟High都是比較大的一個空間,因此有比較多的下載的時間
26
00:02:10.340 --> 00:02:13.260
現在就選擇好了以後,就直接點擊Rum
27
00:02:13.260 --> 00:02:17.620
然後再指定你要輸出的路徑跟檔名,再點擊存檔
28
00:02:17.620 --> 00:02:21.860
它就會開始做Transcript的動作了
29
00:02:21.860 --> 00:02:26.700
我分別使用了Medium模型跟Small模型產生出來一個結果
30
00:02:26.700 --> 00:02:31.900
這個Medium模型它產生出來的這個段距,它會形成一個比較長的字幕
31
00:02:31.900 --> 00:02:38.580
右邊這個是Low使用Low這個模型來產生的,可以看到它的段距其實是比較短的
32
00:02:38.580 --> 00:02:46.780
就請大家自行去測試看看哪一個模型對於你的影片的字幕的路質能夠達到比較好的一個效果
33
00:02:46.780 --> 00:02:53.020
接著就用同樣的檔案來使用簡印測試看看簡印產生出來的字幕會是什麼樣子
34
00:03:16.780 --> 00:03:39.180
目前右邊螢幕就是簡印產生的字幕檔,可以來識別一下它跟Buzz也就是Whisper產生出來的字幕到底差距有多少
35
00:03:39.180 --> 00:03:48.300
我先來把它的字幕從簡體改成繁體,這個就是第一個差異點,簡印現在目前產生出來的會是簡體,把它變更成繁體
36
00:03:48.300 --> 00:03:57.820
再來對照一下,可以看到目前簡印它的段距都是比較短的,而且它的正確率感覺起來是比Whisper還來得低的
37
00:03:57.820 --> 00:04:09.859
我初步使用以後的結果是這個樣子,第一個如果使用Buzz要注意,如果Quality是使用Midium或者是High的時候,它會花非常久的時間,但是辨識出來的正確率通常會是比較高的
38
00:04:09.859 --> 00:04:17.339
感覺起來Buzz它的辨識的正確率還有它段距的視界性其實都會比簡印還來得好
39
00:04:17.339 --> 00:04:25.700
但是這兩個工具最大的差別就是Buzz完全在本地端就可以獨立完成,因此在執行Buzz的時候不必連上網路
40
00:04:25.700 --> 00:04:34.740
同時我們也不用再擔心說我的這些檔案上傳到別的平台,有可能會被那個平台保留下來這些自然方面的問題
41
00:04:34.740 --> 00:04:44.140
Buzz完全都在本地端就可以單獨的運行了,我是覺得使用Buzz雖然它花了時間會是比較久的一個辨識的時間
42
00:04:44.140 --> 00:04:52.180
但是它有安全性還有正確性的這一些因素,因此我覺得可以使用Buzz來取代簡印的智能字幕
43
00:04:52.180 --> 00:04:58.140
而且它也是不需要任何費用的,簡印因為它的VIP的版本也已經推出了
44
00:04:58.140 --> 00:05:06.900
這個免費的智能字幕不曉得能夠提供到什麼時候,因此如果你能夠使用Buzz的話,也許也可以使用Buzz來測試看看
45
00:05:06.900 --> 00:05:17.100
最後再來看一下Subtitle Editor,它其實在3.6.8版以後也增加了兩個語音辨識的整合,簡單的來看一下這個整合要怎麼來操作
46
00:05:17.100 --> 00:05:19.980
首先就是先把字幕檔給開啟起來
47
00:05:19.980 --> 00:05:28.780
再點擊找到影片檔就可以在這個視訊的功能表裡面找到這兩個語音識別的整合的選項
48
00:05:28.780 --> 00:05:36.420
第一個是使用VOSK這一個引擎,現在要使用這個Whisper,就是使用這個Audio to Text Whisper
49
00:05:36.420 --> 00:05:42.380
然後接著來選擇語言並且選擇模型,選擇好以後就可以直接點擊產生
50
00:05:42.380 --> 00:05:52.219
初步使用的結果就是發現Subtitle Editor,它雖然能夠辨識出這些中文,但是它產生出來的這個持續時間不是非常正確
51
00:05:52.219 --> 00:05:58.380
適用的結果我覺得還是Buzz會比較正確一點,這個就請大家自行再去測試看看
52
00:05:58.380 --> 00:06:06.380
你覺得是不是可以使用Subtitle Editor來直接做語音識別的處理,我是覺得Buzz給我初步的體驗感覺還不錯
53
00:06:06.380 --> 00:06:11.500
那麼這個就是今天介紹的這個可以離線使用的語音識別工具Buzz
54
00:06:11.500 --> 00:06:21.340
如果你覺得Buzz還有它這個Whisper神經網絡的引擎使用起來的正確性跟便利性都會比別的語音識別工具來的高的話
55
00:06:21.340 --> 00:06:24.140
那麼建議大家可以盡量的來使用Buzz
56
00:06:24.140 --> 00:06:32.860
如果你覺得我介紹的工具對你日常使用電腦的效率有所提升的話,請各位記得訂閱、按讚並且分享
57
00:06:32.860 --> 00:06:41.820
謝謝各位