Skip to content

Instantly share code, notes, and snippets.

@emisjerry
Created December 4, 2022 14:17
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save emisjerry/505c042e6bb73e2c3cd58a713d5ea78e to your computer and use it in GitHub Desktop.
Save emisjerry/505c042e6bb73e2c3cd58a713d5ea78e to your computer and use it in GitHub Desktop.
Buzz-medium-test.md

Buzz-medium-test

影片:https://youtu.be/wHwZNixV2rI

1 00:00:00.000 --> 00:00:06.960 今天介紹的Buzz是一個能夠大幅減輕錄製影片後製作字幕時間的語音識別工具

2 00:00:06.960 --> 00:00:10.920 它的底層是使用來自OpenAI公司的Whisper模型

3 00:00:10.920 --> 00:00:16.920 OpenAI是一家美國公司,它的創始人之一正是推特的新老闆,伊隆馬斯克

4 00:00:16.920 --> 00:00:23.740 在今天的影片裡面,會來介紹Buzz的使用方法,並且再跟簡硬的智能字幕來做比較

5 00:00:23.740 --> 00:00:28.380 最後再介紹字幕編輯工具Subtitle Edit使用Whisper的步驟

6 00:00:28.380 --> 00:00:35.740 Buzz的安裝非常簡單,只要找到Buzz在GitHub上面的網址以後,點擊右方的Releases

7 00:00:35.740 --> 00:00:43.180 在Releases裡面找到你的作業系統對應的安裝檔,並且執行以後就可以很順利的把它安裝起來了

8 00:00:43.180 --> 00:00:47.320 它的操作也非常的簡單,啟動以後就會是轉錄的畫面

9 00:00:47.320 --> 00:00:53.379 在這邊你可以馬上使用你的麥克風,它就會把你的錄音直接就轉成文字

10 00:00:53.379 --> 00:00:55.260 只要點擊這個Raker就可以了

11 00:00:55.260 --> 00:01:00.519 等它這邊出現了秒數以後,你就可以開始錄音,並且它就即時的轉錄

12 00:01:00.519 --> 00:01:06.300 因為我們現在是要測試,讀入一個影片,因此點擊這個File,再使用Import

13 00:01:06.300 --> 00:01:12.380 因為要使用影片檔,所以把右邊的選項從Audio files變更成Video files

14 00:01:12.380 --> 00:01:15.500 是要去找到你要操作的影片檔就可以了

15 00:01:15.500 --> 00:01:22.259 我們就用剛剛錄製的影片來做示範,選到了Buzz.mp4以後點擊開啟

16 00:01:22.260 --> 00:01:27.620 它就會再出現一個Transcribe的畫面,接著再來選擇要使用的語言

17 00:01:27.620 --> 00:01:30.940 這邊我是建議大家直接選好要使用的中文

18 00:01:30.940 --> 00:01:36.380 然後這個Quality,如果你希望能夠辨識的更精準的話,你就可以選擇Medium或者是High

19 00:01:36.380 --> 00:01:40.580 但是要注意就是這個Medium或者是High,它會執行非常久的時間

20 00:01:40.580 --> 00:01:45.820 如果你只是要大概的一個內容,就可以選擇是Low或者是Very Low

21 00:01:45.820 --> 00:01:51.460 再來選擇你要輸出的格式,它有TXT、SRT跟VTT三種格式

22 00:01:51.460 --> 00:01:56.780 現在要使用字幕檔的SRT,請大家注意的你在第一次執行的時候

23 00:01:56.780 --> 00:02:00.300 它會去自動以下載Whisperer對應的模型

24 00:02:00.300 --> 00:02:05.500 也就是說這邊對應的Low、Medium、High,它會自動下載對應的模型的檔案

25 00:02:05.500 --> 00:02:10.340 Medium跟High都是比較大的一個空間,因此有比較多的下載的時間

26 00:02:10.340 --> 00:02:13.260 現在就選擇好了以後,就直接點擊Rum

27 00:02:13.260 --> 00:02:17.620 然後再指定你要輸出的路徑跟檔名,再點擊存檔

28 00:02:17.620 --> 00:02:21.860 它就會開始做Transcript的動作了

29 00:02:21.860 --> 00:02:26.700 我分別使用了Medium模型跟Small模型產生出來一個結果

30 00:02:26.700 --> 00:02:31.900 這個Medium模型它產生出來的這個段距,它會形成一個比較長的字幕

31 00:02:31.900 --> 00:02:38.580 右邊這個是Low使用Low這個模型來產生的,可以看到它的段距其實是比較短的

32 00:02:38.580 --> 00:02:46.780 就請大家自行去測試看看哪一個模型對於你的影片的字幕的路質能夠達到比較好的一個效果

33 00:02:46.780 --> 00:02:53.020 接著就用同樣的檔案來使用簡印測試看看簡印產生出來的字幕會是什麼樣子

34 00:03:16.780 --> 00:03:39.180 目前右邊螢幕就是簡印產生的字幕檔,可以來識別一下它跟Buzz也就是Whisper產生出來的字幕到底差距有多少

35 00:03:39.180 --> 00:03:48.300 我先來把它的字幕從簡體改成繁體,這個就是第一個差異點,簡印現在目前產生出來的會是簡體,把它變更成繁體

36 00:03:48.300 --> 00:03:57.820 再來對照一下,可以看到目前簡印它的段距都是比較短的,而且它的正確率感覺起來是比Whisper還來得低的

37 00:03:57.820 --> 00:04:09.859 我初步使用以後的結果是這個樣子,第一個如果使用Buzz要注意,如果Quality是使用Midium或者是High的時候,它會花非常久的時間,但是辨識出來的正確率通常會是比較高的

38 00:04:09.859 --> 00:04:17.339 感覺起來Buzz它的辨識的正確率還有它段距的視界性其實都會比簡印還來得好

39 00:04:17.339 --> 00:04:25.700 但是這兩個工具最大的差別就是Buzz完全在本地端就可以獨立完成,因此在執行Buzz的時候不必連上網路

40 00:04:25.700 --> 00:04:34.740 同時我們也不用再擔心說我的這些檔案上傳到別的平台,有可能會被那個平台保留下來這些自然方面的問題

41 00:04:34.740 --> 00:04:44.140 Buzz完全都在本地端就可以單獨的運行了,我是覺得使用Buzz雖然它花了時間會是比較久的一個辨識的時間

42 00:04:44.140 --> 00:04:52.180 但是它有安全性還有正確性的這一些因素,因此我覺得可以使用Buzz來取代簡印的智能字幕

43 00:04:52.180 --> 00:04:58.140 而且它也是不需要任何費用的,簡印因為它的VIP的版本也已經推出了

44 00:04:58.140 --> 00:05:06.900 這個免費的智能字幕不曉得能夠提供到什麼時候,因此如果你能夠使用Buzz的話,也許也可以使用Buzz來測試看看

45 00:05:06.900 --> 00:05:17.100 最後再來看一下Subtitle Editor,它其實在3.6.8版以後也增加了兩個語音辨識的整合,簡單的來看一下這個整合要怎麼來操作

46 00:05:17.100 --> 00:05:19.980 首先就是先把字幕檔給開啟起來

47 00:05:19.980 --> 00:05:28.780 再點擊找到影片檔就可以在這個視訊的功能表裡面找到這兩個語音識別的整合的選項

48 00:05:28.780 --> 00:05:36.420 第一個是使用VOSK這一個引擎,現在要使用這個Whisper,就是使用這個Audio to Text Whisper

49 00:05:36.420 --> 00:05:42.380 然後接著來選擇語言並且選擇模型,選擇好以後就可以直接點擊產生

50 00:05:42.380 --> 00:05:52.219 初步使用的結果就是發現Subtitle Editor,它雖然能夠辨識出這些中文,但是它產生出來的這個持續時間不是非常正確

51 00:05:52.219 --> 00:05:58.380 適用的結果我覺得還是Buzz會比較正確一點,這個就請大家自行再去測試看看

52 00:05:58.380 --> 00:06:06.380 你覺得是不是可以使用Subtitle Editor來直接做語音識別的處理,我是覺得Buzz給我初步的體驗感覺還不錯

53 00:06:06.380 --> 00:06:11.500 那麼這個就是今天介紹的這個可以離線使用的語音識別工具Buzz

54 00:06:11.500 --> 00:06:21.340 如果你覺得Buzz還有它這個Whisper神經網絡的引擎使用起來的正確性跟便利性都會比別的語音識別工具來的高的話

55 00:06:21.340 --> 00:06:24.140 那麼建議大家可以盡量的來使用Buzz

56 00:06:24.140 --> 00:06:32.860 如果你覺得我介紹的工具對你日常使用電腦的效率有所提升的話,請各位記得訂閱、按讚並且分享

57 00:06:32.860 --> 00:06:41.820 謝謝各位

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment