Skip to content

Instantly share code, notes, and snippets.

@emisjerry
Created December 4, 2022 14:17
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save emisjerry/22f1f1b59da64e30f1f024b1830a1805 to your computer and use it in GitHub Desktop.
Save emisjerry/22f1f1b59da64e30f1f024b1830a1805 to your computer and use it in GitHub Desktop.
Buzz-low-test.md

Buzz-low-test

影片:https://youtu.be/wHwZNixV2rI

1 00:00:00.000 --> 00:00:04.000 今天介紹的Buds是一個能夠大幅減輕錄製影片後

2 00:00:04.000 --> 00:00:06.960 製作字幕時間的語音識別工具

3 00:00:06.960 --> 00:00:10.880 它的底層是使用來自Open AI公司的Whisper模型

4 00:00:10.880 --> 00:00:12.920 Open AI是一家美國公司

5 00:00:12.920 --> 00:00:15.880 它的創始人之一正式推特的新老闆

6 00:00:15.880 --> 00:00:16.920 伊隆馬斯克

7 00:00:16.920 --> 00:00:18.280 在今天的影片裡面

8 00:00:18.280 --> 00:00:20.400 會來介紹Buds的使用方法

9 00:00:20.400 --> 00:00:23.720 並且再跟簡硬的智能字幕來做比較

10 00:00:23.720 --> 00:00:25.720 最後再介紹智慕編輯工具

11 00:00:25.720 --> 00:00:28.360 Supptito Edit使用Whisper的步驟

12 00:00:28.360 --> 00:00:29.880 Buds的安裝非常簡單

13 00:00:29.880 --> 00:00:33.560 只要找到Buds在Gitab上面的網址以後

14 00:00:33.560 --> 00:00:35.680 頂級右方的Releases

15 00:00:35.680 --> 00:00:38.080 在Releases裡面找到你的作業系統

16 00:00:38.080 --> 00:00:39.360 對應的安裝檔

17 00:00:39.360 --> 00:00:40.720 並且執行以後

18 00:00:40.720 --> 00:00:43.160 就可以很順利的把它安裝起來了

19 00:00:43.160 --> 00:00:45.000 它的操作也非常的簡單

20 00:00:45.000 --> 00:00:47.320 啟動以後就會轉錄的畫面

21 00:00:47.320 --> 00:00:50.160 在這邊你可以馬上使用你的麥克風

22 00:00:50.160 --> 00:00:53.360 它就會把你的錄音直接就轉成了文字

23 00:00:53.360 --> 00:00:55.200 只要點擊這個Rake就可以了

24 00:00:55.200 --> 00:00:57.080 等它這邊出現的秒數以後

25 00:00:57.080 --> 00:01:00.480 你就可以開始錄音並且它就即使的轉錄

26 00:01:00.480 --> 00:01:02.239 因為我們現在是要測試

27 00:01:02.239 --> 00:01:03.280 獨入一個影片

28 00:01:03.280 --> 00:01:04.879 因此點擊這個File

29 00:01:04.879 --> 00:01:06.280 在使用Import

30 00:01:06.280 --> 00:01:07.800 因為要使用影片檔

31 00:01:07.800 --> 00:01:10.920 所以把右邊的選項從ODO5時

32 00:01:10.920 --> 00:01:12.320 變更成VDO5

33 00:01:12.320 --> 00:01:15.520 是要去找到你要操作的影片檔就可以了

34 00:01:15.520 --> 00:01:17.759 我們就用剛剛錄製的這個影片

35 00:01:17.759 --> 00:01:18.680 來做一示範

36 00:01:18.680 --> 00:01:22.200 選到了這個Buds點NP4以後點擊開啟

37 00:01:22.200 --> 00:01:25.320 它就會再出現一個Transcript的畫面

38 00:01:25.320 --> 00:01:26.560 接著再來選擇

39 00:01:26.560 --> 00:01:27.680 到使用的語言

40 00:01:27.680 --> 00:01:30.960 這邊我是建議大家直接選好要使用的中文

41 00:01:30.960 --> 00:01:31.920 然後這個Quarity

42 00:01:31.920 --> 00:01:34.440 如果你希望能夠辨識的更精準的話

43 00:01:34.440 --> 00:01:36.440 你就可以選擇Midium或者是Hive

44 00:01:36.440 --> 00:01:38.720 但是要注意就是這個Midium或者是Hive

45 00:01:38.720 --> 00:01:40.640 它會執行非常久的時間

46 00:01:40.640 --> 00:01:43.480 那如果你只是要大概的一個Nail

47 00:01:43.480 --> 00:01:45.840 就可以選擇是Low或者是Very Low

48 00:01:45.840 --> 00:01:48.200 再來選擇你要輸出的格式

49 00:01:48.200 --> 00:01:51.520 它有TXT、SRT跟VTT三種格式

50 00:01:51.520 --> 00:01:54.440 我們現在要使用字幕檔的SRT

51 00:01:54.440 --> 00:01:55.320 請大家注意一下

52 00:01:55.320 --> 00:01:56.800 你在第一次執行的時候

53 00:01:56.800 --> 00:02:00.320 它會去自動以下載Whisper對應的模型

54 00:02:00.320 --> 00:02:03.000 也就是說這邊對應的Low,Midium,Hive

55 00:02:03.000 --> 00:02:05.559 它會自動下載對應的模型的檔案

56 00:02:05.559 --> 00:02:08.320 Midium跟Hive都是比較大的一個空間

57 00:02:08.320 --> 00:02:10.400 因此有比較多的下載的時間

58 00:02:10.400 --> 00:02:11.959 現在就選擇好了以後

59 00:02:11.959 --> 00:02:13.359 就直接點擊Round

60 00:02:13.359 --> 00:02:16.480 然後再指定你要輸出的錄進跟檔名

61 00:02:16.480 --> 00:02:17.680 再點擊存檔

62 00:02:17.680 --> 00:02:20.600 它就會開始做Transcript的動作了

63 00:02:22.079 --> 00:02:24.200 我分別使用了Midium模型

64 00:02:24.200 --> 00:02:26.760 跟Smo模型產生出來一個結果

65 00:02:26.760 --> 00:02:28.040 這個Midium模型

66 00:02:28.040 --> 00:02:29.760 它產生出來的這個段距

67 00:02:29.760 --> 00:02:31.959 它會形成一個比較長的字幕

68 00:02:31.959 --> 00:02:33.640 那右邊這個是Low

69 00:02:33.640 --> 00:02:35.720 使用Low這個模型來產生的

70 00:02:35.720 --> 00:02:38.640 可以看到它的段距其實是比較短的

71 00:02:38.640 --> 00:02:41.399 就請大家自行去測試看看

72 00:02:41.399 --> 00:02:44.200 拿一個模型對於你的影片的字幕

73 00:02:44.200 --> 00:02:46.839 的錄製能夠達到比較好的一個效果

74 00:02:46.839 --> 00:02:49.640 接著就用同樣的檔案來使用簡硬

75 00:02:49.640 --> 00:02:50.480 測試看看

76 00:02:50.480 --> 00:02:54.840 簡硬產生出來的字幕會是什麼樣子

77 00:03:20.480 --> 00:03:25.480 目前右邊螢幕就是簡硬產生的字幕檔

78 00:03:25.480 --> 00:03:36.079 可以來識別一下它跟Buz

79 00:03:36.079 --> 00:03:39.280 也就是Whisper產生出來的字幕到底差距有多少

80 00:03:39.280 --> 00:03:42.519 我先來把它的字幕從簡體改成繁體

81 00:03:42.519 --> 00:03:44.160 這個就是第一個差一點

82 00:03:44.160 --> 00:03:46.679 簡硬現在目前產生出來的會是簡體

83 00:03:46.679 --> 00:03:48.280 把它變更成繁體

84 00:03:48.280 --> 00:03:49.640 再來對照一下

85 00:03:49.640 --> 00:03:53.160 可以看到目前簡硬它的段距都是比較短的

86 00:03:53.160 --> 00:03:57.839 而且它的正確率感覺起來是比Whisper還來的低的

87 00:03:57.839 --> 00:04:00.239 我初步使用以後的結果是這個樣子

88 00:04:00.239 --> 00:04:01.679 第一個如果使用Buz

89 00:04:01.679 --> 00:04:04.040 那要注意如果Clarity是使用Mini點

90 00:04:04.040 --> 00:04:06.920 或者是Hide的時候它會花非常久的時間

91 00:04:06.920 --> 00:04:09.880 但是便是出來的正確率通常會是比較高的

92 00:04:09.880 --> 00:04:10.959 感覺起來Buz

93 00:04:10.959 --> 00:04:15.119 它的便是正確率還有它段距的視切性

94 00:04:15.119 --> 00:04:17.320 其實都會比簡硬還來的好

95 00:04:17.320 --> 00:04:19.880 但是這兩個工具最大的差別就是

96 00:04:19.880 --> 00:04:22.840 Buz完全在本地端就可以獨立完成

97 00:04:22.840 --> 00:04:25.719 因此在執行Buz的時候不必連上網路

98 00:04:25.719 --> 00:04:30.760 同時我們也不用在擔心說我的這些檔案上傳到別的平台

99 00:04:30.760 --> 00:04:32.960 有可能會被那個平台保留下來

100 00:04:32.960 --> 00:04:34.800 這些自安方面的問題了

101 00:04:34.800 --> 00:04:38.240 Buz完全都在本地端就可以單獨的運行了

102 00:04:38.240 --> 00:04:41.520 我是覺得使用Buz雖然它花了時間

103 00:04:41.520 --> 00:04:44.159 會是比較久了一個辨識的時間

104 00:04:44.159 --> 00:04:45.800 但是它有安全性

105 00:04:45.800 --> 00:04:48.040 還有正確性的這些因素

106 00:04:48.040 --> 00:04:52.200 因此我覺得可以使用Buz來取代簡硬的智能字幕

107 00:04:52.200 --> 00:04:54.960 而且它也是不需要任何費用的

108 00:04:54.960 --> 00:04:58.160 簡硬因為它的VIP的版本也已經推出了

109 00:04:58.160 --> 00:05:01.880 這個免費的智能字幕不曉得能夠提供到什麼時候

110 00:05:01.880 --> 00:05:04.040 因此如果你能夠使用Buz的話

111 00:05:04.040 --> 00:05:06.880 也許也可以使用Buz來測試看看

112 00:05:06.880 --> 00:05:09.000 最後再來看一下SupTitle Edition

113 00:05:09.000 --> 00:05:11.360 它其實在3.6.8版以後

114 00:05:11.360 --> 00:05:14.200 也增加了兩個語音變式的整合

115 00:05:14.200 --> 00:05:17.080 簡單的來看一下這個整合要怎麼來操作

116 00:05:17.080 --> 00:05:20.080 首先就是先把智能字幕檔給開啟起來

117 00:05:21.360 --> 00:05:23.240 在點擊找到影片檔

118 00:05:23.240 --> 00:05:26.560 就可以在這個視訊的功能表裡面找到這兩個

119 00:05:26.560 --> 00:05:28.760 語音識別的整合的選項

120 00:05:28.760 --> 00:05:32.080 第一個是使用VOSK這一個引擎

121 00:05:32.080 --> 00:05:33.640 現在要使用這個Whisper

122 00:05:33.640 --> 00:05:36.440 就是使用這個Odio2Text Whisper

123 00:05:36.440 --> 00:05:37.960 然後接著來選擇語言

124 00:05:37.960 --> 00:05:40.680 並且選擇模型選擇好以後

125 00:05:40.680 --> 00:05:42.400 就可以直接點擊產生

126 00:05:42.400 --> 00:05:45.919 初步使用的結果就是發現SupTitle Edition

127 00:05:45.919 --> 00:05:48.239 雖然能夠辨識出這些中文

128 00:05:48.239 --> 00:05:52.239 但是它產生出來的持續時間不是非常正確

129 00:05:52.239 --> 00:05:55.960 使用的結果覺得還是Buz會比較正確一點

130 00:05:55.960 --> 00:05:58.400 這個就請大家自行再去測試看看

131 00:05:58.400 --> 00:06:00.799 你覺得是不是可以使用SupTitle Edition

132 00:06:00.799 --> 00:06:03.239 來直接做語音識別的處理

133 00:06:03.239 --> 00:06:06.400 我是覺得Buz給我初步的體驗感覺還不錯

134 00:06:06.400 --> 00:06:08.120 那麼這個就是今天介紹了

135 00:06:08.120 --> 00:06:11.400 這個可以離線使用的語音識別工具Buz

136 00:06:11.400 --> 00:06:14.400 如果你覺得Buz還有它這個Whisper

137 00:06:14.400 --> 00:06:16.000 神經網絡的引擎

138 00:06:16.000 --> 00:06:18.679 使用起來的正確性跟便利性

139 00:06:18.679 --> 00:06:21.400 都會比別的語音識別工具來的高的話

140 00:06:21.400 --> 00:06:24.200 那麼建議大家可以盡量的來使用Buz

141 00:06:24.200 --> 00:06:28.479 如果你覺得我介紹的工具對你日常使用電腦的效率

142 00:06:28.479 --> 00:06:29.560 有所提升的話

143 00:06:29.560 --> 00:06:32.919 請各位記得訂閱、按讚並且分享

144 00:06:32.920 --> 00:06:42.920 謝謝各位

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment