1 00:00:00.000 --> 00:00:04.000 今天介紹的Buds是一個能夠大幅減輕錄製影片後
2 00:00:04.000 --> 00:00:06.960 製作字幕時間的語音識別工具
3 00:00:06.960 --> 00:00:10.880 它的底層是使用來自Open AI公司的Whisper模型
4 00:00:10.880 --> 00:00:12.920 Open AI是一家美國公司
5 00:00:12.920 --> 00:00:15.880 它的創始人之一正式推特的新老闆
6 00:00:15.880 --> 00:00:16.920 伊隆馬斯克
7 00:00:16.920 --> 00:00:18.280 在今天的影片裡面
8 00:00:18.280 --> 00:00:20.400 會來介紹Buds的使用方法
9 00:00:20.400 --> 00:00:23.720 並且再跟簡硬的智能字幕來做比較
10 00:00:23.720 --> 00:00:25.720 最後再介紹智慕編輯工具
11 00:00:25.720 --> 00:00:28.360 Supptito Edit使用Whisper的步驟
12 00:00:28.360 --> 00:00:29.880 Buds的安裝非常簡單
13 00:00:29.880 --> 00:00:33.560 只要找到Buds在Gitab上面的網址以後
14 00:00:33.560 --> 00:00:35.680 頂級右方的Releases
15 00:00:35.680 --> 00:00:38.080 在Releases裡面找到你的作業系統
16 00:00:38.080 --> 00:00:39.360 對應的安裝檔
17 00:00:39.360 --> 00:00:40.720 並且執行以後
18 00:00:40.720 --> 00:00:43.160 就可以很順利的把它安裝起來了
19 00:00:43.160 --> 00:00:45.000 它的操作也非常的簡單
20 00:00:45.000 --> 00:00:47.320 啟動以後就會轉錄的畫面
21 00:00:47.320 --> 00:00:50.160 在這邊你可以馬上使用你的麥克風
22 00:00:50.160 --> 00:00:53.360 它就會把你的錄音直接就轉成了文字
23 00:00:53.360 --> 00:00:55.200 只要點擊這個Rake就可以了
24 00:00:55.200 --> 00:00:57.080 等它這邊出現的秒數以後
25 00:00:57.080 --> 00:01:00.480 你就可以開始錄音並且它就即使的轉錄
26 00:01:00.480 --> 00:01:02.239 因為我們現在是要測試
27 00:01:02.239 --> 00:01:03.280 獨入一個影片
28 00:01:03.280 --> 00:01:04.879 因此點擊這個File
29 00:01:04.879 --> 00:01:06.280 在使用Import
30 00:01:06.280 --> 00:01:07.800 因為要使用影片檔
31 00:01:07.800 --> 00:01:10.920 所以把右邊的選項從ODO5時
32 00:01:10.920 --> 00:01:12.320 變更成VDO5
33 00:01:12.320 --> 00:01:15.520 是要去找到你要操作的影片檔就可以了
34 00:01:15.520 --> 00:01:17.759 我們就用剛剛錄製的這個影片
35 00:01:17.759 --> 00:01:18.680 來做一示範
36 00:01:18.680 --> 00:01:22.200 選到了這個Buds點NP4以後點擊開啟
37 00:01:22.200 --> 00:01:25.320 它就會再出現一個Transcript的畫面
38 00:01:25.320 --> 00:01:26.560 接著再來選擇
39 00:01:26.560 --> 00:01:27.680 到使用的語言
40 00:01:27.680 --> 00:01:30.960 這邊我是建議大家直接選好要使用的中文
41 00:01:30.960 --> 00:01:31.920 然後這個Quarity
42 00:01:31.920 --> 00:01:34.440 如果你希望能夠辨識的更精準的話
43 00:01:34.440 --> 00:01:36.440 你就可以選擇Midium或者是Hive
44 00:01:36.440 --> 00:01:38.720 但是要注意就是這個Midium或者是Hive
45 00:01:38.720 --> 00:01:40.640 它會執行非常久的時間
46 00:01:40.640 --> 00:01:43.480 那如果你只是要大概的一個Nail
47 00:01:43.480 --> 00:01:45.840 就可以選擇是Low或者是Very Low
48 00:01:45.840 --> 00:01:48.200 再來選擇你要輸出的格式
49 00:01:48.200 --> 00:01:51.520 它有TXT、SRT跟VTT三種格式
50 00:01:51.520 --> 00:01:54.440 我們現在要使用字幕檔的SRT
51 00:01:54.440 --> 00:01:55.320 請大家注意一下
52 00:01:55.320 --> 00:01:56.800 你在第一次執行的時候
53 00:01:56.800 --> 00:02:00.320 它會去自動以下載Whisper對應的模型
54 00:02:00.320 --> 00:02:03.000 也就是說這邊對應的Low,Midium,Hive
55 00:02:03.000 --> 00:02:05.559 它會自動下載對應的模型的檔案
56 00:02:05.559 --> 00:02:08.320 Midium跟Hive都是比較大的一個空間
57 00:02:08.320 --> 00:02:10.400 因此有比較多的下載的時間
58 00:02:10.400 --> 00:02:11.959 現在就選擇好了以後
59 00:02:11.959 --> 00:02:13.359 就直接點擊Round
60 00:02:13.359 --> 00:02:16.480 然後再指定你要輸出的錄進跟檔名
61 00:02:16.480 --> 00:02:17.680 再點擊存檔
62 00:02:17.680 --> 00:02:20.600 它就會開始做Transcript的動作了
63 00:02:22.079 --> 00:02:24.200 我分別使用了Midium模型
64 00:02:24.200 --> 00:02:26.760 跟Smo模型產生出來一個結果
65 00:02:26.760 --> 00:02:28.040 這個Midium模型
66 00:02:28.040 --> 00:02:29.760 它產生出來的這個段距
67 00:02:29.760 --> 00:02:31.959 它會形成一個比較長的字幕
68 00:02:31.959 --> 00:02:33.640 那右邊這個是Low
69 00:02:33.640 --> 00:02:35.720 使用Low這個模型來產生的
70 00:02:35.720 --> 00:02:38.640 可以看到它的段距其實是比較短的
71 00:02:38.640 --> 00:02:41.399 就請大家自行去測試看看
72 00:02:41.399 --> 00:02:44.200 拿一個模型對於你的影片的字幕
73 00:02:44.200 --> 00:02:46.839 的錄製能夠達到比較好的一個效果
74 00:02:46.839 --> 00:02:49.640 接著就用同樣的檔案來使用簡硬
75 00:02:49.640 --> 00:02:50.480 測試看看
76 00:02:50.480 --> 00:02:54.840 簡硬產生出來的字幕會是什麼樣子
77 00:03:20.480 --> 00:03:25.480 目前右邊螢幕就是簡硬產生的字幕檔
78 00:03:25.480 --> 00:03:36.079 可以來識別一下它跟Buz
79 00:03:36.079 --> 00:03:39.280 也就是Whisper產生出來的字幕到底差距有多少
80 00:03:39.280 --> 00:03:42.519 我先來把它的字幕從簡體改成繁體
81 00:03:42.519 --> 00:03:44.160 這個就是第一個差一點
82 00:03:44.160 --> 00:03:46.679 簡硬現在目前產生出來的會是簡體
83 00:03:46.679 --> 00:03:48.280 把它變更成繁體
84 00:03:48.280 --> 00:03:49.640 再來對照一下
85 00:03:49.640 --> 00:03:53.160 可以看到目前簡硬它的段距都是比較短的
86 00:03:53.160 --> 00:03:57.839 而且它的正確率感覺起來是比Whisper還來的低的
87 00:03:57.839 --> 00:04:00.239 我初步使用以後的結果是這個樣子
88 00:04:00.239 --> 00:04:01.679 第一個如果使用Buz
89 00:04:01.679 --> 00:04:04.040 那要注意如果Clarity是使用Mini點
90 00:04:04.040 --> 00:04:06.920 或者是Hide的時候它會花非常久的時間
91 00:04:06.920 --> 00:04:09.880 但是便是出來的正確率通常會是比較高的
92 00:04:09.880 --> 00:04:10.959 感覺起來Buz
93 00:04:10.959 --> 00:04:15.119 它的便是正確率還有它段距的視切性
94 00:04:15.119 --> 00:04:17.320 其實都會比簡硬還來的好
95 00:04:17.320 --> 00:04:19.880 但是這兩個工具最大的差別就是
96 00:04:19.880 --> 00:04:22.840 Buz完全在本地端就可以獨立完成
97 00:04:22.840 --> 00:04:25.719 因此在執行Buz的時候不必連上網路
98 00:04:25.719 --> 00:04:30.760 同時我們也不用在擔心說我的這些檔案上傳到別的平台
99 00:04:30.760 --> 00:04:32.960 有可能會被那個平台保留下來
100 00:04:32.960 --> 00:04:34.800 這些自安方面的問題了
101 00:04:34.800 --> 00:04:38.240 Buz完全都在本地端就可以單獨的運行了
102 00:04:38.240 --> 00:04:41.520 我是覺得使用Buz雖然它花了時間
103 00:04:41.520 --> 00:04:44.159 會是比較久了一個辨識的時間
104 00:04:44.159 --> 00:04:45.800 但是它有安全性
105 00:04:45.800 --> 00:04:48.040 還有正確性的這些因素
106 00:04:48.040 --> 00:04:52.200 因此我覺得可以使用Buz來取代簡硬的智能字幕
107 00:04:52.200 --> 00:04:54.960 而且它也是不需要任何費用的
108 00:04:54.960 --> 00:04:58.160 簡硬因為它的VIP的版本也已經推出了
109 00:04:58.160 --> 00:05:01.880 這個免費的智能字幕不曉得能夠提供到什麼時候
110 00:05:01.880 --> 00:05:04.040 因此如果你能夠使用Buz的話
111 00:05:04.040 --> 00:05:06.880 也許也可以使用Buz來測試看看
112 00:05:06.880 --> 00:05:09.000 最後再來看一下SupTitle Edition
113 00:05:09.000 --> 00:05:11.360 它其實在3.6.8版以後
114 00:05:11.360 --> 00:05:14.200 也增加了兩個語音變式的整合
115 00:05:14.200 --> 00:05:17.080 簡單的來看一下這個整合要怎麼來操作
116 00:05:17.080 --> 00:05:20.080 首先就是先把智能字幕檔給開啟起來
117 00:05:21.360 --> 00:05:23.240 在點擊找到影片檔
118 00:05:23.240 --> 00:05:26.560 就可以在這個視訊的功能表裡面找到這兩個
119 00:05:26.560 --> 00:05:28.760 語音識別的整合的選項
120 00:05:28.760 --> 00:05:32.080 第一個是使用VOSK這一個引擎
121 00:05:32.080 --> 00:05:33.640 現在要使用這個Whisper
122 00:05:33.640 --> 00:05:36.440 就是使用這個Odio2Text Whisper
123 00:05:36.440 --> 00:05:37.960 然後接著來選擇語言
124 00:05:37.960 --> 00:05:40.680 並且選擇模型選擇好以後
125 00:05:40.680 --> 00:05:42.400 就可以直接點擊產生
126 00:05:42.400 --> 00:05:45.919 初步使用的結果就是發現SupTitle Edition
127 00:05:45.919 --> 00:05:48.239 雖然能夠辨識出這些中文
128 00:05:48.239 --> 00:05:52.239 但是它產生出來的持續時間不是非常正確
129 00:05:52.239 --> 00:05:55.960 使用的結果覺得還是Buz會比較正確一點
130 00:05:55.960 --> 00:05:58.400 這個就請大家自行再去測試看看
131 00:05:58.400 --> 00:06:00.799 你覺得是不是可以使用SupTitle Edition
132 00:06:00.799 --> 00:06:03.239 來直接做語音識別的處理
133 00:06:03.239 --> 00:06:06.400 我是覺得Buz給我初步的體驗感覺還不錯
134 00:06:06.400 --> 00:06:08.120 那麼這個就是今天介紹了
135 00:06:08.120 --> 00:06:11.400 這個可以離線使用的語音識別工具Buz
136 00:06:11.400 --> 00:06:14.400 如果你覺得Buz還有它這個Whisper
137 00:06:14.400 --> 00:06:16.000 神經網絡的引擎
138 00:06:16.000 --> 00:06:18.679 使用起來的正確性跟便利性
139 00:06:18.679 --> 00:06:21.400 都會比別的語音識別工具來的高的話
140 00:06:21.400 --> 00:06:24.200 那麼建議大家可以盡量的來使用Buz
141 00:06:24.200 --> 00:06:28.479 如果你覺得我介紹的工具對你日常使用電腦的效率
142 00:06:28.479 --> 00:06:29.560 有所提升的話
143 00:06:29.560 --> 00:06:32.919 請各位記得訂閱、按讚並且分享
144 00:06:32.920 --> 00:06:42.920 謝謝各位