Skip to content

Instantly share code, notes, and snippets.

@emisjerry
Created December 4, 2022 14:23
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save emisjerry/fa507e9ff7579199f3f05be41f568f66 to your computer and use it in GitHub Desktop.
Save emisjerry/fa507e9ff7579199f3f05be41f568f66 to your computer and use it in GitHub Desktop.
Buzz-JianYing-test.md

Buzz-JianYing-test

影片:https://youtu.be/wHwZNixV2rI

1 00:00:00,066 --> 00:00:01,333 今天介绍的bus

2 00:00:01,333 --> 00:00:04,099 是一个能够大幅减轻录制影片后

3 00:00:04,100 --> 00:00:06,166 制作字幕时间的语音

4 00:00:06,166 --> 00:00:06,999 识别工具

5 00:00:07,000 --> 00:00:09,066 它的底层是使用来自open

6 00:00:09,066 --> 00:00:10,999 AI公司的Whisper模型

7 00:00:11,266 --> 00:00:12,999 AI是一家美国公司

8 00:00:13,000 --> 00:00:14,366 他的创始人之一

9 00:00:14,366 --> 00:00:16,966 正是推特的新老板伊龙马斯克

10 00:00:16,966 --> 00:00:18,366 在今天的影片里面

11 00:00:18,366 --> 00:00:20,466 会来介绍BUZ的使用方法

12 00:00:20,466 --> 00:00:23,733 并且在跟剪映的智能字幕来做比较

13 00:00:23,733 --> 00:00:26,799 最后再介绍字幕编辑工具Saptito edit

14 00:00:26,800 --> 00:00:29,966 使用whisper的步骤bus的安装非常简单

15 00:00:29,966 --> 00:00:33,566 只要找到bus在get up上面的网址以后

16 00:00:33,566 --> 00:00:35,799 点击右方的releases

17 00:00:35,933 --> 00:00:38,199 在releases里面找到你的作业系统

18 00:00:38,200 --> 00:00:39,400 对应的安装档

19 00:00:39,400 --> 00:00:40,800 并且执行以后

20 00:00:40,800 --> 00:00:43,266 就可以很顺利的把它安装起来了

21 00:00:43,266 --> 00:00:45,099 它的操作也非常的简单

22 00:00:45,100 --> 00:00:47,333 启动以后就会是转录的画面

23 00:00:47,333 --> 00:00:50,199 在这边你可以马上使用你的麦克风

24 00:00:50,200 --> 00:00:53,366 他就会把你的录音直接就转成了文字

25 00:00:53,366 --> 00:00:55,366 只要点击这个record就可以了

26 00:00:55,500 --> 00:00:57,166 他这边出现了秒数以后

27 00:00:57,166 --> 00:00:58,699 你就可以开始录音

28 00:00:58,700 --> 00:01:00,566 并且他就及时的转录

29 00:01:00,566 --> 00:01:03,366 因为我们现在是要测试读入一个影片

30 00:01:03,366 --> 00:01:06,299 因此点击这个file再使用import

31 00:01:06,333 --> 00:01:07,899 因为要使用影片档

32 00:01:07,900 --> 00:01:11,066 所以把右边的选项和从audio file时

33 00:01:11,300 --> 00:01:12,733 跟成video file下去

34 00:01:12,733 --> 00:01:15,566 找到你要操作的影片档就可以

35 00:01:15,566 --> 00:01:17,866 我们就用刚刚录制的这个影片

36 00:01:17,866 --> 00:01:18,733 来做示范

37 00:01:18,733 --> 00:01:22,366 选到了这个bus点MP4以后点击开启

38 00:01:22,466 --> 00:01:25,399 他就会再出现一个transcribe的画面

39 00:01:25,400 --> 00:01:27,700 接着再来选择使用的语言

40 00:01:27,700 --> 00:01:29,366 这边我是建议大家直接

41 00:01:29,366 --> 00:01:30,966 选好要使用的中文

42 00:01:30,966 --> 00:01:31,933 然后这个夸的题

43 00:01:31,933 --> 00:01:34,466 如果你希望能够辨识的更精准的话

44 00:01:34,466 --> 00:01:34,999 你就可以

45 00:01:35,000 --> 00:01:36,400 选择medium或者是high

46 00:01:36,400 --> 00:01:38,766 但是要注意就是这个medium或者是high

47 00:01:38,766 --> 00:01:40,599 它会执行非常久的时间

48 00:01:40,600 --> 00:01:43,533 那如果你只是要大概的一个内容

49 00:01:43,533 --> 00:01:45,899 就可以选择是low或者是very low

50 00:01:45,900 --> 00:01:48,266 再来选择你要输出的格式

51 00:01:48,266 --> 00:01:49,499 它有t x t

52 00:01:49,500 --> 00:01:51,566 s r t跟v t t三种格式

53 00:01:51,566 --> 00:01:54,466 现在要使用字幕档的s r t

54 00:01:54,500 --> 00:01:55,333 请大家注意着

55 00:01:55,333 --> 00:01:56,866 你在第一次执行的时候

56 00:01:56,866 --> 00:02:00,366 它会去自动下载whisper对应的模型

57 00:02:00,366 --> 00:02:03,066 也就是说这边对应的Lola medium hi

58 00:02:03,066 --> 00:02:05,599 它会自动下载对应的模型的档案

59 00:02:05,600 --> 00:02:08,333 medium跟high都是比较大的一个空间

60 00:02:08,333 --> 00:02:10,366 因此有比较多的下载的时间

61 00:02:10,366 --> 00:02:13,166 现在就选择好了以后就直接点击run

62 00:02:13,366 --> 00:02:16,499 然后再指定你要输出的路径跟档名

63 00:02:16,666 --> 00:02:17,733 再点击存档

64 00:02:17,733 --> 00:02:20,733 它就会开始做transcribe的动作了

65 00:02:22,100 --> 00:02:25,500 我分别使用了media模型跟SMOL模型

66 00:02:25,500 --> 00:02:26,800 产生出来一个结果

67 00:02:26,800 --> 00:02:29,800 这个media模型它产生出来的这个段句

68 00:02:29,800 --> 00:02:31,900 它会形成一个比较长的字

69 00:02:32,000 --> 00:02:33,666 那右边这个是low

70 00:02:33,666 --> 00:02:35,766 使用low这个模型来产生的

71 00:02:35,766 --> 00:02:37,299 可以看到它的断句呢

72 00:02:37,300 --> 00:02:38,666 其实是比较短的

73 00:02:38,666 --> 00:02:40,466 就请大家自行去

74 00:02:40,700 --> 00:02:42,533 测试看看哪一个模型

75 00:02:42,533 --> 00:02:44,999 对于你的影片的字幕的录制

76 00:02:45,000 --> 00:02:46,900 能够达到比较好的一个效果

77 00:02:46,900 --> 00:02:50,000 接着就用同样的档案来使用剪映测试

78 00:02:50,000 --> 00:02:50,566 看看

79 00:02:50,566 --> 00:02:53,199 剪映产生出来的字幕会是什么样子

80 00:03:31,133 --> 00:03:34,133 目前右边荧幕就是剪映产生的字幕档

81 00:03:34,133 --> 00:03:35,266 可以来识别一下啊

82 00:03:35,266 --> 00:03:37,999 它跟BUZ也就是whisper产生出来的字幕

83 00:03:38,000 --> 00:03:39,300 到底差距有多少

84 00:03:39,300 --> 00:03:42,533 我先来把它的字幕从简体改成繁体

85 00:03:42,533 --> 00:03:44,199 这个就是第一个差异点

86 00:03:44,200 --> 00:03:46,800 剪映现在目前产生出来的会是简体

87 00:03:46,800 --> 00:03:48,366 把它变更成繁体

88 00:03:48,366 --> 00:03:49,666 再来对照一下

89 00:03:49,666 --> 00:03:51,266 可以看到目前剪映后

90 00:03:51,266 --> 00:03:53,199 它的段距都是比较短的

91 00:03:53,200 --> 00:03:54,900 而且它的正确率

92 00:03:54,900 --> 00:03:57,766 感觉起来是比whisper还来得低

93 00:03:57,900 --> 00:04:00,333 我初步使用以后的结果是这个样子

94 00:04:00,333 --> 00:04:03,066 第一个如果使用bus要注意如果quality

95 00:04:03,200 --> 00:04:05,133 是使用me点或者是high的时候

96 00:04:05,133 --> 00:04:06,866 他会花非常久的时间

97 00:04:06,966 --> 00:04:08,533 但是辨识出来的正确率呢

98 00:04:08,533 --> 00:04:09,933 通常会是比较高的

99 00:04:09,933 --> 00:04:10,599 感觉起来

100 00:04:10,600 --> 00:04:13,466 bus他的辨识的正确率还有他

101 00:04:13,666 --> 00:04:15,133 断句的试切性哦

102 00:04:15,133 --> 00:04:17,366 其实都会比剪映台来的好

103 00:04:17,366 --> 00:04:19,899 但是这两个工具有最大的差别就是

104 00:04:19,900 --> 00:04:22,933 bus完全在本地端就可以独立完成

105 00:04:23,000 --> 00:04:26,200 因此在执行bus说不必连上网路同时

106 00:04:26,200 --> 00:04:29,133 我们也不用再担心说我的这些档案哦

107 00:04:29,133 --> 00:04:30,766 上传到别的平台

108 00:04:30,766 --> 00:04:32,999 有可能会被那个平台保留下来

109 00:04:33,000 --> 00:04:34,866 这一些自然方面的问题

110 00:04:34,866 --> 00:04:36,533 bus完全都在本地端

111 00:04:36,533 --> 00:04:38,299 就可以单独的运行了

112 00:04:38,300 --> 00:04:39,933 我是觉得使用bus

113 00:04:40,200 --> 00:04:41,533 虽然它花的时间

114 00:04:41,533 --> 00:04:44,199 会是比较久的一个辨识的时间

115 00:04:44,200 --> 00:04:45,800 但是它有安全性

116 00:04:45,800 --> 00:04:48,100 还有正确性的这一些因素

117 00:04:48,100 --> 00:04:50,166 因此我觉得可以使用bus

118 00:04:50,166 --> 00:04:52,266 来取代剪映的智能字幕

119 00:04:52,266 --> 00:04:55,299 而且它也是不需要任何费用的剪映

120 00:04:55,300 --> 00:04:57,100 因为它的VIP的版本啊

121 00:04:57,100 --> 00:04:59,666 也已经推出了这个免费的智能字幕

122 00:04:59,666 --> 00:05:01,933 不晓得能够提供到什么时候

123 00:05:01,933 --> 00:05:04,099 因此如果你能够使用80的话

124 00:05:04,100 --> 00:05:06,933 也许也可以使用80来测试看看

125 00:05:06,933 --> 00:05:09,066 最后再来看一下stop title editor

126 00:05:09,066 --> 00:05:10,133 它其实在三点

127 00:05:10,133 --> 00:05:11,366 六点八版以后

128 00:05:11,366 --> 00:05:14,199 也增加了两个语音变式的整合

129 00:05:14,200 --> 00:05:15,900 简单的来看一下这个整

130 00:05:15,900 --> 00:05:17,133 合要怎么来操作

131 00:05:17,133 --> 00:05:20,133 首先就是先把字幕档给开启起来

132 00:05:21,466 --> 00:05:23,333 再点击找到影片档

133 00:05:23,333 --> 00:05:25,499 就可以在这个视讯的功能表里面

134 00:05:25,500 --> 00:05:26,666 找到这两个

135 00:05:26,666 --> 00:05:28,866 语音识别的整合的选项

136 00:05:28,866 --> 00:05:32,199 第一个是使用Vosk这个引擎

137 00:05:32,200 --> 00:05:33,700 现在要使用这个whisper

138 00:05:33,700 --> 00:05:35,900 就是使用这个audio to text

139 00:05:36,500 --> 00:05:39,533 然后接着来选择语言并且选择模型

140 00:05:39,533 --> 00:05:42,466 选择好以后就可以直接点击产生

141 00:05:42,500 --> 00:05:45,866 初步使用的结果就是发现title edit

142 00:05:45,866 --> 00:05:48,299 它虽然能够辨识出这些中文

143 00:05:48,300 --> 00:05:48,966 但是它

144 00:05:48,966 --> 00:05:52,299 产生出来这个持续时间不是非常正确

145 00:05:52,466 --> 00:05:55,333 试用的结果我觉得还是bus会比较

146 00:05:55,333 --> 00:05:55,999 正确一点

147 00:05:56,000 --> 00:05:58,066 这个就请大家自行再去测试

148 00:05:58,066 --> 00:06:00,899 看看你觉得是不是可以使用subtitle edit

149 00:06:00,900 --> 00:06:01,933 来直接做

150 00:06:01,933 --> 00:06:03,266 语音识别的的处理

151 00:06:03,266 --> 00:06:05,499 我是觉得bus给我初步的体验

152 00:06:05,500 --> 00:06:06,466 感觉还不错

153 00:06:06,466 --> 00:06:08,166 那么这个就是今天介绍的

154 00:06:08,166 --> 00:06:11,366 这个可以离线使用的语音识别工具bus

155 00:06:11,666 --> 00:06:12,733 如果你觉得bus

156 00:06:12,733 --> 00:06:15,966 还有它这个Whisper神经网络的引擎

157 00:06:16,066 --> 00:06:18,733 使用起来的正确性跟便利性

158 00:06:18,733 --> 00:06:21,399 都会比别的语音识别工具来的高的话

159 00:06:21,400 --> 00:06:24,200 那么建议大家可以尽量的来使用bus

160 00:06:24,200 --> 00:06:26,333 如果你觉得我介绍的工具

161 00:06:26,333 --> 00:06:28,533 对你日常使用电脑的效率

162 00:06:28,533 --> 00:06:29,599 有所提升的话

163 00:06:29,600 --> 00:06:32,966 请各位记得订阅按赞并且分享

164 00:06:32,966 --> 00:06:33,933 谢谢各位

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment