Skip to content

Instantly share code, notes, and snippets.

@inkss
Last active June 27, 2024 10:07
Show Gist options
  • Save inkss/6a256813ad2df862d1f8b91f6db0c643 to your computer and use it in GitHub Desktop.
Save inkss/6a256813ad2df862d1f8b91f6db0c643 to your computer and use it in GitHub Desktop.
uBlacklist 中文搜索屏蔽名单

简介

uBlacklist 可以对搜索引擎的结果进行过滤,屏蔽不喜欢/需要的搜索结果,支持常见的如谷歌/必应搜索。

下载链接

扩展地址:ublacklist

订阅链接

采集站名单列表,持久性更新,对采集站等低质量站点进行屏蔽。

  • 没有明显的规律,但确认为采集站,见 website.txt 文件。
  • Tip: 自用订阅列表,地址:website.txt

功能增强

由于 ublacklist 是直接隐藏搜索结果,所以黑名单需要相当准确,规则贵精不贵多,所以为了补充,还可以使用 终结内容农场。该软件专注于识别并拦截内容农场的访问,所以一定程度上可以放心使用其提供的订阅名单。

不过个人认为这类直接替用户做主,拦截访问的行为有些不太妥当,目前只使用了它的内容农场标记功能:即在扩展设置页面,修改 站点访问权限 为仅在特定站点 https://www.google.com/* 上启用。

                                        ⠸⣷⣦⠤⡀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⢀⣀⣠⣤⠀⠀⠀
                                        ⠀⠙⣿⡄⠈⠑⢄⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⣀⠔⠊⠉⣿⡿⠁⠀⠀⠀
                                        ⠀⠀⠈⠣⡀⠀⠀⠑⢄⠀⠀⠀⠀⠀⠀⠀⠀⠀⡠⠊⠁⠀⠀⣰⠟⠀⠀⠀⣀⣀
                                        ⠀⠀⠀⠀⠈⠢⣄⠀⡈⠒⠊⠉⠁⠀⠈⠉⠑⠚⠀⠀⣀⠔⢊⣠⠤⠒⠊⠉⠀⡜
                    ⠀⠀⠀⠀⠀                   ⠀⠀⡽⠁⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠩⡔⠊⠁⠀⠀⠀⠀⠀⠀ ⠇
                    ⠀⠀⠀⠀⠀                   ⠀⠀⡇⢠⡤⢄⠀⠀⠀⠀⠀⡠⢤⣄⠀⡇⠀⠀⠀⠀⠀⠀⠀⢰⠀
                    ⠀⠀⠀⠀                   ⠀⠀⢀⠇⠹⠿⠟⠀⠀⠤⠀⠀⠻⠿⠟⠀⣇⠀⠀⡀⠠⠄⠒⠊⠁⠀
                    ⠀⠀                  ⠀⠀⠀⠀⢸⣿⣿⡆⠀⠰⠤⠖⠦⠴⠀⢀⣶⣿⣿⠀⠙⢄⠀⠀⠀⠀⠀⠀
                    ⠀⠀⠀                   ⠀⠀⠀⠀⢻⣿⠃⠀⠀⠀⠀⠀⠀⠀⠈⠿⡿⠛⢄⠀⠀⠱⣄⠀⠀⠀⠀
                    ⠀⠀⠀                  ⠀⠀⠀⠀⢸⠈⠓⠦⠀⣀⣀⣀⠀⡠⠴⠊⠹⡞⣁⠤⠒⠉⠀⠀⠀⠀⠀
                    ⠀⠀⠀                   ⠀⠀⠀⣠⠃⠀⠀⠀⠀⡌⠉⠉⡤⠀⠀⠀⠀⢻⠿⠆⠀⠀⠀⠀⠀⠀⠀
                                        ⠀⠀⠀⠀⠰⠁⡀⠀⠀⠀⠀⢸⠀⢰⠃⠀⠀⠀⢠⠀⢣⠀⠀⠀⠀⠀⠀⠀⠀
                                       ⠀⠀⠀⢶⣗⠧⡀⢳⠀⠀⠀⠀⢸⣀⣸⠀⠀⠀⢀⡜⠀⣸⢤⣶⠀⠀⠀⠀⠀⠀
                                       ⠀⠀⠀⠈⠻⣿⣦⣈⣧⡀⠀⠀⢸⣿⣿⠀⠀⢀⣼⡀⣨⣿⡿⠁⠀⠀⠀⠀⠀⠀
                                       ⠀⠀⠀⠀⠀⠈⠻⠿⠿⠓⠄⠤⠘⠉⠙⠤⢀⠾⠿⣿⠟⠋
*://*.w3cplus.com/*
*://*.codeantenna.com/*
*://*.modb.pro/*
*://*.361shipin.com/*
*://*.boce.com/*
*://*.yiibai.com/*
*://*.365jz.com/*
*://*.jdon.com/*
*://*.zhihuclub.com/*
*://*.javajgs.com/*
*://*.yht7.com/*
*://*.cdsy.xyz/*
*://*.nhooo.com/*
*://*.cxyzjd.com/*
*://*.proginn.com/*
*://*.xuewangzhan.net/*
*://*.iteye.com/*
*://*.volcengine.com/*
*://*.gebi1.com/*
*://*.imydl.com/*
  • 屏蔽 http 站点
/(http:\/\/.*)/
  • 屏蔽移动端(桌面端不看移动端排版内容!!!)
/.*:\/\/(wap|m)\..*/
  • 屏蔽搜索列表(点进去是一个搜索列表页面)
/.*\?q=.*/
/.*\?s=.*/
/.*\?keyword=.*/
/.*collections\/.*\?.*/
*://*/s/*
*://*/so/*
*://*/so.php
*://*/informat/*
*://*/zhuanti/*
*://*/keyword/*
*://*/*/searchList.jsp?*
*://*/*dictionary?p=*
*://*.douyin.com/search/*
  • 屏蔽云厂商抓取文章
*://cloud.tencent.com/developer/article/*
*://cloud.tencent.com/developer/information/*
*://developer.aliyun.com/article/*
*://cloud.baidu.com/article/*
*://bbs.huaweicloud.com/blogs/*
*://developer.huawei.com/consumer/cn/forum/topic/*
*://www.ctyun.cn/developer/article/*
*://www.hncloud.com/supports/*
*://www.ucloud.cn/yun/*.html
*://www.yisu.com/zixun/*
*://www.yisu.com/ask/*
*://www.yuntue.com/post/*
*://www.huoban.com/news/post/*
  • 谷歌地图的分享
*://www.google.com/mymaps/viewer?mid=*
  • 不会有博主以程序员/开发者当作网站名称的一部分吧?

    可能误拦截形如 ‘开发者平台’ 名称的网站

title/^.*(程序员|开发者).*/
  • 原则上大概率是采集站(存在误伤可能性)
title/^.*(学习|学识|资讯|知识)$/
  • CSDN、简书、掘金、PHP 中文网、51CTO、Gitee 的仓库推荐页(共有缺点:页面太乱、内容太拉、低价值)
*://*.csdn.net/*
*://*.jianshu.com/*
*://*.juejin.cn/*
*://*.php.cn/*
*://*.51cto.com/*
*://*.gitee.com/explore/*
  • 百家号和百度知道约等于毒瘤,163和搜狐有一些历史博客(然而网站以死),头条部分文章尚可,但...
*://baijiahao.baidu.com/*
*://zhidao.baidu.com/*
*://wapiknow.baidu.com/*
*://www.sohu.com/a/*
*://www.toutiao.com/article/*
  • 不看抖音视频、文章;番茄阅读这个很离谱:描述部分和搜索词勉强沾边,但点进去是完全不沾边的小说
*://*.douyin.com/video/*
*://*.163.com/dy/article/*
*://*.fanqienovel.com/page/*
@3-2
Copy link

3-2 commented Jan 14, 2023

建议把*://*/collections/vendors?q=*改成*://*/*collections/vendors*。因为这类内容农场的网址的「collections/vendors」部分并不都是紧接着域名之后的,也有的在域名之后还有一些子目录,然后才到「collections/vendors」。
谷歌搜索「site:*.com/*/collections/vendors」就能发现这些漏网之鱼。

@inkss
Copy link
Author

inkss commented Jan 15, 2023

建议把*://*/collections/vendors?q=*改成*://*/*collections/vendors*。因为这类内容农场的网址的「collections/vendors」部分并不都是紧接着域名之后的,也有的在域名之后还有一些子目录,然后才到「collections/vendors」。 谷歌搜索「site:.com//collections/vendors」就能发现这些漏网之鱼。

@3-2 确实,不过我还看到一些 collections/types 这样结构的,然后查询词除了 ?q= 还有 ?s=?tag=,不如就将范围扩大,带 collections? 的就屏蔽,基本上这些都是搜索结果展示页。

/.*collections\/.*\?.*/

起码现在谷歌的中文搜索结果被这种关键词查询污染了,一堆这种。

@3-2
Copy link

3-2 commented Jan 15, 2023

谢谢。
我们开发者以及普通网民应该互相协作,把发现的内容农场网站共同汇总到一个地方。(感觉有点说教……)
目前我发现的一个项目是uBlacklist subscription compilation,他是把网上其他人维护的列表合并在一起了。
不知你是否愿意把你收集的这些网址提交到他的项目中去。

@inkss
Copy link
Author

inkss commented Jan 15, 2023

谢谢。 我们开发者以及普通网民应该互相协作,把发现的内容农场网站共同汇总到一个地方。(感觉有点说教……) 目前我发现的一个项目是uBlacklist subscription compilation,他是把网上其他人维护的列表合并在一起了。 不知你是否愿意把你收集的这些网址提交到他的项目中去。

@3-2 website.txt 的内容是我自己在用的,主要针对编程类的低质量站点屏蔽。
其它的话也是那种得按需启用,倒是可以把基础屏蔽列表.md中的提交过去。

@3-2
Copy link

3-2 commented Jan 15, 2023

好的,谢谢你。

另外提醒一下,你扩大范围后的规则,由于有效字符串(类比数学上的有效数字概念)只有一个「collections」,导致有大量正常网址被误伤,参见谷歌搜索site:*/*/collections/的结果

想要精准过滤内容农场确实比较困难,所以还是看取舍吧。

@inkss
Copy link
Author

inkss commented Jan 15, 2023

@3-2 更改了一下,应该转义一下的,emm

regex101 build, test, and debug regex 和另外 6 个页面 - _23-01-15_21-49-19

@3-2
Copy link

3-2 commented Jan 15, 2023

谢谢。(我根本不会正则表达式,这也是为什么我最初谷歌搜索到了你这个代码片段……)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment