Skip to content

Instantly share code, notes, and snippets.

@yunnysunny
Last active August 29, 2015 14:05
Show Gist options
  • Save yunnysunny/5bdd7f37c88c01bdf2f0 to your computer and use it in GitHub Desktop.
Save yunnysunny/5bdd7f37c88c01bdf2f0 to your computer and use it in GitHub Desktop.
百度搜索引擎死链获取工具
/.settings
/.jshintrc
/.project
/*.txt
/*.xml
/*.bat

最近新网的DNS被黑,导致很多网站的域名被泛解析,我的网站whyun.com也不幸中招。 在搜索引擎中搜site:whyun.com,会出现大量的垃圾网站,都是博彩网站的网页。 但是这些垃圾网页的链接已经全部失效了。 给百度提交反馈,得到的回复总是: 本分类仅受理来自网页搜索的用户反馈(包括快照的更新、删除等),原网站未删除的请先联系原网站删除。 着实令人恼火,每次提交反馈得到的反馈都是一样的,明显是敷衍。所以才有了提交死链的想法。

说到提交死链,在google的站长工具中也是可以,具体位置在 网站站长工具->Google索引->移除网址,遗憾的是google没有提供批量添加死链的功能。 不过提交给google处理的死链一般一天的时间就能处理完。同样在百度站长平台中,具体位置在 百度站长平台->数据提交->死链提交,打开界面后需要提交一个死链文件的链接地址。但是这个死链文件 格式必须是xml格式的,具体格式如下:

<?xml version="1.0" encoding="UTF-8"?>
<urlset>
	<url>
		<loc>死链地址1</loc>
	</url>
	<url>
		<loc>死链地址2</loc>
	</url>
<urlset>

如果手动编辑这个文件太费劲,所以才有了这个工具。

首先这个工具是使用phantomjs脚本编写的,所以必须先去其官网下载http://phantomjs.org/download.html 下载完之后,解压到一个任意目录,然后把这个目录追加到系统的PATH变量中,保证在命令行中输入phantomjs 能够访问这个命令。然后运行

phantomjs 脚本文件路径 搜索条件 要处理的分页数

脚本文件路径肯定就是指当前脚本文件的存放目录,搜索条件是提交到百度的搜索条件, 比如要查看我的网站whyun.com的所有收录,则可以输入 site:whyun.com要处理的分页数是由于百度出来的搜索结果是分页的,这里告诉程序处理多少个分页。

最终结果会生成到error_links.xml中。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment