Skip to content

Instantly share code, notes, and snippets.

Avatar
💭
github就是我编程的一个个人网站,静态博客,内容。

熊潇 abearxiong

💭
github就是我编程的一个个人网站,静态博客,内容。
  • hangzhou china
View GitHub Profile
@zhaokuohaha
zhaokuohaha / Robots协议和robots.txt解读.md
Last active Sep 9, 2019
robots.txt基本语法, 以及robots协议的各家搜索引擎实现。
View Robots协议和robots.txt解读.md

文件简介

简单的说 Robot 协议是用于告诉网络爬虫(主要是搜索引擎爬虫)本域名下的网页中, 那些部分是不应该爬取的,具体来说就是在网站的域名根目录下添加一份robots.txt文件, 并在文件中声明对应的规则. 由于 Url 对大小写敏感, 所以 robots.txt 文件名要求全部小写.

搜索引擎爬虫在爬取一个网站时, 首先检查是否存在 robots.txt 文件, 如果存在, 则在爬取该网站下其他网页时, 应遵循文件所定义的范围进行爬取.

需要注意的是 Robots 协议是一个共同遵循的"道德约定", 但是不具有法律效应, 同时也不保证所有搜索引擎都会遵守这个约定

内容和语法

@WangYihang
WangYihang / port-forwarding.py
Last active Apr 26, 2022
port forwarding via python socket
View port-forwarding.py
#!/usr/bin/env python3
# Tcp Port Forwarding (Reverse Proxy)
# Author : WangYihang <wangyihanger@gmail.com>
'''
+-----------------------------+ +---------------------------------------------+ +--------------------------------+
| My Laptop (Alice) | | Intermediary Server (Bob) | | Internal Server (Carol) |
+-----------------------------+ +----------------------+----------------------+ +--------------------------------+
| $ ssh -p 1022 carol@1.2.3.4 |<------->| IF 1: 1.2.3.4 | IF 2: 192.168.1.1 |<------->| IF 1: 192.168.1.2 |
| carol@1.2.3.4's password: | +----------------------+----------------------+ +--------------------------------+