dangovorenefekt/blockmetatwitter.md

## blockmetatwitter.md

      
    Raw
  

              blockmetatwitter.md
            
          
Modify /etc/nginx/nginx.conf file
Modify /etc/nginx/sites-available/site.conf file
Create /etc/nginx/useragent.rule file

Where to find user agent strings?

https://explore.whatismybrowser.com/useragents/explore/software_name/facebook-bot/
Looking for same but for Apache2? Here:
https://techexpert.tips/apache/apache-blocking-bad-bots-crawlers/
Test:
[rubin@reaper ~]$ curl -A "instagram" -I https://plrm.podcastalot.com
HTTP/2 418
server: nginx/1.18.0
date: Mon, 26 Jun 2023 06:07:25 GMT
content-type: text/html
content-length: 197


## nginx.conf
http {
    .....
    include /etc/nginx/useragent.rules
}

## site.conf
server {
    ....

    if ($badagent) {
        return 418;
    }

    ....
}

## useragent.rules
map $http_user_agent $badagent {
        default         0;
        ~*AdsBot-Google 1;
        ~*Amazonbot     1;
        ~*anthropic-ai  1;
        ~*AwarioRssBot  1;
        ~*AwarioSmartBot        1;
        ~*Bytespider    1;
        ~*CCBot 1;
        ~*ChatGPT-User  1;
        ~*ClaudeBot     1;
        ~*Claude-Web    1;
        ~*cohere-ai     1;
        ~*DataForSeoBot 1;
        ~*FacebookBot   1;
        ~*facebookexternalhit   1;
        ~*facebook      1;
        ~*facebot       1;
        ~*Google-Extended       1;
        ~*GPTBot        1;
        ~*ImagesiftBot  1;
        ~*magpie-crawler        1;
        ~*omgili        1;
        ~*omgilibot     1;
        ~*peer39_crawler        1;
        ~*peer39_crawler/1.0    1;
        ~*PerplexityBot 1;
        ~*YouBot        1;
        ~*instagram     1;
        ~*tweet 1;
        ~*tweeter       1;
}
	map $http_user_agent $badagent {
	default 0;
	~*AdsBot-Google 1;
	~*Amazonbot 1;
	~*anthropic-ai 1;
	~*AwarioRssBot 1;
	~*AwarioSmartBot 1;
	~*Bytespider 1;
	~*CCBot 1;
	~*ChatGPT-User 1;
	~*ClaudeBot 1;
	~*Claude-Web 1;
	~*cohere-ai 1;
	~*DataForSeoBot 1;
	~*FacebookBot 1;
	~*facebookexternalhit 1;
	~*facebook 1;
	~*facebot 1;
	~*Google-Extended 1;
	~*GPTBot 1;
	~*ImagesiftBot 1;
	~*magpie-crawler 1;
	~*omgili 1;
	~*omgilibot 1;
	~*peer39_crawler 1;
	~*peer39_crawler/1.0 1;
	~*PerplexityBot 1;
	~*YouBot 1;
	~*instagram 1;
	~*tweet 1;
	~*tweeter 1;
	}