Semyon semyont

## 0_reuse_code.js
// Use Gists to store code you would like to remember later on
console.log(window); // log the "window" object to the console

## regex.py
from pyspark.sql.functions import split, regexp_extract
split_df = base_df.select(regexp_extract('value', r'^([^\s]+\s)', 1).alias('host'),
                          regexp_extract('value', r'^.*\[(\d\d/\w{3}/\d{4}:\d{2}:\d{2}:\d{2} -\d{4})]', 1).alias('timestamp'),
                          regexp_extract('value', r'^.*"\w+\s+([^\s]+)\s+HTTP.*"', 1).alias('path'),
                          regexp_extract('value', r'^.*"\s+([^\s]+)', 1).cast('integer').alias('status'),
                          regexp_extract('value', r'^.*\s+(\d+)$', 1).cast('integer').alias('content_size'))
split_df.show(truncate=False)

## csv_pandas_stream_elastic_upsert.py
import logging
import hashlib

from elasticsearch import Elasticsearch
from elasticsearch import helpers

from tqdm import tqdm


class Storage:

## gevent_concurrency_redis.py
import logging
logging.basicConfig(
    format='%(asctime)s,%(msecs)05.1f (%(funcName)s) %(message)s',
    datefmt='%H:%M:%S')
log = logging.getLogger()
log.setLevel(logging.INFO)

import threading
import os
import time

## useful_pandas_snippets.py
# List unique values in a DataFrame column
pd.unique(df.column_name.ravel())

# Convert Series datatype to numeric, getting rid of any non-numeric values
df['col'] = df['col'].astype(str).convert_objects(convert_numeric=True)

# Grab DataFrame rows where column has certain values
valuelist = ['value1', 'value2', 'value3']
df = df[df.column.isin(valuelist)]

## wordpress-mysql-docker-compose.yml
version: '2'

services:
   db:
     image: mysql:5.7
     volumes:
       - db_data:/var/lib/mysql
     restart: always
     environment:
       MYSQL_ROOT_PASSWORD: wordpress

## csv_manipulation.py

# Convert wide format csv to long format csv
# Time Temp1 Temp2 Temp3 Temp4 Temp5
# 00   21     32   33    21    23
# 10   34     23   12    08    23
# 20   12     54   33    54    55

with open("in.csv") as f,open("out.csv","w") as out:
     headers = next(f).split()[1:]  # keep headers/Time Temp1 Temp2 Temp3 Temp4 Temp5
     for row in f:

## elasticsearch_filter_query.json
# GET /_search
{
  "query": {
    "bool": {
      "must": [
        { "match": { "doc.title":   "Search"        }},
        { "match": { "doc.content": "Elasticsearch" }}
      ],
      "filter": [
        { "term":  { "doc.status": "published" }},

## elasticsearch_term_nested_aggregation.json
# use un-analyzed fields

{
    "aggs" : {
        "domain" : {
             "terms" : {
                 "field" : "doc.domain.keyword",
                 "size" : 4,
                 "collect_mode" : "breadth_first"
             },

## tornado_gevent_async.py
# Do this as early as possible in your application:
from gevent import monkey; monkey.patch_all()
from tornado.web import RequestHandler, asynchronous

import gevent

class MyHandler(RequestHandler):
    @asynchronous
    def get(self, *args, **kwargs):
        def async_task():
	// Use Gists to store code you would like to remember later on
	console.log(window); // log the "window" object to the console
	from pyspark.sql.functions import split, regexp_extract
	split_df = base_df.select(regexp_extract('value', r'^([^\s]+\s)', 1).alias('host'),
	regexp_extract('value', r'^.*\[(\d\d/\w{3}/\d{4}:\d{2}:\d{2}:\d{2} -\d{4})]', 1).alias('timestamp'),
	regexp_extract('value', r'^."\w+\s+([^\s]+)\s+HTTP."', 1).alias('path'),
	regexp_extract('value', r'^.*"\s+([^\s]+)', 1).cast('integer').alias('status'),
	regexp_extract('value', r'^.*\s+(\d+)$', 1).cast('integer').alias('content_size'))
	split_df.show(truncate=False)
	import logging
	import hashlib

	from elasticsearch import Elasticsearch
	from elasticsearch import helpers

	from tqdm import tqdm


	class Storage:
	import logging
	logging.basicConfig(
	format='%(asctime)s,%(msecs)05.1f (%(funcName)s) %(message)s',
	datefmt='%H:%M:%S')
	log = logging.getLogger()
	log.setLevel(logging.INFO)

	import threading
	import os
	import time
	# List unique values in a DataFrame column
	pd.unique(df.column_name.ravel())

	# Convert Series datatype to numeric, getting rid of any non-numeric values
	df['col'] = df['col'].astype(str).convert_objects(convert_numeric=True)

	# Grab DataFrame rows where column has certain values
	valuelist = ['value1', 'value2', 'value3']
	df = df[df.column.isin(valuelist)]
	version: '2'

	services:
	db:
	image: mysql:5.7
	volumes:
	- db_data:/var/lib/mysql
	restart: always
	environment:
	MYSQL_ROOT_PASSWORD: wordpress

	# Convert wide format csv to long format csv
	# Time Temp1 Temp2 Temp3 Temp4 Temp5
	# 00 21 32 33 21 23
	# 10 34 23 12 08 23
	# 20 12 54 33 54 55

	with open("in.csv") as f,open("out.csv","w") as out:
	headers = next(f).split()[1:] # keep headers/Time Temp1 Temp2 Temp3 Temp4 Temp5
	for row in f:
	# GET /_search
	{
	"query": {
	"bool": {
	"must": [
	{ "match": { "doc.title": "Search" }},
	{ "match": { "doc.content": "Elasticsearch" }}
	],
	"filter": [
	{ "term": { "doc.status": "published" }},
	# use un-analyzed fields

	{
	"aggs" : {
	"domain" : {
	"terms" : {
	"field" : "doc.domain.keyword",
	"size" : 4,
	"collect_mode" : "breadth_first"
	},
	# Do this as early as possible in your application:
	from gevent import monkey; monkey.patch_all()
	from tornado.web import RequestHandler, asynchronous

	import gevent

	class MyHandler(RequestHandler):
	@asynchronous
	def get(self, args, *kwargs):
	def async_task():