semyont/regex.py

## regex.py
from pyspark.sql.functions import split, regexp_extract
split_df = base_df.select(regexp_extract('value', r'^([^\s]+\s)', 1).alias('host'),
                          regexp_extract('value', r'^.*\[(\d\d/\w{3}/\d{4}:\d{2}:\d{2}:\d{2} -\d{4})]', 1).alias('timestamp'),
                          regexp_extract('value', r'^.*"\w+\s+([^\s]+)\s+HTTP.*"', 1).alias('path'),
                          regexp_extract('value', r'^.*"\s+([^\s]+)', 1).cast('integer').alias('status'),
                          regexp_extract('value', r'^.*\s+(\d+)$', 1).cast('integer').alias('content_size'))
split_df.show(truncate=False)
	from pyspark.sql.functions import split, regexp_extract
	split_df = base_df.select(regexp_extract('value', r'^([^\s]+\s)', 1).alias('host'),
	regexp_extract('value', r'^.*\[(\d\d/\w{3}/\d{4}:\d{2}:\d{2}:\d{2} -\d{4})]', 1).alias('timestamp'),
	regexp_extract('value', r'^."\w+\s+([^\s]+)\s+HTTP."', 1).alias('path'),
	regexp_extract('value', r'^.*"\s+([^\s]+)', 1).cast('integer').alias('status'),
	regexp_extract('value', r'^.*\s+(\d+)$', 1).cast('integer').alias('content_size'))
	split_df.show(truncate=False)