HON95/office_html_cleaner.txt

## office_html_cleaner.txt
# Regular expressions for cleaning trashy Office HTML. Meant for lated extraction of content.
# Note: This only removes trash I encountered.

# Remove no-break spaces, spans, b, u, and a elements and o:p elements (whatever those are)
(?:&nbsp;)|(?:\xA0)|(?:</?span[^>]*>)|(?:</?[bua][^>]*>)|(?:</?o:p>)

# Remove attributes for html, head, div, p, table, tr and td elements
(?:(?<=<html)|(?<=<head)|(?<=<div)|(?<=<p)|(?<=<table)|(?<=<tr)|(?<=<td))[^>]*(?=>)

# Remove everything inside head
(?<=<head>)(?:(?!</head>).)*

# Remove empty p elements
<p>\s*</p>

# Remove empty div elements
<div>\s*</div>

# Remove empty lines
\n[ ]*\r

# Remove p element tags inside td elements and preserves content
(?:(?<=<td>)\s*<p>)|(?:</p>\s*(?=</td>))
	# Regular expressions for cleaning trashy Office HTML. Meant for lated extraction of content.
	# Note: This only removes trash I encountered.

	# Remove no-break spaces, spans, b, u, and a elements and o:p elements (whatever those are)
	(?: )\|(?:\xA0)\|(?:</?span[^>]>)\|(?:</?[bua][^>]>)\|(?:</?o:p>)

	# Remove attributes for html, head, div, p, table, tr and td elements
	(?:(?<=<html)\|(?<=<head)\|(?<=<div)\|(?<=<p)\|(?<=<table)\|(?<=<tr)\|(?<=<td))[^>]*(?=>)

	# Remove everything inside head
	(?<=<head>)(?:(?!</head>).)*

	# Remove empty p elements
	<p>\s*</p>

	# Remove empty div elements
	<div>\s*</div>

	# Remove empty lines
	\n[ ]*\r

	# Remove p element tags inside td elements and preserves content
	(?:(?<=<td>)\s<p>)\|(?:</p>\s(?=</td>))