tomo-makes/20171217-docx-to-markdown-with-pandoc.md

## 20171217-docx-to-markdown-with-pandoc.md

      
    Raw
  

              20171217-docx-to-markdown-with-pandoc.md
            
          
    $ pandoc -s <input>.docx --wrap=none --reference-links --extract-media=media -t gfm --filter ./despan.py　-o <output>.md

いろいろと試した挙句、下記の観点でこれがベスト。

--wrap=none 勝手にwrapさせたくない(defaultではwrapしてしまう)
--reference-links
--extract-media=media docxに埋め込まれたpngなどを抽出できる
-t gfm github形式のmarkdownで出力したい(tableがpandoc defaultのmarkdownは他の形式になってしまう)


ref: Pandoc - Pandoc User’s Guide


ref: How to remove title anchor when converting docx to markdown? · Issue #1893 · jgm/pandoc


filterを使い、title anchorを削除する


## despan.py
#!/usr/bin/env python

# copied from https://github.com/jgm/pandoc/issues/1893

"""
despan.py
Pandoc filter to convert all regular text to uppercase.
Code, link URLs, etc. are not affected.
"""

from pandocfilters import toJSONFilter, Str

def despan(key, value, format, meta):
  if key == 'Span':
    return []

if __name__ == "__main__":
  toJSONFilter(despan)
	#!/usr/bin/env python

	# copied from https://github.com/jgm/pandoc/issues/1893

	"""
	despan.py
	Pandoc filter to convert all regular text to uppercase.
	Code, link URLs, etc. are not affected.
	"""

	from pandocfilters import toJSONFilter, Str

	def despan(key, value, format, meta):
	if key == 'Span':
	return []

	if __name__ == "__main__":
	toJSONFilter(despan)