johnmiedema/ApacheTikaMetadataConvertPlainText

## ApacheTikaMetadataConvertPlainText
//Use Apache Tika to extract metadata and convert different content types into plain text
//'Whatson' blog series at johnmiedema.com
//http://johnmiedema.com/?tag=whatson

//source documents include different content types
processDocument(&quot;resources/mobydick.htm&quot;);
processDocument(&quot;resources/robinsoncrusoe.txt&quot;);
processDocument(&quot;resources/callofthewild.pdf&quot;);

private static void processDocument(String pathfilename)  {

  try {
  	InputStream input = new FileInputStream(new File(pathfilename));

  	//Apache Tika
  	ContentHandler textHandler = new BodyContentHandler(10*1024*1024);
  	Metadata meta = new Metadata();
  	Parser parser = new AutoDetectParser(); //handles documents in different formats:
  	ParseContext context = new ParseContext();

  	parser.parse(input, textHandler, meta, context);

  	//extract metadata
  	System.out.println(&quot;Title: &quot; + meta.get(DublinCore.TITLE));

  	//content is plain text
  	System.out.println(&quot;Body: &quot; + textHandler.toString());
  }
  catch  (Exception ex) {
    System.out.println(ex.getMessage());
  }
}
	//Use Apache Tika to extract metadata and convert different content types into plain text
	//'Whatson' blog series at johnmiedema.com
	//http://johnmiedema.com/?tag=whatson

	//source documents include different content types
	processDocument("resources/mobydick.htm");
	processDocument("resources/robinsoncrusoe.txt");
	processDocument("resources/callofthewild.pdf");

	private static void processDocument(String pathfilename) {

	try {
	InputStream input = new FileInputStream(new File(pathfilename));

	//Apache Tika
	ContentHandler textHandler = new BodyContentHandler(1010241024);
	Metadata meta = new Metadata();
	Parser parser = new AutoDetectParser(); //handles documents in different formats:
	ParseContext context = new ParseContext();

	parser.parse(input, textHandler, meta, context);

	//extract metadata
	System.out.println("Title: " + meta.get(DublinCore.TITLE));

	//content is plain text
	System.out.println("Body: " + textHandler.toString());
	}
	catch (Exception ex) {
	System.out.println(ex.getMessage());
	}
	}