marcgeld/pdfImages2MultipageTIFF.groovy

## pdfImages2MultipageTIFF.groovy
#!/usr/bin/env groovy

// Java 9 or later (…for the TIFF ImageIO Plugin)

@Grab(group='ch.qos.logback', module='logback-classic', version='1.2.3')
@Grab(group='org.apache.pdfbox', module='pdfbox', version='2.0.15')
@Grab(group='commons-io', module='commons-io', version='2.6')

import org.apache.pdfbox.pdfwriter.*
import org.apache.pdfbox.pdmodel.*
import org.apache.pdfbox.pdmodel.font.*
import org.apache.pdfbox.pdmodel.edit.*
import org.apache.pdfbox.pdmodel.graphics.*
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject
import java.awt.image.BufferedImage
import javax.imageio.IIOImage
import javax.imageio.ImageIO
import javax.imageio.stream.ImageOutputStream
import javax.imageio.ImageWriter
import javax.imageio.ImageWriteParam
import org.apache.pdfbox.cos.COSName
import java.nio.*

def appName = this.getClass().getName()

// Add .removeExtension() to String
String.metaClass.mixin org.apache.commons.io.FilenameUtils

System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")
System.setProperty("org.apache.pdfbox.rendering.UsePureJavaCMYKConversion", "true")


def cli = new CliBuilder(
    usage:"${appName} [<options>]",
    header: 'Options:',
    footer: 'Use with file OR dir path'
)

cli.with {
    f(longOpt: 'file', 'filepath', args: 1, required: false)
    d(longOpt: 'dir', 'path to directory', args: 1, required: false)
    h(longOpt: 'help', 'Print help', required: false)
}

def opt = cli.parse(args)
if ( !opt || opt.h ) {
    cli.usage()
    return
} else if (opt.f && opt.d) {
    cli.usage()
    return
}


def found = []
if (opt.d) {
    currentDir = new File(opt.d).getAbsoluteFile()
    currentDir.traverse(type: groovy.io.FileType.FILES, nameFilter: ~/(?x).*.pdf/) { f ->
        found << f.getAbsoluteFile()
    }
} else {
    found << new File(opt.f).getAbsoluteFile()
}

found.each{ f ->

    PDDocument doc = null

    if (f.exists() && f.canRead()) {
        println "Processing: file ${f}"
    }
    else {
        println "Error: file ${f} not found or not readble"
        return
    }

    outFile="${f.getPath().removeExtension()}.tiff"

    ImageOutputStream outputStream = ImageIO.createImageOutputStream(new FileOutputStream(outFile))
    ImageWriter writer = ImageIO.getImageWritersByFormatName("TIFF").next()
    writer.setOutput(outputStream)
    ImageWriteParam params = writer.getDefaultWriteParam()
    params.setCompressionMode(ImageWriteParam.MODE_EXPLICIT)

    // Compression: None, PackBits, ZLib, Deflate, LZW, JPEG and CCITT variants allowed
    params.setCompressionType("Deflate")
    writer.prepareWriteSequence(null)

    doc = PDDocument.load( f )

    PDPageTree pageTree = doc.getDocumentCatalog().getPages()
    for ( PDPage page : pageTree.iterator() ) {

        PDResources pdResources = page.getResources()

        for ( COSName xObjCosName : pdResources.getXObjectNames() ) {
            PDXObject pdxObj = pdResources.getXObject(xObjCosName)

            if ( pdxObj instanceof PDImageXObject ) {

                PDImageXObject pdImageXObject = (PDImageXObject) pdxObj
                BufferedImage bufferedImage = pdImageXObject.getImage()

                writer.writeToSequence(new IIOImage(bufferedImage, null, null), params)
            }
        }
    }

    writer.endWriteSequence()
    println( "Created outfile: ${outFile}")
    doc.close()
}
	#!/usr/bin/env groovy

	// Java 9 or later (…for the TIFF ImageIO Plugin)

	@Grab(group='ch.qos.logback', module='logback-classic', version='1.2.3')
	@Grab(group='org.apache.pdfbox', module='pdfbox', version='2.0.15')
	@Grab(group='commons-io', module='commons-io', version='2.6')

	import org.apache.pdfbox.pdfwriter.*
	import org.apache.pdfbox.pdmodel.*
	import org.apache.pdfbox.pdmodel.font.*
	import org.apache.pdfbox.pdmodel.edit.*
	import org.apache.pdfbox.pdmodel.graphics.*
	import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject
	import java.awt.image.BufferedImage
	import javax.imageio.IIOImage
	import javax.imageio.ImageIO
	import javax.imageio.stream.ImageOutputStream
	import javax.imageio.ImageWriter
	import javax.imageio.ImageWriteParam
	import org.apache.pdfbox.cos.COSName
	import java.nio.*

	def appName = this.getClass().getName()

	// Add .removeExtension() to String
	String.metaClass.mixin org.apache.commons.io.FilenameUtils

	System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")
	System.setProperty("org.apache.pdfbox.rendering.UsePureJavaCMYKConversion", "true")


	def cli = new CliBuilder(
	usage:"${appName} [<options>]",
	header: 'Options:',
	footer: 'Use with file OR dir path'
	)

	cli.with {
	f(longOpt: 'file', 'filepath', args: 1, required: false)
	d(longOpt: 'dir', 'path to directory', args: 1, required: false)
	h(longOpt: 'help', 'Print help', required: false)
	}

	def opt = cli.parse(args)
	if ( !opt \|\| opt.h ) {
	cli.usage()
	return
	} else if (opt.f && opt.d) {
	cli.usage()
	return
	}


	def found = []
	if (opt.d) {
	currentDir = new File(opt.d).getAbsoluteFile()
	currentDir.traverse(type: groovy.io.FileType.FILES, nameFilter: ~/(?x).*.pdf/) { f ->
	found << f.getAbsoluteFile()
	}
	} else {
	found << new File(opt.f).getAbsoluteFile()
	}

	found.each{ f ->

	PDDocument doc = null

	if (f.exists() && f.canRead()) {
	println "Processing: file ${f}"
	}
	else {
	println "Error: file ${f} not found or not readble"
	return
	}

	outFile="${f.getPath().removeExtension()}.tiff"

	ImageOutputStream outputStream = ImageIO.createImageOutputStream(new FileOutputStream(outFile))
	ImageWriter writer = ImageIO.getImageWritersByFormatName("TIFF").next()
	writer.setOutput(outputStream)
	ImageWriteParam params = writer.getDefaultWriteParam()
	params.setCompressionMode(ImageWriteParam.MODE_EXPLICIT)

	// Compression: None, PackBits, ZLib, Deflate, LZW, JPEG and CCITT variants allowed
	params.setCompressionType("Deflate")
	writer.prepareWriteSequence(null)

	doc = PDDocument.load( f )

	PDPageTree pageTree = doc.getDocumentCatalog().getPages()
	for ( PDPage page : pageTree.iterator() ) {

	PDResources pdResources = page.getResources()

	for ( COSName xObjCosName : pdResources.getXObjectNames() ) {
	PDXObject pdxObj = pdResources.getXObject(xObjCosName)

	if ( pdxObj instanceof PDImageXObject ) {

	PDImageXObject pdImageXObject = (PDImageXObject) pdxObj
	BufferedImage bufferedImage = pdImageXObject.getImage()

	writer.writeToSequence(new IIOImage(bufferedImage, null, null), params)
	}
	}
	}

	writer.endWriteSequence()
	println( "Created outfile: ${outFile}")
	doc.close()
	}