mukulmishra18/getTextContent.js

## getTextContent.js
 getTextContent: function PDFPageProxy_getTextContent(params) {
  var readableStream = this.transport.messageHandler.sendWithStream('GetTextContent', {
    pageIndex: this.pageNumber - 1,
    normalizeWhitespace: (params && params.normalizeWhitespace === true ?
                          true : /* Default */ false),
    combineTextItems: (params && params.disableCombineTextItems === true ?
                       false : /* Default */ true),
  });
  return new Promise(function (resolve, reject) {
    readAllChunks(readableStream);
    function readAllChunks (readableStream) {
      var reader = readableStream.getReader();
      var textContent = {
        items: [],
        styles: {}
      };

      pump();

      function pump () {
        reader.read().then(function (result) {
          if (result.done) {
            resolve(textContent);
          }
          if (typeof result.value[0] == 'string') {
            textContent.styles[result.value[0]] = result.value[1];
          } else {
            textContent.items.push(result.value[0]);
            if (result.value[1]) {
              textContent.items.push(result.value[1]);
            }
          }
          pump();
        }, function (error) {
          reject(error);
        });
      }
    }
  });
}


handler.on('GetTextContent', function wphExtractText(data, sink) {
  var pageIndex = data.pageIndex;
  var normalizeWhitespace = data.normalizeWhitespace;
  var combineTextItems = data.combineTextItems;
  var getChunk = null;
  sink.onPull = function (desiredSize) {
    var chunk = getChunk(desiredSize);
    if (chunk === 0) {
      sink.close();
      return;
    }
    sink.enqueue(chunk);
  }
  return new Promise(function (resolve, reject) {
    pdfManager.getPage(pageIndex).then(function(page) {
      var task = new WorkerTask('GetTextContent: page ' + pageIndex);
      startWorkerTask(task);
      var pageNum = pageIndex + 1;
      var start = Date.now();
      page.extractTextContent(handler, task, normalizeWhitespace,
                                     combineTextItems).then(
          function(textContent) {
        finishWorkerTask(task);
        info('text indexing: page=' + pageNum + ' - time=' +
             (Date.now() - start) + 'ms');
        var items = textContent.items;
        var styles = textContent.styles;
        var stylesKeys = Object.keys(styles);
        getChunk = function (desiredSize) {
          if (items.length === 0) {
            return 0;
          } else if (stylesKeys.length !== 0) {
            var stylesKey = stylesKeys.splice(0, 1);
            return [stylesKey[0], styles[stylesKey]];
          } else if (items.length !== 0) {
            return items.splice(0, desiredSize);
          }
        }
        resolve();
      }, function (reason) {
        finishWorkerTask(task);
        if (task.terminated) {
          return; // ignoring errors from the terminated thread
        }
        reject(reason);
      });
    });
  });
});
	getTextContent: function PDFPageProxy_getTextContent(params) {
	var readableStream = this.transport.messageHandler.sendWithStream('GetTextContent', {
	pageIndex: this.pageNumber - 1,
	normalizeWhitespace: (params && params.normalizeWhitespace === true ?
	true : /* Default */ false),
	combineTextItems: (params && params.disableCombineTextItems === true ?
	false : /* Default */ true),
	});
	return new Promise(function (resolve, reject) {
	readAllChunks(readableStream);
	function readAllChunks (readableStream) {
	var reader = readableStream.getReader();
	var textContent = {
	items: [],
	styles: {}
	};

	pump();

	function pump () {
	reader.read().then(function (result) {
	if (result.done) {
	resolve(textContent);
	}
	if (typeof result.value[0] == 'string') {
	textContent.styles[result.value[0]] = result.value[1];
	} else {
	textContent.items.push(result.value[0]);
	if (result.value[1]) {
	textContent.items.push(result.value[1]);
	}
	}
	pump();
	}, function (error) {
	reject(error);
	});
	}
	}
	});
	}



	handler.on('GetTextContent', function wphExtractText(data, sink) {
	var pageIndex = data.pageIndex;
	var normalizeWhitespace = data.normalizeWhitespace;
	var combineTextItems = data.combineTextItems;
	var getChunk = null;
	sink.onPull = function (desiredSize) {
	var chunk = getChunk(desiredSize);
	if (chunk === 0) {
	sink.close();
	return;
	}
	sink.enqueue(chunk);
	}
	return new Promise(function (resolve, reject) {
	pdfManager.getPage(pageIndex).then(function(page) {
	var task = new WorkerTask('GetTextContent: page ' + pageIndex);
	startWorkerTask(task);
	var pageNum = pageIndex + 1;
	var start = Date.now();
	page.extractTextContent(handler, task, normalizeWhitespace,
	combineTextItems).then(
	function(textContent) {
	finishWorkerTask(task);
	info('text indexing: page=' + pageNum + ' - time=' +
	(Date.now() - start) + 'ms');
	var items = textContent.items;
	var styles = textContent.styles;
	var stylesKeys = Object.keys(styles);
	getChunk = function (desiredSize) {
	if (items.length === 0) {
	return 0;
	} else if (stylesKeys.length !== 0) {
	var stylesKey = stylesKeys.splice(0, 1);
	return [stylesKey[0], styles[stylesKey]];
	} else if (items.length !== 0) {
	return items.splice(0, desiredSize);
	}
	}
	resolve();
	}, function (reason) {
	finishWorkerTask(task);
	if (task.terminated) {
	return; // ignoring errors from the terminated thread
	}
	reject(reason);
	});
	});
	});
	});