celsowm/index.htm

## 83 changes: 70 additions & 13 deletions index.htm
@@ -110,6 +110,42 @@ <h3>Resultado em Markdown</h3>

        input.click();
    input.click();

      });
  });


      /**
  /**

       * Verifica se uma linha de texto corresponde a um item de lista não ordenada (ex.: "-", "*", "•")
   * Verifica se uma linha de texto corresponde a um item de lista não ordenada (ex.: "-", "*", "•")

       * ou a um item de lista ordenada (ex.: "1.", "2)", "3.").
   * ou a um item de lista ordenada (ex.: "1.", "2)", "3.").

       * Retorna um objeto com o tipo de lista (ordered/unordered) e o texto sem o marcador
   * Retorna um objeto com o tipo de lista (ordered/unordered) e o texto sem o marcador

       * caso seja realmente uma linha de lista. Se não for, retorna null.
   * caso seja realmente uma linha de lista. Se não for, retorna null.

       */
   */

      function detectListItem(line) {
  function detectListItem(line) {

        // Remove espaços no início (mas vamos manter a original para caso precise).
    // Remove espaços no início (mas vamos manter a original para caso precise).

        const trimmed = line.trim();
    const trimmed = line.trim();


        // Padrão simples para detectar marcadores de lista não ordenada: -, *, •
    // Padrão simples para detectar marcadores de lista não ordenada: -, *, •

        const unorderedRegex = /^[-*•]\s+(.*)$/;
    const unorderedRegex = /^[-*•]\s+(.*)$/;

        // Padrão simples para detectar marcadores de lista ordenada: número + . ou )
    // Padrão simples para detectar marcadores de lista ordenada: número + . ou )

        const orderedRegex = /^(\d+)[\.\)]\s+(.*)$/;
    const orderedRegex = /^(\d+)[\.\)]\s+(.*)$/;


        let match = trimmed.match(unorderedRegex);
    let match = trimmed.match(unorderedRegex);

        if (match) {
    if (match) {

          return {
      return {

            type: 'unordered',
        type: 'unordered',

            content: match[1] // texto após o marcador
        content: match[1] // texto após o marcador

          };
      };

        }
    }


        match = trimmed.match(orderedRegex);
    match = trimmed.match(orderedRegex);

        if (match) {
    if (match) {

          return {
      return {

            type: 'ordered',
        type: 'ordered',

            // Em match[1] estaria o número, e match[2] o texto após o número
        // Em match[1] estaria o número, e match[2] o texto após o número

            number: match[1],
        number: match[1],

            content: match[2]
        content: match[2]

          };
      };

        }
    }


        return null;
    return null;

      }
  }


      async function processPDF(file) {
  async function processPDF(file) {

        markdownOutput.textContent = 'Processando...';
    markdownOutput.textContent = 'Processando...';


@@ -136,9 +172,7 @@ <h3>Resultado em Markdown</h3>

          let lastY = null;
      let lastY = null;

          // Limiar para considerar "nova linha" (ajuste conforme necessário)
      // Limiar para considerar "nova linha" (ajuste conforme necessário)

          const LINE_THRESHOLD = 5;
      const LINE_THRESHOLD = 5;

          // Limiar maior para considerar "novo parágrafo" (opcional).
      // Limiar maior para considerar "novo parágrafo" (opcional).

          // Se quiser forçar parágrafos quando há espaço grande, configure algo como 15 ou 20.
      // Se quiser forçar parágrafos quando há espaço grande, configure algo como 15 ou 20.

          // Se não quiser pular parágrafos, pode ignorar ou deixar maior que qualquer variação normal.
      // Se não quiser pular parágrafos, pode ignorar ou deixar maior que qualquer variação normal.

          // Limiar maior para considerar "novo parágrafo".
      // Limiar maior para considerar "novo parágrafo".

          const PARAGRAPH_THRESHOLD = 15;
      const PARAGRAPH_THRESHOLD = 15;


          textContent.items.forEach((item) => {
      textContent.items.forEach((item) => {
@@ -159,7 +193,7 @@ <h3>Resultado em Markdown</h3>

                realFontName = fontObj.name; // ex: "CAAAAA+LiberationSerif-Bold"
            realFontName = fontObj.name; // ex: "CAAAAA+LiberationSerif-Bold"

              }
          }

            } catch (err) {
        } catch (err) {

              console.warn(Não foi possível obter fonte para ${fontName}:, err);
          console.warn(Não foi possível obter fonte para ${fontName}:, err);

              console.warn(`Não foi possível obter fonte para ${fontName}:`, err);
          console.warn(`Não foi possível obter fonte para ${fontName}:`, err);

            }
        }


            const isBold = /bold|black/i.test(realFontName);
        const isBold = /bold|black/i.test(realFontName);
@@ -168,11 +202,11 @@ <h3>Resultado em Markdown</h3>

            // Monta o texto já com a marcação
        // Monta o texto já com a marcação

            let mdText = rawText;
        let mdText = rawText;

            if (isBold && isItalic) {
        if (isBold && isItalic) {

              mdText = ***${rawText}***;
          mdText = ***${rawText}***;

              mdText = `***${rawText}***`;
          mdText = `***${rawText}***`;

            } else if (isBold) {
        } else if (isBold) {

              mdText = **${rawText}**;
          mdText = **${rawText}**;

              mdText = `**${rawText}**`;
          mdText = `**${rawText}**`;

            } else if (isItalic) {
        } else if (isItalic) {

              mdText = *${rawText}*;
          mdText = *${rawText}*;

              mdText = `*${rawText}*`;
          mdText = `*${rawText}*`;

            }
        }


            // Agrupamento em linhas
        // Agrupamento em linhas
@@ -184,11 +218,11 @@ <h3>Resultado em Markdown</h3>

              const diffY = Math.abs(y - lastY);
          const diffY = Math.abs(y - lastY);

              if (diffY > PARAGRAPH_THRESHOLD) {
          if (diffY > PARAGRAPH_THRESHOLD) {

                // pula um parágrafo (duas quebras, por ex.)
            // pula um parágrafo (duas quebras, por ex.)

                finalMarkdown += lineBuffer.join(' ') + '\n\n';
            finalMarkdown += lineBuffer.join(' ') + '\n\n';

                finalMarkdown += convertLineToMarkdown(lineBuffer) + '\n\n';
            finalMarkdown += convertLineToMarkdown(lineBuffer) + '\n\n';

                lineBuffer = [mdText];
            lineBuffer = [mdText];

              } else if (diffY > LINE_THRESHOLD) {
          } else if (diffY > LINE_THRESHOLD) {

                // apenas uma nova linha
            // apenas uma nova linha

                finalMarkdown += lineBuffer.join(' ') + '\n';
            finalMarkdown += lineBuffer.join(' ') + '\n';

                finalMarkdown += convertLineToMarkdown(lineBuffer) + '\n';
            finalMarkdown += convertLineToMarkdown(lineBuffer) + '\n';

                lineBuffer = [mdText];
            lineBuffer = [mdText];

              } else {
          } else {

                // continua na mesma linha
            // continua na mesma linha
@@ -200,17 +234,40 @@ <h3>Resultado em Markdown</h3>


          // Ao final da página, se ainda tiver texto em buffer, joga como linha
      // Ao final da página, se ainda tiver texto em buffer, joga como linha

          if (lineBuffer.length > 0) {
      if (lineBuffer.length > 0) {

            finalMarkdown += lineBuffer.join(' ') + '\n';
        finalMarkdown += lineBuffer.join(' ') + '\n';

            finalMarkdown += convertLineToMarkdown(lineBuffer) + '\n';
        finalMarkdown += convertLineToMarkdown(lineBuffer) + '\n';

          }
      }


          // Se quiser separar páginas com mais de uma linha em branco, use:
      // Se quiser separar páginas com mais de uma linha em branco, use:

          // finalMarkdown += '\n\n';
      // finalMarkdown += '\n\n';

          // (ou apenas uma quebra simples; ajuste a gosto)
      // (ou apenas uma quebra simples; ajuste a gosto)

          // (Opcional) Quebra adicional entre páginas
      // (Opcional) Quebra adicional entre páginas

          finalMarkdown += '\n';
      finalMarkdown += '\n';

        }
    }


        // Remove espaços extras no final
    // Remove espaços extras no final

        markdownOutput.textContent = finalMarkdown.trim() || 'Nenhum texto extraído.';
    markdownOutput.textContent = finalMarkdown.trim() || 'Nenhum texto extraído.';

      }
  }


      /**
  /**

       * Recebe um array de "pedacinhos" (chunks) que formam uma linha
   * Recebe um array de "pedacinhos" (chunks) que formam uma linha

       * e faz a junção, além de verificar se é linha de lista.
   * e faz a junção, além de verificar se é linha de lista.

       */
   */

      function convertLineToMarkdown(chunks) {
  function convertLineToMarkdown(chunks) {

        // Junta os pedaços em uma string única
    // Junta os pedaços em uma string única

        const joinedLine = chunks.join(' ').trim();
    const joinedLine = chunks.join(' ').trim();


        // Detecta se é lista
    // Detecta se é lista

        const listCheck = detectListItem(joinedLine);
    const listCheck = detectListItem(joinedLine);

        if (listCheck) {
    if (listCheck) {

          if (listCheck.type === 'unordered') {
      if (listCheck.type === 'unordered') {

            // Retorna com o marcador de lista não ordenada padrão do Markdown
        // Retorna com o marcador de lista não ordenada padrão do Markdown

            return `- ${listCheck.content}`;
        return `- ${listCheck.content}`;

          } else if (listCheck.type === 'ordered') {
      } else if (listCheck.type === 'ordered') {

            // Mantém o número original e adiciona um ponto
        // Mantém o número original e adiciona um ponto

            return `${listCheck.number}. ${listCheck.content}`;
        return `${listCheck.number}. ${listCheck.content}`;

          }
      }

        }
    }


        // Se não for lista, retorna a linha normal
    // Se não for lista, retorna a linha normal

        return joinedLine;
    return joinedLine;

      }
  }

    </script>
</script>

    </body>
</body>

    </html>
</html>

## 216 changes: 216 additions & 0 deletions index.htm
@@ -0,0 +1,216 @@

    <!DOCTYPE html>
<!DOCTYPE html>

    <html lang="pt-BR">
<html lang="pt-BR">

    <head>
<head>

      <meta charset="UTF-8" />
  <meta charset="UTF-8" />

      <title>PDF to Markdown (replicando quebras do PDF)</title>
  <title>PDF to Markdown (replicando quebras do PDF)</title>

      <!-- PDF.js via CDN -->
  <!-- PDF.js via CDN -->

      <script src="https://cdn.jsdelivr.net/npm/pdfjs-dist@3.6.172/build/pdf.min.js"></script>
  <script src="https://cdn.jsdelivr.net/npm/pdfjs-dist@3.6.172/build/pdf.min.js"></script>

      <script src="https://cdn.jsdelivr.net/npm/pdfjs-dist@3.6.172/build/pdf.worker.min.js"></script>
  <script src="https://cdn.jsdelivr.net/npm/pdfjs-dist@3.6.172/build/pdf.worker.min.js"></script>

      <style>
  <style>

        body {
    body {

          margin: 0;
      margin: 0;

          font-family: sans-serif;
      font-family: sans-serif;

          display: flex;
      display: flex;

          height: 100vh;
      height: 100vh;

          overflow: hidden;
      overflow: hidden;

        }
    }

        #left-panel {
    #left-panel {

          width: 50%;
      width: 50%;

          padding: 20px;
      padding: 20px;

          box-sizing: border-box;
      box-sizing: border-box;

          border-right: 2px solid #ccc;
      border-right: 2px solid #ccc;

          display: flex;
      display: flex;

          flex-direction: column;
      flex-direction: column;

          align-items: center;
      align-items: center;

          justify-content: center;
      justify-content: center;

        }
    }

        #dropzone {
    #dropzone {

          width: 80%;
      width: 80%;

          height: 300px;
      height: 300px;

          border: 2px dashed #999;
      border: 2px dashed #999;

          border-radius: 5px;
      border-radius: 5px;

          display: flex;
      display: flex;

          align-items: center;
      align-items: center;

          justify-content: center;
      justify-content: center;

          text-align: center;
      text-align: center;

          color: #666;
      color: #666;

          cursor: pointer;
      cursor: pointer;

          transition: border-color 0.3s;
      transition: border-color 0.3s;

        }
    }

        #dropzone.hover {
    #dropzone.hover {

          border-color: #666;
      border-color: #666;

        }
    }

        #right-panel {
    #right-panel {

          width: 50%;
      width: 50%;

          padding: 20px;
      padding: 20px;

          box-sizing: border-box;
      box-sizing: border-box;

          overflow: auto;
      overflow: auto;

          background: #f8f8f8;
      background: #f8f8f8;

        }
    }

        #markdown-output {
    #markdown-output {

          white-space: pre-wrap;
      white-space: pre-wrap;

          font-family: monospace, "Courier New", Courier;
      font-family: monospace, "Courier New", Courier;

        }
    }

      </style>
  </style>

    </head>
</head>

    <body>
<body>


    <div id="left-panel">
<div id="left-panel">

      <div id="dropzone">Arraste e solte seu PDF aqui ou clique para selecionar</div>
  <div id="dropzone">Arraste e solte seu PDF aqui ou clique para selecionar</div>

    </div>
</div>


    <div id="right-panel">
<div id="right-panel">

      <h3>Resultado em Markdown</h3>
  <h3>Resultado em Markdown</h3>

      <div id="markdown-output"></div>
  <div id="markdown-output"></div>

    </div>
</div>


    <script>
<script>

      const pdfjsLib = window['pdfjs-dist/build/pdf'];
  const pdfjsLib = window['pdfjs-dist/build/pdf'];


      const dropzone = document.getElementById('dropzone');
  const dropzone = document.getElementById('dropzone');

      const markdownOutput = document.getElementById('markdown-output');
  const markdownOutput = document.getElementById('markdown-output');


      // Evita comportamento padrão de arrastar no window
  // Evita comportamento padrão de arrastar no window

      window.addEventListener('dragover', (ev) => ev.preventDefault());
  window.addEventListener('dragover', (ev) => ev.preventDefault());

      window.addEventListener('drop', (ev) => ev.preventDefault());
  window.addEventListener('drop', (ev) => ev.preventDefault());


      dropzone.addEventListener('dragover', (ev) => {
  dropzone.addEventListener('dragover', (ev) => {

        ev.preventDefault();
    ev.preventDefault();

        dropzone.classList.add('hover');
    dropzone.classList.add('hover');

      });
  });


      dropzone.addEventListener('dragleave', () => {
  dropzone.addEventListener('dragleave', () => {

        dropzone.classList.remove('hover');
    dropzone.classList.remove('hover');

      });
  });


      dropzone.addEventListener('drop', (ev) => {
  dropzone.addEventListener('drop', (ev) => {

        ev.preventDefault();
    ev.preventDefault();

        dropzone.classList.remove('hover');
    dropzone.classList.remove('hover');

        const files = ev.dataTransfer.files;
    const files = ev.dataTransfer.files;

        if (files && files.length > 0) {
    if (files && files.length > 0) {

          const file = files[0];
      const file = files[0];

          if (file.type === 'application/pdf') {
      if (file.type === 'application/pdf') {

            processPDF(file);
        processPDF(file);

          } else {
      } else {

            alert('Por favor, arraste um arquivo PDF válido.');
        alert('Por favor, arraste um arquivo PDF válido.');

          }
      }

        }
    }

      });
  });


      dropzone.addEventListener('click', () => {
  dropzone.addEventListener('click', () => {

        const input = document.createElement('input');
    const input = document.createElement('input');

        input.type = 'file';
    input.type = 'file';

        input.accept = 'application/pdf';
    input.accept = 'application/pdf';

        input.onchange = (e) => {
    input.onchange = (e) => {

          const file = e.target.files[0];
      const file = e.target.files[0];

          if (file) {
      if (file) {

            processPDF(file);
        processPDF(file);

          }
      }

        };
    };

        input.click();
    input.click();

      });
  });


      async function processPDF(file) {
  async function processPDF(file) {

        markdownOutput.textContent = 'Processando...';
    markdownOutput.textContent = 'Processando...';


        // Lê o arquivo como ArrayBuffer
    // Lê o arquivo como ArrayBuffer

        const arrayBuffer = await file.arrayBuffer();
    const arrayBuffer = await file.arrayBuffer();


        // Carrega o PDF
    // Carrega o PDF

        const pdfDoc = await pdfjsLib.getDocument({ data: arrayBuffer }).promise;
    const pdfDoc = await pdfjsLib.getDocument({ data: arrayBuffer }).promise;

        const totalPages = pdfDoc.numPages;
    const totalPages = pdfDoc.numPages;


        let finalMarkdown = '';
    let finalMarkdown = '';


        for (let pageNum = 1; pageNum <= totalPages; pageNum++) {
    for (let pageNum = 1; pageNum <= totalPages; pageNum++) {

          const page = await pdfDoc.getPage(pageNum);
      const page = await pdfDoc.getPage(pageNum);


          // 1) Força carregar todos os operadores (que inclui info de fontes)
      // 1) Força carregar todos os operadores (que inclui info de fontes)

          await page.getOperatorList();
      await page.getOperatorList();


          // 2) Extrai o conteúdo de texto (posições e fontName)
      // 2) Extrai o conteúdo de texto (posições e fontName)

          const textContent = await page.getTextContent();
      const textContent = await page.getTextContent();


          // Vamos agrupar texto em linhas com base na variação de Y:
      // Vamos agrupar texto em linhas com base na variação de Y:

          let lineBuffer = [];      // armazena chunks que pertencem à mesma linha
      let lineBuffer = [];      // armazena chunks que pertencem à mesma linha

          let lastY = null;
      let lastY = null;

          // Limiar para considerar "nova linha" (ajuste conforme necessário)
      // Limiar para considerar "nova linha" (ajuste conforme necessário)

          const LINE_THRESHOLD = 5;
      const LINE_THRESHOLD = 5;

          // Limiar maior para considerar "novo parágrafo" (opcional).
      // Limiar maior para considerar "novo parágrafo" (opcional).

          // Se quiser forçar parágrafos quando há espaço grande, configure algo como 15 ou 20.
      // Se quiser forçar parágrafos quando há espaço grande, configure algo como 15 ou 20.

          // Se não quiser pular parágrafos, pode ignorar ou deixar maior que qualquer variação normal.
      // Se não quiser pular parágrafos, pode ignorar ou deixar maior que qualquer variação normal.

          const PARAGRAPH_THRESHOLD = 15;
      const PARAGRAPH_THRESHOLD = 15;


          textContent.items.forEach((item) => {
      textContent.items.forEach((item) => {

            const rawText = item.str;
        const rawText = item.str;

            // Se estiver vazio ou só espaços, ignoramos.
        // Se estiver vazio ou só espaços, ignoramos.

            if (!rawText.trim()) return;
        if (!rawText.trim()) return;


            // Posição (transform é [scaleX, skewX, skewY, scaleY, offsetX, offsetY])
        // Posição (transform é [scaleX, skewX, skewY, scaleY, offsetX, offsetY])

            const transform = item.transform;
        const transform = item.transform;

            const y = transform[5];
        const y = transform[5];


            // Captura info de fonte real, para heurísticas de bold/italic.
        // Captura info de fonte real, para heurísticas de bold/italic.

            const fontName = item.fontName;
        const fontName = item.fontName;

            let realFontName = '';
        let realFontName = '';

            try {
        try {

              const fontObj = page.commonObjs.get(fontName);
          const fontObj = page.commonObjs.get(fontName);

              if (fontObj && fontObj.name) {
          if (fontObj && fontObj.name) {

                realFontName = fontObj.name; // ex: "CAAAAA+LiberationSerif-Bold"
            realFontName = fontObj.name; // ex: "CAAAAA+LiberationSerif-Bold"

              }
          }

            } catch (err) {
        } catch (err) {

              console.warn(Não foi possível obter fonte para ${fontName}:, err);
          console.warn(Não foi possível obter fonte para ${fontName}:, err);

            }
        }


            const isBold = /bold|black/i.test(realFontName);
        const isBold = /bold|black/i.test(realFontName);

            const isItalic = /italic|oblique/i.test(realFontName);
        const isItalic = /italic|oblique/i.test(realFontName);


            // Monta o texto já com a marcação
        // Monta o texto já com a marcação

            let mdText = rawText;
        let mdText = rawText;

            if (isBold && isItalic) {
        if (isBold && isItalic) {

              mdText = ***${rawText}***;
          mdText = ***${rawText}***;

            } else if (isBold) {
        } else if (isBold) {

              mdText = **${rawText}**;
          mdText = **${rawText}**;

            } else if (isItalic) {
        } else if (isItalic) {

              mdText = *${rawText}*;
          mdText = *${rawText}*;

            }
        }


            // Agrupamento em linhas
        // Agrupamento em linhas

            if (lastY === null) {
        if (lastY === null) {

              // Primeira linha detectada nessa página
          // Primeira linha detectada nessa página

              lineBuffer.push(mdText);
          lineBuffer.push(mdText);

              lastY = y;
          lastY = y;

            } else {
        } else {

              const diffY = Math.abs(y - lastY);
          const diffY = Math.abs(y - lastY);

              if (diffY > PARAGRAPH_THRESHOLD) {
          if (diffY > PARAGRAPH_THRESHOLD) {

                // pula um parágrafo (duas quebras, por ex.)
            // pula um parágrafo (duas quebras, por ex.)

                finalMarkdown += lineBuffer.join(' ') + '\n\n';
            finalMarkdown += lineBuffer.join(' ') + '\n\n';

                lineBuffer = [mdText];
            lineBuffer = [mdText];

              } else if (diffY > LINE_THRESHOLD) {
          } else if (diffY > LINE_THRESHOLD) {

                // apenas uma nova linha
            // apenas uma nova linha

                finalMarkdown += lineBuffer.join(' ') + '\n';
            finalMarkdown += lineBuffer.join(' ') + '\n';

                lineBuffer = [mdText];
            lineBuffer = [mdText];

              } else {
          } else {

                // continua na mesma linha
            // continua na mesma linha

                lineBuffer.push(mdText);
            lineBuffer.push(mdText);

              }
          }

              lastY = y;
          lastY = y;

            }
        }

          });
      });


          // Ao final da página, se ainda tiver texto em buffer, joga como linha
      // Ao final da página, se ainda tiver texto em buffer, joga como linha

          if (lineBuffer.length > 0) {
      if (lineBuffer.length > 0) {

            finalMarkdown += lineBuffer.join(' ') + '\n';
        finalMarkdown += lineBuffer.join(' ') + '\n';

          }
      }


          // Se quiser separar páginas com mais de uma linha em branco, use:
      // Se quiser separar páginas com mais de uma linha em branco, use:

          // finalMarkdown += '\n\n';
      // finalMarkdown += '\n\n';

          // (ou apenas uma quebra simples; ajuste a gosto)
      // (ou apenas uma quebra simples; ajuste a gosto)

          finalMarkdown += '\n';
      finalMarkdown += '\n';

        }
    }


        markdownOutput.textContent = finalMarkdown.trim() || 'Nenhum texto extraído.';
    markdownOutput.textContent = finalMarkdown.trim() || 'Nenhum texto extraído.';

      }
  }

    </script>
</script>

    </body>
</body>

    </html>
</html>