Leer PDFc

Hola Comunidad.
Solicito su ayuda con lo siguiente, realizo la lectura de un PDF que tiene la siguiente estructura.


Al leerlo se almacena como texto con la siguiente estructura.

No tengo alternativa de convertirlo a tabla porque no hay un separador especifico que me ayude con esto. La situación es que requiero acceder unos campo puntuales del PDF como el campo 17, el 40 entre otros. ¿de que forma podría hacerlo?

de antemano gracias por su ayuda.

I believe ,You can do it using regex

¿y sería posible acceder a los campos específicos? del documento extraído como texto.

can u send the input text and expected output too, so that we can try to get the required output

Claro aquí está. Como resultado espero tener los siguientes campos:

    1. Cod. lugar ingreso. (texto esperado ITA)
    1. Declaración de Exportación. (texto esperado 1XXXXX5XXXXXX9)
    1. Documento de transporte (texto esperado 1122333444)
      PruebaUi.txt (1.1 KB)

(?<=(44. Documento de transporte).\s+.(?=\d{10}))\d{10}

(?<=(. 37. Declaración de Exportación ).[A-Za-z\s]+\d{1}\s).(?=\d)\d

(?<=(40.).[\sA-Za-z]+.\n+)[A-Z]+


Let me know if it works

1 Like

Wow, súper bien, a mi no me ha funcionado pero debe ser algo del regexr, seguiré investigando porque es justo eso que tu tienes lo que espero hayar. Para mi es la solución de mi problema. muchísimas gracias.

1 Like

This topic was automatically closed 3 days after the last reply. New replies are no longer allowed.