i have a flow where I read hundreds of PDF’s searching for the number of children with an indication. I use regex and it seems to be working for most of the PDF’s. When the info is on multiple lines it does not work. I use this regex:
Inzet 2023
Op 1 januari van dit jaar heeft de houder de inzet van de uren van de PBM VE bepaald en beschreven. De rekennorm is 10 uur per doelgroeppeuter per jaar. Voor 2023 heeft ‘En nu jij’ 3 kinderen met een VVE indicatie. De houder heeft de inzet in het Pedagogisch beleidsplan (versie 17-03-2023) vastgelegd.
This seems to work for my first example. In this case it does not find the 6:
De houder heeft in het document ‘Verantwoording coaching 2023’ vastgelegd aan hoeveel doelgroep peuters op peildatum 01-01-2023 voorschoolse educatie wordt aangeboden. Voor KDV Gevaren gaat dit om 6 doelgroep peuters.