De ce extragerea datelor din PDF este încă un coșmar pentru experții în date

Ani de zile, întreprinderile, guvernele și cercetătorii s -au luptat cu o problemă persistentă: cum să extrageți date utilizabile din fișierele de format portabil (PDF). Aceste documente digitale servesc ca containere pentru orice, de la cercetarea științifică până la înregistrările guvernamentale, dar formatele lor rigide de multe ori captează datele din interiorîngreunând citirea și analizarea mașinilor.

„O parte a problemei este că PDF -urile sunt o creatură a unei perioade în care aspectul tipăritului a fost o influență mare asupra publicării software -ului, iar PDF -urile sunt mai mult un produs„ tipărit ”decât unul digital,” Derek Willislector în jurnalism de date și de calcul la Universitatea din Maryland, a scris într -un e -mail către Ars Technica. “Problema principală este că multe PDF -uri sunt pur și simplu imagini cu informații, ceea ce înseamnă că aveți nevoie de software de recunoaștere a personajelor optice pentru a transforma aceste imagini în date, mai ales atunci când originalul este vechi sau include scrierea de mână.”

Jurnalism de calcul este un domeniu în care tehnicile tradiționale de raportare se contopesc cu analiza datelor, codificarea și gândirea algoritmică pentru a descoperi povești care altfel ar putea rămâne ascunse în seturi de date mari, ceea ce face ca deblocarea acestor date să fie un interes deosebit pentru Willis.

Citiți articolul complet

Comentarii

De ce extragerea datelor din PDF este încă un coșmar pentru experții în date

Leave a Comment Cancel