* * * *

Privacy Policy

Blog italiano

Clicca qui se vuoi andare al blog italiano su Lazarus e il pascal.

Forum ufficiale

Se non siete riusciti a reperire l'informazione che cercavate nei nostri articoli o sul nostro forum vi consiglio di visitare il
Forum ufficiale di Lazarus in lingua inglese.

Lazarus 1.0

Trascinare un file nel programma
DB concetti fondamentali e ZeosLib
Recuperare codice HTML da pagina web
Mandare mail con Lazarus
Stabilire il sistema operativo
Esempio lista in pascal
File INI
Codice di attivazione
Realizzare programmi multilingua
Lavorare con le directory
Utilizzare Unità esterne
TTreeView
TTreeview e Menu
Generare controlli RUN-TIME
LazReport, PDF ed immagini
Intercettare tasti premuti
Ampliare Lazarus
Lazarus e la crittografia
System Tray con Lazarus
UIB: Unified Interbase
Il file: questo sconosciuto
Conferma di chiusura di un applicazione
Liste e puntatori
Overload di funzioni
Funzioni a parametri variabili
Proprietà
Conversione numerica
TImage su Form e Panel
Indy gestiore server FTP lato Client
PopUpMenu sotto Pulsante (TSpeedButton)
Direttiva $macro
Toolbar
Evidenziare voci TreeView
Visualizzare un file Html esterno
StatusBar - aggirare l'errore variabile duplicata
Da DataSource a Excel
Le permutazioni
Brute force
Indy 10 - Invio email con allegati
La gestione degli errori in Lazarus
Pascal Script
Linux + Zeos + Firebird
Dataset virtuale
Overload di operatori
Lavorare con file in formato JSON con Lazarus
Zeos ... dietro le quinte (prima parte)
Disporre le finestre in un blocco unico (come Delphi)
Aspetto retrò (Cmd Line)
Lazarus 1.0
Come interfacciare periferica twain
Ubuntu - aggiornare free pascal e lazarus
fpcup: installazioni parallele di lazarus e fpc
Free Pascal e Lazarus sul Raspberry Pi
Cifratura: breve guida all'uso dell'algoritmo BlowFish con lazarus e free pascal.
Creare un server multithread
guida all'installazione di fpc trunk da subversion in linux gentoo
Indice
DB concetti fondamentali e connessioni standard
Advanced Record Syntax
DB concetti fondamentali e DBGrid
DB concetti fondamentali e TDBEdit, TDBMemo e TDBText
Advanced Record Syntax: un esempio pratico
Superclasse form base per programmi gestionali (e non)
Superclasse form base per programmi gestionali (e non) #2 - log, exception call stack, application toolbox
Superclasse form base per programmi gestionali (e non) #3 - traduzione delle form
Superclasse form base per programmi gestionali (e non) #4 - wait animation
Un dialog per la connessione al database:TfmSimpleDbConnectionDialog
Installare lazarus su mac osx sierra
immagine docker per lavorare con lazarus e free pascal
TDD o Test-Driven Development
Benvenuto! Effettua l'accesso oppure registrati.
Novembre 22, 2024, 10:07:15 pm

Inserisci il nome utente, la password e la durata della sessione.

83 Visitatori, 1 Utente
 

Autore Topic: LETTURA FILE PDF  (Letto 4798 volte)

kelly

  • Newbie
  • *
  • Post: 17
  • Karma: +0/-0
LETTURA FILE PDF
« il: Settembre 19, 2017, 04:19:20 pm »
Salve,

Devo leggere un file pdf per rinominarlo in base al contenuto.
Oppure convertirlo in file di testo, leggere il contenuto e poi rinominarlo.

Dove posso trovare qualche esempio, o scaricare qualche componente che mi permetta di fare questo?



grazie 1000

xinyiman

  • Administrator
  • Hero Member
  • *****
  • Post: 3273
  • Karma: +12/-0
Re:LETTURA FILE PDF
« Risposta #1 il: Settembre 19, 2017, 05:45:52 pm »
Per convertire un pdf in txt devi usare un ocr. Prova con tesseract che è un progetto open-source.

Però non è detto che converta correttamente. SAppilo
Ieri è passato, domani è futuro, oggi è un dono...

Stilgar

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2389
  • Karma: +10/-0
Re:LETTURA FILE PDF
« Risposta #2 il: Settembre 20, 2017, 03:52:33 pm »
Ciao.
Oddio che drastico xinyiman... ocr...
Esistono programmi da riga di comando che più o meno lo fanno.

pdftotext.exe per dirne uno (https://en.wikipedia.org/wiki/Pdftotext).
mutool.exe converte in html i pdf  (https://mupdf.com/) .

Altrimenti ci sono altre soluzioni open source.
Esistono dei bind parziali della libreria libmupdf.dll compilata dal progetto sumatrapdf che possono andare benino.
PDFPreview.pas(git) rende la libreria pensata per windows compilata anche per linux (per i fanatici del porting .. :) )

https://github.com/dinmil/PDFPreview
Si limita alla versione 1.8 mentre la libreria usata è arrivata alla versione 1.11.

Buttare l'occhio non guasta ;)

Stilgar
Al mondo ci sono 10 tipi di persone ... chi capisce il binario e chi no.

xinyiman

  • Administrator
  • Hero Member
  • *****
  • Post: 3273
  • Karma: +12/-0
Re:LETTURA FILE PDF
« Risposta #3 il: Settembre 20, 2017, 09:26:19 pm »
Grazie Stilgar. c'è sempre da imparare
Ieri è passato, domani è futuro, oggi è un dono...

bonmario

  • Hero Member
  • *****
  • Post: 1358
  • Karma: +11/-1
Re:LETTURA FILE PDF
« Risposta #4 il: Settembre 21, 2017, 08:05:48 am »
pdftotext.exe per dirne uno (https://en.wikipedia.org/wiki/Pdftotext).

Io mi sono trovato molto bene con questo.

Ciao, Mario

kelly

  • Newbie
  • *
  • Post: 17
  • Karma: +0/-0
Re:LETTURA FILE PDF
« Risposta #5 il: Settembre 21, 2017, 03:35:20 pm »
grazie infinite a tutti....provo...

kelly

  • Newbie
  • *
  • Post: 17
  • Karma: +0/-0
Re:LETTURA FILE PDF
« Risposta #6 il: Settembre 26, 2017, 04:10:23 pm »
Salve ragazzi ...

Come suggerito sto utilizzando l'utility pdftotext.exe ,
e devo dire anche con successo...ho solo un piccolo problema ,
una volta creato il file di testo controllo l'effettiva esistenza e
purtroppo a volte  la creazione del file
è tardiva rispetto al controllo ....e quindi non esegue tutte le istruzioni.

cosa mi posso inventare per risolvere il problema?

grazie


Codice: [Seleziona]
    Proc := TProcess.Create(nil);
       Proc.CommandLine := 'pdftotext.exe ' + nomefilepdf_new;
       Proc.Execute;
       Proc.Free;

    if (FileExists(nomefilepdf_new.txt)) then
    begin
     //qualcosa
    end;

Stilgar

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2389
  • Karma: +10/-0
Re:LETTURA FILE PDF
« Risposta #7 il: Settembre 26, 2017, 04:14:23 pm »
Devi rendere sincrona l'esecuzione.
Altrimenti speri nella poderosa botta di sedere.
 :)
Ti mando un esempio:

Codice: [Seleziona]

type

  { TPdfToTextProcess }

  TPdfToTextProcess = class
  private
    FPDFFile: TFileName;
    procedure SetPDFFile(AValue: TFileName);
  protected
    FMemoryBuffer: TMemoryStream;
    FProcess: TProcess;
    FOutput: TInputPipeStream;
  public
    constructor Create;
    destructor Destroy; override;
    procedure Execute; virtual;
    property PDFFile: TFileName read FPDFFile write SetPDFFile;
    function getOutputText: string;
  end;

Codice: [Seleziona]

{ TPdfToTextProcess }

procedure TPdfToTextProcess.SetPDFFile(AValue: TFileName);
begin
  if FPDFFile = AValue then
  begin
    Exit;
  end;
  FPDFFile := AValue;
end;

constructor TPdfToTextProcess.Create;
begin
  inherited Create;
  FProcess := TProcess.Create(nil);
  FProcess.Options := [poUsePipes, poStderrToOutPut];
  FMemoryBuffer := TMemoryStream.Create;
end;

destructor TPdfToTextProcess.Destroy;
begin
  FMemoryBuffer.Free;
  FProcess.Free;
  inherited Destroy;
end;

procedure TPdfToTextProcess.Execute;
const
  READ_BYTES = 4096;
var
  n, BytesRead: longint;
begin
  BytesRead := 0;
  N := 0;
  FMemoryBuffer.Clear;
  FMemoryBuffer.SetSize(READ_BYTES);
  FProcess.CommandLine := 'pdftotext -simple -clip ' + FPDFFile + ' -';
  FProcess.Execute;
  while FProcess.Running do
  begin
    FMemoryBuffer.SetSize(BytesRead + READ_BYTES);
    n := FProcess.Output.Read((FMemoryBuffer.Memory + BytesRead)^, READ_BYTES);
    if n > 0 then
    begin
      Inc(BytesRead, n);
    end
    else
    begin
      Sleep(50);
    end;
  end;
  repeat
    FMemoryBuffer.SetSize(BytesRead + READ_BYTES);
    n := FProcess.Output.Read((FMemoryBuffer.Memory + BytesRead)^, READ_BYTES);
    if n > 0 then
    begin
      Inc(BytesRead, n);
    end;
  until n <= 0;
  FMemoryBuffer.SetSize(BytesRead);
end;

function TPdfToTextProcess.getOutputText: string;
begin
  SetString(Result, PChar(FMemoryBuffer.Memory), FMemoryBuffer.Size div SizeOf(char));
end;
Al mondo ci sono 10 tipi di persone ... chi capisce il binario e chi no.

SB

  • Scrittore
  • Sr. Member
  • *****
  • Post: 283
  • Karma: +1/-0
Re:LETTURA FILE PDF
« Risposta #8 il: Ottobre 01, 2017, 10:24:51 am »
Buon per te che ti funziona
Per quanto ne so i pdf sono destrutturati, cioè i testi sono in realtà caselle di testo piazzate sulla pagina.
Non c'è nessun ordine nel testo e un programma potrebbe "stampare" prima il fondo della pagina e poi la testa.
Oppure il testo potrebbe essere in realtà un'immagine.
Oppure ancora il contenuto potrebbe essere criptato o compresso
Paradossalmente, nel caso generale passare per l'ocr potrebbe essere la soluzione più efficace.
Per fortuna nel tuo caso si tratta di un semplice testo che un programma riesce ad estrarre facilmente

Stilgar

  • Global Moderator
  • Hero Member
  • *****
  • Post: 2389
  • Karma: +10/-0
Re:LETTURA FILE PDF
« Risposta #9 il: Ottobre 01, 2017, 10:55:30 am »
Ciao sb.
Vero la struttura interna di un pdf è abbastanza da mal di pancia.
Vero anche che può avere contenuti criptati e compressi.
Un programma con quello suggerito bypassa tutti questi aspetti mettendo in ordine i blocchi di testo e presentando un testo lineare per una lettura "spicciola". Limite di questo approccio è il contenuto tabellare del pdf. Si potrebbe mangiare qualche spazio. Non si può nemmeno controllare eventi punti firma per i pdf contrassegnati con firme  digitali.
Insomma non è la soluzione per la gestione completa dei pdf. Siamo d'accordo su questo. Basta essere coscienti delle limitazioni delle soluzioni 😉
L'ocr, al di là del'inevitabile errore dovuto a immagini  che lo possono ingannare, può aiutare nel caso di blocchi immagini.
Per la maggior parte dei pdf, almeno per la mia personalissima esperienza lavorativa (un datastore da 17terabyte è abbastanza impegnativo da gestire a livello dischi) sono tutti testi "posizionati". Sono poche le scansioni che gestisco. In genere sono dovute a "recuperi" di cartaceo per invio in conservazione  "sostitutiva"  a norma di legge. Se parliamo di aziende. Generare il pdf con i testi, produce pdf più piccoli che digitalizzare la carta. 10k contro 100k per capirsi ad ordini di grandezza. Quindi costano meno da conservare e consultate.
Se ragioniamo a livello domestico potrebbero aprirsi scenari completamente diversi. I pdf che gestisco a casa sono fatture che fornitori ... giurassichi (a livello informatico almeno) che si ostinano a mandarmi col postino. 😂😂
Al mondo ci sono 10 tipi di persone ... chi capisce il binario e chi no.

 

Recenti

How To

Utenti
  • Utenti in totale: 803
  • Latest: maXim.FI
Stats
  • Post in totale: 19169
  • Topic in totale: 2286
  • Online Today: 99
  • Online Ever: 900
  • (Gennaio 21, 2020, 08:17:49 pm)
Utenti Online
Users: 1
Guests: 83
Total: 84

Disclaimer:

Questo blog non rappresenta una testata giornalistica poiché viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62/2001.