Italian community of Lazarus and Free Pascal

Programmazione => Generale => Topic aperto da: bonmario - Febbraio 12, 2013, 02:21:18 pm

Titolo: Lettere accentate nei nomi di files
Inserito da: bonmario - Febbraio 12, 2013, 02:21:18 pm
Ciao a tutti,
sto cercando da un'ora, ma non trovo niente.

Allora, devo fare un programma che rinomina i files, facendo in modo che se nel nome dei files c'è una lettera accentata, tale lettera sia sostituita con la analoga non accentata. Per capirci, "Menù" viene rinominato in "Menu".

Il problema è che il nome del file mi arriva nel formato UTF8, in cui le lettere accentate occupano 2 bytes invece di 1 (#195 + il codice della lettera accentata).
Quindi, non posso fare un ciclo for per leggere un carattere alla volta, perché mi sballa per tutte le lettere accentate.

Che voi sappiate, esistono delle funzioni che mi permettono di scorrere una stringa UTF8 e che mi ritornano un carattere alla volta o devo farmela io?

Grazie, Mario
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: xinyiman - Febbraio 12, 2013, 03:41:39 pm
hai giq provato con la stringreplace?!
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: nomorelogic - Febbraio 12, 2013, 05:01:11 pm
ho trovato questa
http://www.freepascal.org/docs-html/rtl/system/utf8toansi.html (http://www.freepascal.org/docs-html/rtl/system/utf8toansi.html)
ma non l'ho mai usata :P
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: bonmario - Febbraio 12, 2013, 06:43:21 pm
Con stringreplace è andata, grazie.

Però per l'ottimizzazione del codice non mi piace ... mi spiego: con stringreplace, siccome devo sostituire tutte le lettere accentate, alla fine la stringa che contiene il nome del file, viene elaborata 6 volte, una per ogni lettera accentata
Codice: [Seleziona]
    NomeFile:=StringReplace(NomeFile, 'à', 'a''', [rfReplaceAll]);
    NomeFile:=StringReplace(NomeFile, 'è', 'e''', [rfReplaceAll]);
    NomeFile:=StringReplace(NomeFile, 'é', 'e''', [rfReplaceAll]);
    NomeFile:=StringReplace(NomeFile, 'ì', 'i''', [rfReplaceAll]);
    NomeFile:=StringReplace(NomeFile, 'ò', 'o''', [rfReplaceAll]);
    NomeFile:=StringReplace(NomeFile, 'ù', 'u''', [rfReplaceAll]);

Io invece preferivo scansionare il nome del file una volta sola e, se mi ritrovavo per le mani una lettera accentata, fare la sostituzione.
Purtroppo però non ho trovato nulla che mi permetta di scansionare una stringa UTF8 un carattere alla volta, o meglio, ho trovato questa http://wiki.freepascal.org/Theodp che permette di scansionare, però poi non permette di trattare il singolo carattere in maniera semplice.

Ciao, Mario
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: Stilgar - Febbraio 12, 2013, 08:45:43 pm
Hai provato con le espressioni regolari?
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: Stilgar - Febbraio 12, 2013, 09:03:32 pm
http://regexpstudio.com/TRegExpr/Help/tregexpr_interface.html#tregexpr.substitute (http://regexpstudio.com/TRegExpr/Help/tregexpr_interface.html#tregexpr.substitute)

L'ho usato una volta ... molto carino e performante ;)
Usi un "gruppo" per lettera che ti interessa.
Poi hai vari modi per gestire come sostituire ;) il $xxx ... usi esattamente il blocco selezionato, ma è proprio quello che vuoi eliminare e cambiare ;)
(Buon divertimento a trovare l'espressione che ti interessa :P )
Stilgar
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: bonmario - Febbraio 13, 2013, 09:21:17 am
Grazie del consiglio, ma le espressioni regolari le potrei studiare solo in ferie, avendo a disposizione qualche settimana per ragionarci su !!!
Ci ho già provato un paio di volte in passato, ma ho sempre dovuto alzare bandiera bianca !!!

In ogni caso, casomai capitasse a qualcuno in futuro la stessa cosa, ieri ho fatto un po' di ricerche su Internet, stamattina ho fatto delle prove, ed ho capito come risolvere il problema.
Ecco il codice:
Codice: [Seleziona]
  function SistemaNomeFile(NomeFileInp:String):String;
  var IdxChr, TotChr:Integer;
      NomeDir, NomeFile, NomeExt, NomeFileOut, ChrNew, ChrOld:String;
  begin
    //Inizizlizzazione output
    Result:='';

    //Scompongo il nome che mi arriva in directory, nome file ed estensione
    NomeDir:=ExtractFileDir(NomeFileInp);
    NomeFile:=ExtractFileNameOnly(NomeFileInp);
    NomeExt:=ExtractFileExt(NomeFileInp);

    //Correggo il nome del file
    NomeFileOut:='';
    IdxChr:=0;
    TotChr:=Length(NomeFile);

    while (IdxChr < TotChr) do begin
      //Valorizzo il carattere successivo
      IdxChr:=IdxChr + 1;
      ChrOld:=NomeFile[IdxChr];
      //Se il carattere è UTF8, devo leggere anche quello successivo
      if (ChrOld = #194) or
         (ChrOld = #195) then begin
       IdxChr:=IdxChr + 1;
       ChrOld:=ChrOld + NomeFile[IdxChr];
      end;

      case ChrOld of
        '0'..'9', 'a'..'z', 'A'..'Z', ' ', '-', '.', '_', '''': begin
          ChrNew:=ChrOld;
        end;
        'à':ChrNew:='a''';
        'è':ChrNew:='e''';
        'é':ChrNew:='e''';
        'ì':ChrNew:='i''';
        'ò':ChrNew:='o''';
        'ù':ChrNew:='u''';
        else
          begin
            ChrNew:='_';
          end;
      end;

      //Adesso che l'eventuale sostituzione è stata fatta, posso aggiungere il carattere
      //alla stringa ricodificata
      NomeFileOut:=NomeFileOut + ChrNew;
    end;

    //Ricompongo il nome completo
    Result:=NomeDir +
            PathDelim +
            NomeFileOut +
            NomeExt;
  end;

Il senso del tutto è che un sibgolo carattere può essere composto da 1 o 2 bytes. E composto da 2 bytes se il primo dei 2 è #194 o #195. Quindi, se scorrendo la stringa mi capita uno di quei 2 bytes, il carattere su cui fare il confronto sarà composto da quel byte e da quello successivo.

Grazie a tutti, Mario
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: Stilgar - Febbraio 13, 2013, 09:26:13 am
Mario, non darti per vinto. ;)
Le espressioni regolari non meno difficili di quello che sembrano.
Stilgar
Titolo: Re:Lettere accentate nei nomi di files
Inserito da: bonmario - Febbraio 13, 2013, 01:25:17 pm
Sono la mia bestia nera ... ma prima o poi le imparerò !!!

Ciao, Mario