Google indicizza i PDF protetti? Si tramite IFilter

Nel post su IIS Express ho deciso di allegare la guida in formato PDF.

Per ridurre copie e ripubblicazioni ho creato il PDF specificando alcuni parametri di sicurezza. Ad esempio ho impedito la modifica del PDF e la copia del testo nella clipboard.

Quando ho pubblicato il PDF sul blog mi sono però posto questa domanda: Google e più in generale i motori di ricerca saranno in grado di indicizzare un PDF secured?

La risposta è sì in quanto Google, i motori di ricerca ed i software di indicizzazione (ad esempio SharePoint) utilizzano la tecnologia IFilter.

Tramite gli IFilter è possibile accedere e catalogare il contenuto ad esempio di file PDF, RTF, file compressi, CHM, file di Office o Visio.

Per verificare se il contenuto del PDF può essere indicizzato si può scaricare l’utility a riga di comando Extract Text dal sito Bullzip.com (http://www.bullzip.com/products/ext/info.php).

L’utility ha due soli parametri:

EXTRACTTEXT input=input_file_name output=output_file_name

Se questa utility è in grado di esportare il testo nel file di output sicuramente anche i motori di ricerca sono in grado di farlo.

NB: per estrarre il testo da un file PDF è necessario che sia installato l’IFilter PDF. L’IFilter PDF può essere scaricato dal sito Adobe.

Riferimenti

http://ifilter.org

L’ifilter di Adobe per i PDF

http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611

Share