Nel post su IIS Express ho deciso di allegare la guida in formato PDF.
Per ridurre copie e ripubblicazioni ho creato il PDF specificando alcuni parametri di sicurezza. Ad esempio ho impedito la modifica del PDF e la copia del testo nella clipboard.
Quando ho pubblicato il PDF sul blog mi sono però posto questa domanda: Google e più in generale i motori di ricerca saranno in grado di indicizzare un PDF secured?
La risposta è sì in quanto Google, i motori di ricerca ed i software di indicizzazione (ad esempio SharePoint) utilizzano la tecnologia IFilter.
Tramite gli IFilter è possibile accedere e catalogare il contenuto ad esempio di file PDF, RTF, file compressi, CHM, file di Office o Visio.
Per verificare se il contenuto del PDF può essere indicizzato si può scaricare l’utility a riga di comando Extract Text dal sito Bullzip.com (http://www.bullzip.com/products/ext/info.php).
L’utility ha due soli parametri:
EXTRACTTEXT input=input_file_name output=output_file_name
Se questa utility è in grado di esportare il testo nel file di output sicuramente anche i motori di ricerca sono in grado di farlo.
NB: per estrarre il testo da un file PDF è necessario che sia installato l’IFilter PDF. L’IFilter PDF può essere scaricato dal sito Adobe.
Riferimenti
L’ifilter di Adobe per i PDF
http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611