Uso de Apache Tika para el Procesamiento de Documentos
SearchWP tiene soporte integrado para el procesamiento de documentos, pero hay algunos casos en los que se prefieren métodos alternativos. Un ejemplo es descargar el análisis de PDF (que puede ser una tarea intensiva en recursos para PHP) a un binario diseñado específicamente como Xpdf.
Otra aplicación popular que puede analizar documentos y extraer contenido es Apache Tika. Si su servidor tiene Tika disponible, puede indicar a SearchWP que lo use para analizar documentos PDF de la siguiente manera:
All hooks should be added to your custom SearchWP Customizations Plugin.
| <?php | |
| // Use Apache Tika to extract PDF content in SearchWP. | |
| add_filter( 'searchwp\parser\pdf', function( $content, $args ) { | |
| // Ensure this path is updated to match your Tika installation path! | |
| $path_to_tika = '/srv/bin/tika-app-1.18.jar'; | |
| // Execute the command. | |
| $cmd = "java -jar {$path_to_tika} -t {$args['file']}"; | |
| @exec( $cmd, $output, $exitCode ); | |
| // If there was a problem, send the output to the debug log. | |
| if ( $exitCode ) { | |
| do_action( 'searchwp\debug\log', 'Error running Tika, exit code: ' . $exitCode ); | |
| } | |
| return $output; | |
| }, 20, 2 ); |
Apache Tika es una aplicación muy capaz que puede analizar tipos de documentos adicionales si lo desea. El fragmento anterior usará Tika para analizar PDF; los siguientes filtros están disponibles y se pueden personalizar de la misma manera:
Apache Tika también puede tener un mejor soporte para sus documentos de Office, en cuyo caso puede personalizar el contenido analizado con el filtro searchwp\document\content.

