Usando Apache Tika para Processamento de Documentos
SearchWP tem suporte integrado para processamento de documentos, mas há alguns casos em que métodos alternativos são preferidos. Um exemplo é descarregar a análise de PDF (que pode ser um trabalho intensivo em recursos para o PHP) para um binário criado para esse fim, como o Xpdf.
Outra aplicação popular que é capaz de analisar documentos e extrair conteúdo é o Apache Tika. Se o seu servidor tiver o Tika disponível, você pode dizer ao SearchWP para usá-lo para analisar documentos PDF da seguinte forma:
All hooks should be added to your custom SearchWP Customizations Plugin.
| <?php | |
| // Use Apache Tika to extract PDF content in SearchWP. | |
| add_filter( 'searchwp\parser\pdf', function( $content, $args ) { | |
| // Ensure this path is updated to match your Tika installation path! | |
| $path_to_tika = '/srv/bin/tika-app-1.18.jar'; | |
| // Execute the command. | |
| $cmd = "java -jar {$path_to_tika} -t {$args['file']}"; | |
| @exec( $cmd, $output, $exitCode ); | |
| // If there was a problem, send the output to the debug log. | |
| if ( $exitCode ) { | |
| do_action( 'searchwp\debug\log', 'Error running Tika, exit code: ' . $exitCode ); | |
| } | |
| return $output; | |
| }, 20, 2 ); |
O Apache Tika é uma aplicação muito capaz que pode analisar tipos de documentos adicionais, se desejar. O trecho acima usará o Tika para analisar PDFs, os seguintes filtros estão disponíveis e podem ser personalizados da mesma forma:
O Apache Tika também pode ter um melhor suporte para seus documentos do Office, caso em que você pode personalizar o conteúdo analisado com o filtro searchwp\document\content.

