SearchWP Documentation

Consultez le guide d’installation, parcourez la base de connaissances, découvrez les nombreux hooks de SearchWP

Utiliser Apache Tika pour le traitement des documents

SearchWP a une prise en charge intégrée du traitement des documents, mais il existe des cas où des méthodes alternatives sont préférables. Un exemple est la décharge de l'analyse des PDF (qui peut être une tâche gourmande en ressources pour PHP) vers un binaire spécialement conçu comme Xpdf.

Une autre application populaire capable d'analyser des documents et d'en extraire le contenu est Apache Tika. Si votre serveur dispose de Tika, vous pouvez indiquer à SearchWP de l'utiliser pour analyser les documents PDF comme ceci :

All hooks should be added to your custom SearchWP Customizations Plugin.

<?php
// Use Apache Tika to extract PDF content in SearchWP.
add_filter( 'searchwp\parser\pdf', function( $content, $args ) {
// Ensure this path is updated to match your Tika installation path!
$path_to_tika = '/srv/bin/tika-app-1.18.jar';
// Execute the command.
$cmd = "java -jar {$path_to_tika} -t {$args['file']}";
@exec( $cmd, $output, $exitCode );
// If there was a problem, send the output to the debug log.
if ( $exitCode ) {
do_action( 'searchwp\debug\log', 'Error running Tika, exit code: ' . $exitCode );
}
return $output;
}, 20, 2 );

Apache Tika est une application très performante qui peut analyser d'autres types de documents si vous le souhaitez. L'extrait ci-dessus utilisera Tika pour analyser les PDF, les filtres suivants sont disponibles et peuvent être personnalisés de la même manière :

Apache Tika peut également mieux prendre en charge vos documents Office, auquel cas vous pouvez personnaliser le contenu analysé avec le filtre searchwp\document\content.

Créez dès aujourd'hui une meilleure expérience de recherche WordPress

Ne perdez plus jamais de visiteurs à cause de résultats de recherche inutiles. SearchWP rend la création de votre propre recherche WordPress intelligente rapide et facile.

Get SearchWP Now
Icône de moteurs de recherche multiples