Verwendung von Apache Tika f\"ur die Dokumentenverarbeitung
SearchWP hat eine integrierte Unterstützung für die Dokumentenverarbeitung, aber es gibt Fälle, in denen alternative Methoden bevorzugt werden. Ein Beispiel ist die Auslagerung der PDF-Analyse (die für PHP eine ressourcenintensive Aufgabe sein kann) an eine speziell dafür entwickelte Binärdatei wie Xpdf.
Eine weitere beliebte Anwendung, die Dokumente analysieren und Inhalte extrahieren kann, ist Apache Tika. Wenn Tika auf Ihrem Server verfügbar ist, können Sie SearchWP anweisen, es zur Analyse von PDF-Dokumenten wie folgt zu verwenden:
All hooks should be added to your custom SearchWP Customizations Plugin.
| <?php | |
| // Use Apache Tika to extract PDF content in SearchWP. | |
| add_filter( 'searchwp\parser\pdf', function( $content, $args ) { | |
| // Ensure this path is updated to match your Tika installation path! | |
| $path_to_tika = '/srv/bin/tika-app-1.18.jar'; | |
| // Execute the command. | |
| $cmd = "java -jar {$path_to_tika} -t {$args['file']}"; | |
| @exec( $cmd, $output, $exitCode ); | |
| // If there was a problem, send the output to the debug log. | |
| if ( $exitCode ) { | |
| do_action( 'searchwp\debug\log', 'Error running Tika, exit code: ' . $exitCode ); | |
| } | |
| return $output; | |
| }, 20, 2 ); |
Apache Tika ist eine sehr leistungsfähige Anwendung, die bei Bedarf auch zusätzliche Dokumenttypen analysieren kann. Der obige Ausschnitt verwendet Tika zur Analyse von PDFs. Die folgenden Filter sind verfügbar und können auf die gleiche Weise angepasst werden:
Apache Tika hat möglicherweise auch eine bessere Unterstützung für Ihre Office-Dokumente. In diesem Fall können Sie den analysierten Inhalt mit dem Filter searchwp\document\content anpassen.

