🪶 Apache Tika 提取
注意
本教程由社区贡献,未得到 OpenWebUI 团队的支持。它仅作为如何根据具体需求自定义 OpenWebUI 的示例。想要贡献?请查看贡献指南。
🪶 Apache Tika 提取
本文档提供了一步步将 Apache Tika 与 Open WebUI 集成的指南。Apache Tika 是一个内容分析工具包,可以用于检测和提取超过一千种不同文件类型的元数据和文本内容。所有这些文件类型都可以通过单一接口进行解析,使得 Tika 在搜索引擎索引、内容分析、翻译等方面非常有用。
前提条件
- Open WebUI 实例
- 系统中已安装 Docker
- 已为 Open WebUI 设置 Docker 网络
集成步骤
第一步:创建 Docker Compose 文件或运行 Apache Tika 的 Docker 命令
你有两种方式来运行 Apache Tika:
选项一:使用 Docker Compose
在同一目录下创建一个名为 docker-compose.yml
的新文件,并将以下配置添加到该文件中:
services:
tika:
image: apache/tika:latest-full
container_name: tika
ports:
- "9998:9998"
restart: unless-stopped
使用以下命令运行 Docker Compose 文件:
docker-compose up -d
选项二:使用 Docker Run 命令
或者,你可以使用以下 Docker 命令运行 Apache Tika:
docker run -d --name tika \
-p 9998:9998 \
-restart unless-stopped \
apache/tika:latest-full
请注意,如果你选择使用 Docker run 命令,则需要指定 --network
标志以确保容器在与 Open WebUI 实例相同的网络中运行。
第二步:配置 Open WebUI 使用 Apache Tika
要在 Open WebUI 中使用 Apache Tika 作为上下文提取引擎,请按照以下步骤操作:
- 登录到你的 Open WebUI 实例。
- 导航至
Admin Panel
设置菜单。 - 点击
Settings
。 - 点击
Documents
标签。 - 将
Default
内容提取引擎下拉菜单更改为Tika
。 - 更新上下文提取引擎 URL 为
http://tika:9998
。 - 保存更改。