Skip to main content
Edit this page on GitHub

在 Kubernetes 上安装



在 Kubernetes 上运行 Superset 是通过提供的 Helm 图表支持的,该图表可以在官方的 Superset Helm 仓库 中找到。

前提条件

  • 一个 Kubernetes 集群
  • 已安装 Helm
note

对于更简单、单主机的环境,我们推荐使用 minikube,它在许多平台上易于设置,并且与这里引用的 Helm 图表配合得非常好。

运行

  1. 添加 Superset Helm 仓库
helm repo add superset https://apache.github.io/superset
"superset" 已添加到你的仓库
  1. 查看仓库中的图表
helm search repo superset
NAME CHART VERSION APP VERSION DESCRIPTION
superset/superset 0.1.1 1.0 Apache Superset 是一个现代的、企业级就绪的商业智能 Web 应用程序。
  1. 配置你的设置覆盖

与任何典型的 Helm 图表一样,你需要创建一个 values.yaml 文件,该文件将定义/覆盖默认 values.yaml 中的任何值,或其依赖的任何依赖图表中的值:

下面会提供一些你可能需要的重要覆盖的更多信息。

  1. 安装并运行
helm upgrade --install --values my-values.yaml superset superset/superset

你应该会看到各种 pod 出现,例如:

kubectl get pods
NAME READY STATUS RESTARTS AGE
superset-celerybeat-7cdcc9575f-k6xmc 1/1 Running 0 119s
superset-f5c9c667-dw9lp 1/1 Running 0 4m7s
superset-f5c9c667-fk8bk 1/1 Running 0 4m11s
superset-init-db-zlm9z 0/1 Completed 0 111s
superset-postgresql-0 1/1 Running 0 6d20h
superset-redis-master-0 1/1 Running 0 6d20h
superset-worker-75b48bbcc-jmmjr 1/1 Running 0 4m8s
superset-worker-75b48bbcc-qrq49 1/1 Running 0 4m12s

确切的列表将取决于你的一些特定配置覆盖,但通常你应该期望:

  • N 个 superset-xxxx-yyyysuperset-worker-xxxx-yyyy pod(取决于你的 supersetNode.replicaCountsupersetWorker.replicaCount 值)
  • 1 个 superset-postgresql-0 取决于你的 postgres 设置
  • 1 个 superset-redis-master-0 取决于你的 redis 设置
  • 1 个 superset-celerybeat-xxxx-yyyy pod,如果你在值覆盖中设置了 supersetCeleryBeat.enabled = true
  1. 访问它

该图表将发布适当的服务以在 k8s 集群内部暴露 Superset UI。要在外部访问它,你必须:

  • 将服务配置为 LoadBalancerNodePort
  • 为其设置 Ingress - 该图表包含一个定义,但需要根据你的需求进行调整(主机名、tls、注释等)
  • 运行 kubectl port-forward superset-xxxx-yyyy :8088 直接将一个 pod 的端口隧道到你的本地主机

根据你配置的外部访问方式,URL 会有所不同。一旦你确定了适当的 URL,你可以使用以下信息登录:

  • 用户: admin
  • 密码: admin

重要设置

安全设置

默认的安全设置和密码已包含在内,但你必须更新它们以运行 prod 实例,特别是:

postgresql:
postgresqlPassword: superset

确保你为 SECRET_KEY 设置了一个唯一的强复杂字母数字字符串,并使用工具帮助你生成足够随机的序列。

  • 要生成一个好的密钥,你可以运行 openssl rand -base64 42
configOverrides:
secret: |
SECRET_KEY = 'YOUR_OWN_RANDOM_GENERATED_SECRET_KEY'

如果你想更改之前的密钥,那么你应该轮换密钥。 Kubernetes 部署的默认密钥是 thisISaSECRET_1234

configOverrides:
my_override: |
PREVIOUS_SECRET_KEY = 'YOUR_PREVIOUS_SECRET_KEY'
SECRET_KEY = 'YOUR_OWN_RANDOM_GENERATED_SECRET_KEY'
init:
command:
- /bin/sh
- -c
- |
. {{ .Values.configMountPath }}/superset_bootstrap.sh
superset re-encrypt-secrets
. {{ .Values.configMountPath }}/superset_init.sh
note

Superset 使用 Scarf Gateway 收集遥测数据。了解不同 Superset 版本的安装数量有助于项目决定补丁和长期支持的决策。Scarf 会清除个人身份信息(PII),仅提供聚合统计数据。

若要在基于 Helm 的安装中选择退出此数据收集,请编辑 helm/superset/values.yaml 文件中的 repository: 行,将 apachesuperset.docker.scarf.sh/apache/superset 替换为 apache/superset,以直接从 Docker Hub 拉取镜像。

依赖项

在引导脚本中安装额外的软件包并进行任何其他引导配置。对于生产集群,建议在 CI 中完成此步骤后构建自己的镜像。

note

Superset 需要为每个要连接的数据存储安装 Python DB-API 数据库驱动程序和 SQLAlchemy 方言。

有关更多信息,请参阅 安装数据库驱动程序

以下示例安装了 BigQuery 和 Elasticsearch 的驱动程序,使您能够在 Superset 设置中连接到这些数据源:

bootstrapScript: |
#!/bin/bash
pip install psycopg2==2.9.6 \
sqlalchemy-bigquery==1.6.1 \
elasticsearch-dbapi==0.2.5 &&\
if [ ! -f ~/bootstrap ]; then echo "Running Superset with uid {{ .Values.runAsUser }}" > ~/bootstrap; fi

superset_config.py

默认的 superset_config.py 非常简略,您很可能需要对其进行扩展。这可以通过在 configOverrides 中指定一个或多个键/值条目来完成,例如:

configOverrides:
my_override: |
# 这将确保即使启用了 SSL 卸载,redirect_uri 也能正确计算
ENABLE_PROXY_FIX = True
FEATURE_FLAGS = {
"DYNAMIC_PLUGINS": True
}

这些将被评估为 Helm 模板,因此能够引用其他 values.yaml 变量,例如 {{ .Values.ingress.hosts[0] }} 将解析为您的入口外部域。

整个 superset_config.py 将被安装为密钥,因此可以直接传递敏感参数... 然而,使用密钥环境变量可能会更具可读性。

可以通过运行 helm upgrade --install --values my-values.yaml --set-file configOverrides.oauth=set_oauth.py 来提供完整的 Python 文件。

环境变量

这些可以通过 extraEnvextraSecretEnv(如果是敏感信息)作为键/值传递。然后可以使用 os.environ.get("VAR")superset_config.py 中引用它们。

extraEnv:
SMTP_HOST: smtp.gmail.com
SMTP_USER: user@gmail.com
SMTP_PORT: "587"
SMTP_MAIL_FROM: user@gmail.com

extraSecretEnv:
SMTP_PASSWORD: xxxx

configOverrides:
smtp: |
import ast
SMTP_HOST = os.getenv("SMTP_HOST","localhost")
SMTP_STARTTLS = ast.literal_eval(os.getenv("SMTP_STARTTLS", "True"))
SMTP_SSL = ast.literal_eval(os.getenv("SMTP_SSL", "False"))
SMTP_USER = os.getenv("SMTP_USER","superset")
SMTP_PORT = os.getenv("SMTP_PORT",25)
SMTP_PASSWORD = os.getenv("SMTP_PASSWORD","superset")

系统包

如果需要新的系统包,可以通过覆盖容器的 command 在应用程序启动前安装它们,例如:

supersetWorker:
command:
- /bin/sh
- -c
- |
apt update
apt install -y somepackage
apt autoremove -yqq --purge
apt clean

# 运行 celery worker
. {{ .Values.configMountPath }}/superset_bootstrap.sh; celery --app=superset.tasks.celery_app:app worker

数据源

可以通过在 extraConfigs 中提供键/值 yaml 定义来自动声明数据源定义:

extraConfigs:
import_datasources.yaml: |
databases:
- allow_file_upload: true
allow_ctas: true
allow_cvas: true
database_name: example-db
extra: "{\r\n \"metadata_params\": {},\r\n \"engine_params\": {},\r\n \"\
metadata_cache_timeout\": {},\r\n \"schemas_allowed_for_file_upload\": []\r\n\
}"
sqlalchemy_uri: example://example-db.local
tables: []

这些也将作为密钥挂载,并且可以包含敏感参数。

配置示例

设置 OAuth

note

OAuth 设置要求安装 authlib Python 库。这可以通过更新 bootstrapScript 使用 pip 来完成。有关更多信息,请参阅 依赖项 部分。

extraEnv:
AUTH_DOMAIN: example.com

extraSecretEnv:
GOOGLE_KEY: xxxxxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.apps.googleusercontent.com
GOOGLE_SECRET: xxxxxxxxxxxxxxxxxxxxxxxx

configOverrides:
enable_oauth: |
# 这将确保即使启用了SSL卸载,重定向URI也能正确计算
ENABLE_PROXY_FIX = True

from flask_appbuilder.security.manager import AUTH_OAUTH
AUTH_TYPE = AUTH_OAUTH
OAUTH_PROVIDERS = [
{
"name": "google",
"icon": "fa-google",
"token_key": "access_token",
"remote_app": {
"client_id": os.getenv("GOOGLE_KEY"),
"client_secret": os.getenv("GOOGLE_SECRET"),
"api_base_url": "https://www.googleapis.com/oauth2/v2/",
"client_kwargs": {"scope": "email profile"},
"request_token_url": None,
"access_token_url": "https://accounts.google.com/o/oauth2/token",
"authorize_url": "https://accounts.google.com/o/oauth2/auth",
"authorize_params": {"hd": os.getenv("AUTH_DOMAIN", "")}
},
}
]

# 将Authlib角色映射到superset角色
AUTH_ROLE_ADMIN = 'Admin'
AUTH_ROLE_PUBLIC = 'Public'

# 允许用户自行注册,允许从授权用户创建Flask用户
AUTH_USER_REGISTRATION = True

# 默认的用户自行注册角色
AUTH_USER_REGISTRATION_ROLE = "Admin"

启用警报和报告

为此,根据警报和报告文档,您需要:

在Celery工作节点中安装受支持的WebDriver

这可以通过使用预装了WebDriver的自定义镜像来完成,或者通过覆盖command在启动时安装。以下是chromedriver的工作示例:

supersetWorker:
command:
- /bin/sh
- -c
- |
# 安装Chrome WebDriver
# 参见 https://github.com/apache/superset/blob/4fa3b6c7185629b87c27fc2c0e5435d458f7b73d/docs/src/pages/docs/installation/email_reports.mdx
apt-get update
apt-get install -y wget
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
apt-get install -y --no-install-recommends ./google-chrome-stable_current_amd64.deb
wget https://chromedriver.storage.googleapis.com/88.0.4324.96/chromedriver_linux64.zip
apt-get install -y zip
unzip chromedriver_linux64.zip
chmod +x chromedriver
mv chromedriver /usr/bin
apt-get autoremove -yqq --purge
apt-get clean
rm -f google-chrome-stable_current_amd64.deb chromedriver_linux64.zip

# 运行
. {{ .Values.configMountPath }}/superset_bootstrap.sh; celery --app=superset.tasks.celery_app:app worker

运行Celery beat

此Pod将触发在警报和报告UI部分配置的计划任务:

supersetCeleryBeat:
enabled: true

配置适当的Celery作业和SMTP/Slack设置

extraEnv:
SMTP_HOST: smtp.gmail.com
SMTP_USER: user@gmail.com
SMTP_PORT: "587"
SMTP_MAIL_FROM: user@gmail.com

extraSecretEnv:
SLACK_API_TOKEN: xoxb-xxxx-yyyy
SMTP_PASSWORD: xxxx-yyyy

configOverrides:
feature_flags: |
import ast

FEATURE_FLAGS = {
"ALERT_REPORTS": True
}

SMTP_HOST = os.getenv("SMTP_HOST","localhost")
SMTP_STARTTLS = ast.literal_eval(os.getenv("SMTP_STARTTLS", "True"))
SMTP_SSL = ast.literal_eval(os.getenv("SMTP_SSL", "False"))
SMTP_USER = os.getenv("SMTP_USER","superset")
SMTP_PORT = os.getenv("SMTP_PORT",25)
SMTP_PASSWORD = os.getenv("SMTP_PASSWORD","superset")
SMTP_MAIL_FROM = os.getenv("SMTP_MAIL_FROM","superset@superset.com")

SLACK_API_TOKEN = os.getenv("SLACK_API_TOKEN",None)
celery_conf: |
from celery.schedules import crontab

class CeleryConfig:
broker_url = f"redis://{env('REDIS_HOST')}:{env('REDIS_PORT')}/0"
imports = (
"superset.sql_lab",
"superset.tasks.cache",
"superset.tasks.scheduler",
)
result_backend = f"redis://{env('REDIS_HOST')}:{env('REDIS_PORT')}/0"
task_annotations = {
"sql_lab.get_sql_results": {
"rate_limit": "100/s",
},
}
beat_schedule = {
"reports.scheduler": {
"task": "reports.scheduler",
"schedule": crontab(minute="*", hour="*"),
},
"reports.prune_log": {
"task": "reports.prune_log",
'schedule': crontab(minute=0, hour=0),
},
'cache-warmup-hourly': {
"task": "cache-warmup",
"schedule": crontab(minute="*/30", hour="*"),
"kwargs": {
"strategy_name": "top_n_dashboards",
"top_n": 10,
"since": "7 days ago",
},
}
}

CELERY_CONFIG = CeleryConfig
reports: |
EMAIL_PAGE_RENDER_WAIT = 60
WEBDRIVER_BASEURL = "http://{{ template "superset.fullname" . }}:{{ .Values.service.port }}/"
WEBDRIVER_BASEURL_USER_FRIENDLY = "https://www.example.com/"
WEBDRIVER_TYPE= "chrome"
WEBDRIVER_OPTION_ARGS = [
"--force-device-scale-factor=2.0",
"--high-dpi-support=2.0",
"--headless",
"--disable-gpu",
"--disable-dev-shm-usage",
# 这是必需的,因为我们的进程以root身份运行(为了安装pip包)
"--no-sandbox",
"--disable-setuid-sandbox",
"--disable-extensions",
]

加载示例数据和仪表板

如果您正在尝试Superset并希望有一些数据和仪表板进行探索,您可以通过创建一个my_values.yaml并按照运行部分的配置您的设置覆盖步骤中描述的方式部署它来加载一些示例。 要加载示例,请将以下内容添加到my_values.yaml文件中:

init:
loadExamples: true