Databricks AutoML与特征工程：高效管理特征选择的实践指南(特征,高效,实践,选择,指南.......)

Databricks AutoML与特征工程：高效管理特征选择的实践指南

本教程详细阐述了在Databricks AutoML中集成特征存储时，如何精确控制特征选择。针对直接使用feature_store_lookups的局限性，我们推荐通过databricks.feature_store.create_training_set预先构建训练数据集，从而确保只有所需特征被纳入模型训练，有效避免因额外列导致AutoML任务失败。

挑战：Databricks AutoML与特征选择的困境

在databricks环境中，结合使用automl与特征存储（feature store）能够显著提升机器学习工作流的效率。然而，当尝试直接将特征存储查找（feature_store_lookups）传递给databricks.automl.regress或databricks.automl.classify函数时，可能会遇到特征选择上的挑战。

通常，用户希望从特征表中选择特定的特征列。在使用feature_store_lookups字典列表时，虽然可以在每个查找字典中包含feature_names字段来指定所需特征，但Databricks AutoML API在处理此参数时存在限制。具体而言，feature_names并非databricks.automl函数内部feature_store_lookups参数的有效选项。这意味着即使指定了feature_names，AutoML也可能默认包含特征表中的所有列，导致模型训练过程中引入不必要的特征，甚至因数据格式或类型不兼容而导致AutoML运行失败。

此外，当尝试使用exclude_cols参数来排除从特征存储中引入的额外列时，AutoML会报错，指出这些列不在数据集的初始Schema中，从而无法有效排除。这进一步限制了在直接AutoML调用中进行精细特征控制的能力。

以下是一个尝试直接使用feature_store_lookups并遇到问题的典型示例：

import databricks.automl

automl_feature_lookups = [
    {
      "table_name":"lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      "lookup_key":"date",
      "feature_names":"lag10_oil_price" # 此处 feature_names 在 AutoML API 中无效
    },
    {
      "table_name":"lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      "lookup_key":["date","store_nbr"]
    },
    {
      "table_name":"lakehouse_in_action.favorita_forecasting.stores_ft",
      "lookup_key":"store_nbr",
      "feature_names":["cluster","store_type"] # 此处 feature_names 在 AutoML API 中无效
    }
]

# 假设 raw_data 是包含基础数据（如日期、商店编号、标签）的DataFrame
automl_data = raw_data.filter("date > '2016-12-31'")

# 这种直接调用方式可能导致所有特征表列被包含，并引发错误
summary = databricks.automl.regress(automl_data,
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=60,
                                    feature_store_lookups=automl_feature_lookups)

当尝试添加exclude_cols=['city','state']等参数时，如果这些列来源于特征查找表，则会收到类似InvalidArgumentError: Dataset schema does not contain column with name 'city'.的错误。

解决方案：利用Feature Store构建训练数据集

解决上述问题的最佳实践是，在调用Databricks AutoML之前，显式地利用databricks.feature_store模块来构建一个训练数据集（TrainingSet）。这种方法允许在特征存储层面精确指定要包含的特征，并将所有查找操作预先合并到一个统一的DataFrame中，然后将这个预处理好的DataFrame传递给AutoML。

1. 导入必要的库

首先，确保导入FeatureLookup类和databricks.feature_store模块。

from databricks.feature_store import FeatureLookup
import databricks.feature_store as fe
import databricks.automl

2. 定义特征查找规则

使用FeatureLookup对象来定义每个特征表的查找规则，并在其中明确指定feature_names。这是与直接在AutoML中传递字典列表的关键区别，FeatureLookup对象支持feature_names参数，允许精确选择特征。

model_feature_lookups = [
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price" # 在 FeatureLookup 中有效
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
      # 如果不指定 feature_names，则默认包含所有非 lookup_key 列
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"] # 在 FeatureLookup 中有效
    ),
]

3. 创建训练数据集

使用fe.create_training_set函数将基础DataFrame（df）、特征查找规则（feature_lookups）和目标列（label）结合起来，创建一个TrainingSet对象。这个过程会根据lookup_key自动将特征表中的指定特征合并到基础DataFrame中。

# 假设 raw_data 是包含基础数据（如日期、商店编号、标签）的DataFrame
# label_name 是目标列的名称
training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)

4. 加载合并后的DataFrame

通过调用training_set.load_df()方法，将TrainingSet转换为一个包含所有基础数据和合并后特征的Spark DataFrame。此时，这个DataFrame已经包含了所有经过精确选择的特征，并且不再有额外的、不期望的列。

training_df = training_set.load_df()

5. 准备数据并执行AutoML

现在，可以将这个预处理好的training_df传递给databricks.automl.regress函数。此时，feature_store_lookups参数不再需要，因为特征已经合并。如果需要排除原始raw_data中非特征存储来源的列（例如，一个不用于训练的id列），可以使用exclude_cols参数。

# 可选：对数据进行进一步过滤，例如按日期过滤
automl_data = training_df.filter("date > '2016-12-31'") # 此过滤仅为缩小数据量，非必需步骤

summary = databricks.automl.regress(automl_data,
                                    target_col=label_name,
                                    time_col="date",
                                    timeout_minutes=6,
                                    exclude_cols=['id'] # 此时 exclude_cols 可用于排除非特征存储来源的列
                                    )

完整代码示例

from databricks.feature_store import FeatureLookup
import databricks.feature_store as fe
import databricks.automl
from pyspark.sql import SparkSession
from pyspark.sql.functions import lit, current_date

# 模拟 SparkSession 和 raw_data
spark = SparkSession.builder.appName("AutoMLFeatureStoreTutorial").getOrCreate()
# 假设 raw_data 包含 'date', 'store_nbr', 'id', 'label_name' 等列
# 实际应用中 raw_data 会从数据源加载
raw_data = spark.createDataFrame([
    ("2017-01-01", 1, 1001, 5.5),
    ("2017-01-01", 2, 1002, 6.2),
    ("2017-01-02", 1, 1003, 5.8),
    ("2017-01-02", 2, 1004, 6.0),
    ("2016-12-31", 1, 1000, 5.0) # 模拟旧数据
], ["date", "store_nbr", "id", "sales"])

label_name = "sales"

# 定义 FeatureLookup 对象，精确指定所需特征
model_feature_lookups = [
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft",
      lookup_key="date",
      feature_names="lag10_oil_price"
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.store_holidays_ft",
      lookup_key=["date","store_nbr"]
    ),
    FeatureLookup(
      table_name="lakehouse_in_action.favorita_forecasting.stores_ft",
      lookup_key="store_nbr",
      feature_names=["cluster","store_type"]
    ),
]

# 使用 Feature Store 创建训练数据集
training_set = fe.create_training_set(
    df=raw_data,
    feature_lookups=model_feature_lookups,
    label=label_name,
)

# 加载合并后的 DataFrame
training_df = training_set.load_df()

# 可选：进一步过滤数据
automl_data = training_df.filter("date > '2016-12-31'")

# 执行 Databricks AutoML
# 注意：此处的 AutoML 调用是模拟的，实际运行需要Databricks环境和配置
# summary = databricks.automl.regress(automl_data,
#                                     target_col=label_name,
#                                     time_col="date",
#                                     timeout_minutes=6,
#                                     exclude_cols=['id']
#                                     )

print("训练数据集Schema:")
automl_data.printSchema()
print("\n前5行数据:")
automl_data.show(5)

# 假设 AutoML 运行成功
print("\nDatabricks AutoML 实验已成功配置并执行。")

注意事项：

上述代码中的lakehouse_in_action.favorita_forecasting.oil_10d_lag_ft等表名是示例，实际使用时需替换为您的特征表路径。
databricks.automl.regress的timeout_minutes参数应根据实际需求设置，示例中为6分钟。
exclude_cols参数在create_training_set之后，load_df所生成的DataFrame上是有效的，可以用于排除那些非特征存储来源的、不用于模型训练的列（如示例中的id）。
对automl_data进行日期过滤（filter("date > '2016-12-31'")）仅用于缩小示例数据量，在实际应用中并非强制要求。

总结

通过在Databricks AutoML工作流中引入databricks.feature_store.create_training_set这一中间步骤，我们能够有效地解决特征选择的难题。这种方法允许开发者利用FeatureLookup对象的feature_names参数精确控制从特征存储中引入哪些特征，从而构建一个干净、目标明确的训练数据集。随后，将这个预处理好的DataFrame传递给AutoML，不仅能够避免因额外列导致的失败，还能提高模型训练的效率和准确性。这体现了Databricks Feature Store在MLOps流程中提供强大特征管理能力的价值。

以上就是Databricks AutoML与特征工程：高效管理特征选择的实践指南的详细内容，更多请关注资源网其它相关文章！

挑战：Databricks AutoML与特征选择的困境

解决方案：利用Feature Store构建训练数据集

1. 导入必要的库

2. 定义特征查找规则

3. 创建训练数据集

4. 加载合并后的DataFrame

5. 准备数据并执行AutoML

完整代码示例

总结

最近发表

热评文章

标签列表

网站分类

Databricks AutoML与特征工程：高效管理特征选择的实践指南(特征,高效,实践,选择,指南.......)

挑战：Databricks AutoML与特征选择的困境

解决方案：利用Feature Store构建训练数据集

1. 导入必要的库

2. 定义特征查找规则

3. 创建训练数据集

4. 加载合并后的DataFrame

5. 准备数据并执行AutoML

完整代码示例

总结

相关阅读

如何清理 Python 项目中的构建文件（无需 setup.py）(清理,构建,无需,文件,项目.......)

PEFT LoRA适配器与基础模型高效合并指南(高效,适配器,合并,模型,基础.......)

python中怎么进行类型转换_Python常见数据类型转换方法(转换,数据类型,常见,类型,方法.......)

Python项目清理：告别setup.py，手动清除构建文件(清理,构建,清除,告别,文件.......)

Python项目构建文件清理指南：告别setup.py的现代化实践(清理,构建,现代化,告别,实践.......)

清理不含 setup.py 的 Python 项目构建文件(不含,清理,构建,文件,项目.......)

最近发表

热评文章

标签列表

网站分类