RandomForestLearner

RandomForestLearner

RandomForestLearner ¶

RandomForestLearner(
    label: str,
    task: Task = CLASSIFICATION,
    *,
    weights: Optional[str] = None,
    ranking_group: Optional[str] = None,
    uplift_treatment: Optional[str] = None,
    features: Optional[ColumnDefs] = None,
    include_all_columns: bool = False,
    max_vocab_count: int = 2000,
    min_vocab_frequency: int = 5,
    discretize_numerical_columns: bool = False,
    num_discretized_numerical_bins: int = 255,
    max_num_scanned_rows_to_infer_semantic: int = 100000,
    max_num_scanned_rows_to_compute_statistics: int = 100000,
    data_spec: Optional[DataSpecification] = None,
    extra_training_config: Optional[TrainingConfig] = None,
    adapt_bootstrap_size_ratio_for_maximum_training_duration: bool = False,
    allow_na_conditions: bool = False,
    bootstrap_size_ratio: float = 1.0,
    bootstrap_training_dataset: bool = True,
    categorical_algorithm: str = "CART",
    categorical_set_split_greedy_sampling: float = 0.1,
    categorical_set_split_max_num_items: int = -1,
    categorical_set_split_min_item_frequency: int = 1,
    compute_oob_performances: bool = True,
    compute_oob_variable_importances: bool = False,
    growing_strategy: str = "LOCAL",
    honest: bool = False,
    honest_fixed_separation: bool = False,
    honest_ratio_leaf_examples: float = 0.5,
    in_split_min_examples_check: bool = True,
    keep_non_leaf_label_distribution: bool = True,
    max_depth: int = 16,
    max_num_nodes: Optional[int] = None,
    maximum_model_size_in_memory_in_bytes: float = -1.0,
    maximum_training_duration_seconds: float = -1.0,
    mhld_oblique_max_num_attributes: Optional[int] = None,
    mhld_oblique_sample_attributes: Optional[bool] = None,
    min_examples: int = 5,
    missing_value_policy: str = "GLOBAL_IMPUTATION",
    num_candidate_attributes: Optional[int] = 0,
    num_candidate_attributes_ratio: Optional[float] = None,
    num_oob_variable_importances_permutations: int = 1,
    num_trees: int = 300,
    numerical_vector_sequence_num_examples: int = 1000,
    numerical_vector_sequence_num_random_anchors: int = 100,
    pure_serving_model: bool = False,
    random_seed: int = 123456,
    sampling_with_replacement: bool = True,
    sorting_strategy: str = "PRESORT",
    sparse_oblique_max_num_features: Optional[int] = None,
    sparse_oblique_max_num_projections: Optional[
        int
    ] = None,
    sparse_oblique_normalization: Optional[str] = None,
    sparse_oblique_num_projections_exponent: Optional[
        float
    ] = None,
    sparse_oblique_projection_density_factor: Optional[
        float
    ] = None,
    sparse_oblique_weights: Optional[str] = None,
    sparse_oblique_weights_integer_maximum: Optional[
        int
    ] = None,
    sparse_oblique_weights_integer_minimum: Optional[
        int
    ] = None,
    sparse_oblique_weights_power_of_two_max_exponent: Optional[
        int
    ] = None,
    sparse_oblique_weights_power_of_two_min_exponent: Optional[
        int
    ] = None,
    split_axis: str = "AXIS_ALIGNED",
    uplift_min_examples_in_treatment: int = 5,
    uplift_split_score: str = "KULLBACK_LEIBLER",
    winner_take_all: bool = True,
    working_dir: Optional[str] = None,
    num_threads: Optional[int] = None,
    tuner: Optional[AbstractTuner] = None,
    feature_selector: Optional[
        AbstractFeatureSelector
    ] = None,
    explicit_args: Optional[Set[str]] = None
)

基类: GenericCCLearner

随机森林学习算法。

一个随机森林是一个包含多个深度 CART 决策树的集合，这些决策树独立训练且不进行剪枝。每棵树都在原始训练数据集的一个随机子集上训练（有放回抽样）。

该算法的独特之处在于它对过拟合具有鲁棒性，即使在极端情况下也是如此，例如特征数量多于训练样本时。

它可能是决策森林训练算法中最著名的。

使用示例

import ydf
import pandas as pd

dataset = pd.read_csv("project/dataset.csv")

model = ydf.RandomForestLearner().train(dataset)

print(model.describe())

超参数已配置为对典型数据集给出合理的结果。超参数也可以手动修改（参见下面的描述），或者通过应用 RandomForestLearner.hyperparameter_templates() 提供的超参数模板进行修改（详细信息请参阅此函数的文档）。

属性

名称	类型	描述
`label`		数据集的标签。标签列不应在 `features` 参数中被标识为特征。
`task`		要解决的任务（例如 Task.CLASSIFICATION、Task.REGRESSION、Task.RANKING、Task.CATEGORICAL_UPLIFT、Task.NUMERICAL_UPLIFT）。
`weights`		标识每个示例权重的特征名称。如果未指定权重，则假定单位权重。权重列不应在 `features` 参数中被标识为特征。
`ranking_group`		仅用于 `task=Task.RANKING`。在查询/文档排序任务中标识查询的特征名称。ranking group 不应在 `features` 参数中被标识为特征。
`uplift_treatment`		仅用于 `task=Task.CATEGORICAL_UPLIFT` 和 `task=Task`. NUMERICAL_UPLIFT。标识提升问题中干预（treatment）的数值特征名称。值 0 保留给对照组干预。目前仅支持 0/1 二元干预。
`features`		如果为 None，则所有列都用作特征。特征的语义自动确定。否则，如果 include_all_columns=False（默认），则仅导入 `features` 中列出的列。如果 include_all_columns=True，则所有列都作为特征导入，并且只有不在 `columns` 中的列的语义自动确定。如果指定，则定义特征的顺序 - 任何未列出的特征将在指定的特征之后按顺序附加（如果 include_all_columns=True）。label、weights、uplift treatment 和 ranking_group 列不应指定为特征。
`include_all_columns`		请参阅 `features`。
`max_vocab_count`		存储为字符串的 CATEGORICAL 和 CATEGORICAL_SET 列的最大词汇量大小。如果存在更多唯一值，则仅保留最频繁的值，其余值视为词汇外（out-of-vocabulary）。
`min_vocab_frequency`		CATEGORICAL 和 CATEGORICAL_SET 列中某个值的最小出现次数。出现次数少于 `min_vocab_frequency` 的值被视为词汇外（out-of-vocabulary）。
`discretize_numerical_columns`		如果为 true，则在训练前对所有数值列进行离散化。离散化后的数值列训练速度更快，但可能对模型质量产生负面影响。使用 `discretize_numerical_columns=True` 等同于在 `column` 参数中将列语义设置为 DISCRETIZED_NUMERICAL。更多详细信息请参阅 DISCRETIZED_NUMERICAL 的定义。
`num_discretized_numerical_bins`		对数值列进行离散化时使用的 bin 数量。
`max_num_scanned_rows_to_infer_semantic`		如果未明确指定，扫描多少行来推断列的语义。仅在从文件读取时使用，内存中的数据集总是完整读取。将其设置为较小的值会加快数据集读取速度，但可能导致列语义不正确。设置为 -1 以扫描整个数据集。
`max_num_scanned_rows_to_compute_statistics`		计算列统计信息时扫描的行数。仅在从文件读取时使用，内存中的数据集总是完整读取。列的统计信息包括分类特征的字典和数值特征的均值/最小值/最大值。将其设置为较小的值会加快数据集读取速度，但会扭曲数据规范中的统计信息，从而可能损害模型质量（例如，如果分类特征的一个重要类别被视为 OOV）。设置为 -1 以扫描整个数据集。
`data_spec`		要使用的数据规范（高级）。如果提供了数据规范，则 `columns`、`include_all_columns`、`max_vocab_count`、`min_vocab_frequency`、`discretize_numerical_columns` 和 `num_discretized_numerical_bins` 将被忽略。
`extra_training_config`		训练配置 proto（高级）。如果设置，此训练配置 proto 将与学习器隐式定义的配置合并。可用于设置未作为构造函数参数公开的内部或高级参数。extra_training_config 中的参数优先级高于构造函数参数。
`adapt_bootstrap_size_ratio_for_maximum_training_duration`		控制如何应用最大训练时长（如果已设置）。如果为 false，则在时间用尽时停止训练。如果为 true，则调整用于训练每棵树的抽样数据集大小，以使 `num_trees` 在 `maximum_training_duration` 内训练完成。如果未指定最大训练时长，则无效。默认值：False。
`allow_na_conditions`		如果为 true，树训练会评估 `X is NA`（即 `X is missing`）类型的条件。默认值：False。
`bootstrap_size_ratio`		用于训练每棵树的示例数量；表示为训练数据集大小的比例。默认值：1.0。
`bootstrap_training_dataset`		如果为 true（默认值），每棵树都在从原始数据集有放回抽样的单独数据集上训练。如果为 false，所有树都在整个相同数据集上训练。如果 bootstrap_training_dataset:false，则 OOB 指标不可用。bootstrap_training_dataset=false 用于“极端随机树”（https://link.springer.com/content/pdf/10.1007%2Fs10994-006-6226-1.pdf）。默认值：True。
`categorical_algorithm`		如何在分类属性上学习分裂。- `CART`：CART 算法。查找形式为“value \in mask”的分类分裂。对于二分类、回归和排序，该解决方案是精确的。对于多分类，它是近似的。这是一个很好的首选算法。在过拟合（数据集非常小，字典很大）的情况下，“random”算法是一个很好的替代方案。- `ONE_HOT`：One-hot 编码。查找形式为“attribute == param”的最优分类分裂。此方法类似于（但更高效）将每个可能的分类值转换为布尔特征。提供此方法用于比较，通常性能不如其他替代方案。- `RANDOM`：在一组随机候选中选择最佳分裂。使用随机搜索查找形式为“value \in mask”的分类分裂。此解决方案可视为 CART 算法的近似。此方法是 CART 的有力替代方案。此算法灵感来源于《随机森林》(Random Forest, 2001) 的“5.1 Categorical Variables”章节。默认值：“CART”。
`categorical_set_split_greedy_sampling`		用于分类集分裂，例如文本。某个分类值成为正集候选的概率。采样在每个节点应用一次（即不是在贪婪优化的每一步）。默认值：0.1。
`categorical_set_split_max_num_items`		用于分类集分裂，例如文本。最大项目数（采样之前）。如果项目数更多，则忽略最不频繁的项目。更改此值类似于在加载数据集之前更改“max_vocab_count”，但有一个例外：使用 `max_vocab_count` 时，所有剩余项目会分组到一个特殊的词汇外项目。使用 `max_num_items` 时，则不是这样。默认值：-1。
`categorical_set_split_min_item_frequency`		用于分类集分裂，例如文本。考虑一个项目的最小出现次数。默认值：1。
`compute_oob_performances`		如果为 true，则计算袋外评估（Out-of-bag evaluation），该评估可在摘要和模型检查器中查看。此评估是交叉验证评估的一种廉价替代方案。默认值：True。
`compute_oob_variable_importances`		如果为 true，则计算袋外特征重要性，该重要性可在摘要和模型检查器中查看。请注意，OOB 特征重要性的计算可能很昂贵。默认值：False。
`growing_strategy`		如何生长树。- `LOCAL`：每个节点独立于其他节点进行分裂。换句话说，只要一个节点满足分裂的约束（例如最大深度、最小观测数），该节点就会被分裂。这是决策树生长的“经典”方式。- `BEST_FIRST_GLOBAL`：在树的所有节点中，选择损失降低幅度最大的节点进行分裂。此方法也称为“最优优先”或“叶子级生长”。更多详细信息请参阅 Shi 的“Best-first decision tree learning”和 Friedman 的“Additive logistic regression : A statistical view of boosting”。默认值：“LOCAL”。
`honest`		在 honest 树中，使用不同的训练示例来推断结构和叶子值。这种正则化技术用示例来换取偏差估计。它可能会增加或降低模型质量。请参阅 Athey 等人的“Generalized Random Forests”。在这篇论文中，Honest 树是使用随机森林算法进行无放回抽样训练的。默认值：False。
`honest_fixed_separation`		仅用于 honest 树，即 honest=true。如果为 true，则为每棵树生成新的随机划分。如果为 false，则所有树使用相同的划分（例如，在包含多棵树的梯度提升树中）。默认值：False。
`honest_ratio_leaf_examples`		仅用于 honest 树，即 honest=true。用于设置叶子值的示例比例。默认值：0.5。
`in_split_min_examples_check`		是否在分裂搜索中检查 `min_examples` 约束（即导致一个子节点示例少于 `min_examples` 的分裂被视为无效），还是在分裂搜索之前检查（即一个节点只有在包含多于 `min_examples` 个示例时才能派生）。如果为 false，则可能存在少于 `min_examples` 个训练示例的节点。默认值：True。
`keep_non_leaf_label_distribution`		是否保留非叶子节点的节点值（即训练示例标签的分布）。此信息在服务期间不使用，但可用于模型解释和超参数调优。这会占用大量空间，有时占模型大小的一半。默认值：True。
`max_depth`		树的最大深度。`max_depth=1` 表示所有树都将是根节点。`max_depth=-1` 表示树深度不受此参数限制。值 <= -2 将被忽略。默认值：16。
`max_num_nodes`		树中的最大节点数。设置为 -1 以禁用此限制。仅适用于 `growing_strategy=BEST_FIRST_GLOBAL`。默认值：None。
`maximum_model_size_in_memory_in_bytes`		限制模型存储在内存中的大小。不同的算法可能以不同的方式强制执行此限制。请注意，当模型编译为推理引擎时，推理引擎的大小通常远小于原始模型。默认值：-1.0。
`maximum_training_duration_seconds`		以秒为单位表示的模型最大训练时长。每个学习算法可以根据需要自由使用此参数。启用最大训练时长会使模型训练变得不确定。默认值：-1.0。
`mhld_oblique_max_num_attributes`		对于 MHLD 斜分裂，即 `split_axis=MHLD_OBLIQUE`。投影中的最大属性数。增加此值会增加训练时间。减小此值则起到正则化作用。该值应在 [2, num_numerical_features] 范围内。如果该值高于数值特征总数，则会自动限制该值。允许值为 1，但这会导致普通（非斜向）分裂。默认值：None。
`mhld_oblique_sample_attributes`		对于 MHLD 斜分裂，即 `split_axis=MHLD_OBLIQUE`。如果为 true，则应用由“num_candidate_attributes”或“num_candidate_attributes_ratio”参数控制的属性采样。如果为 false，则测试所有属性。默认值：None。
`min_examples`		节点中的最小示例数。默认值：5。
`missing_value_policy`		处理缺失属性值的方法。- `GLOBAL_IMPUTATION`：缺失属性值通过在整个数据集上计算的均值（数值属性）或最频繁项（分类属性）进行填补（即数据规范中包含的信息）。- `LOCAL_IMPUTATION`：缺失属性值通过在当前节点的训练示例上评估的均值（数值属性）或最频繁项（分类属性）进行填补。- `RANDOM_LOCAL_IMPUTATION`：缺失属性值从当前节点的训练示例中随机抽样的值进行填补。此方法由 Clinic 等人在“Random Survival Forests”（https://projecteuclid.org/download/pdfview_1/euclid.aoas/1223908043）中提出。默认值：“GLOBAL_IMPUTATION”。
`num_candidate_attributes`		为每个节点测试的唯一有效属性数量。如果一个属性至少有一个有效分裂，则它是有效的。如果 `num_candidate_attributes=0`，则该值设置为随机森林的经典默认值：分类时为 `sqrt(number of input attributes)`，回归时为 `number_of_input_attributes / 3`。如果 `num_candidate_attributes=-1`，则测试所有属性。默认值：0。
`num_candidate_attributes_ratio`		在每个节点测试的属性比例。如果设置，则等同于 `num_candidate_attributes = number_of_input_features x num_candidate_attributes_ratio`。可能的值在 ]0, 1] 之间以及 -1。如果未设置或等于 -1，则使用 `num_candidate_attributes`。默认值：None。
`num_oob_variable_importances_permutations`		重新洗牌数据集以计算置换变量重要性的次数。增加此值会增加训练时间（如果“compute_oob_variable_importances:true”）以及 oob 变量重要性指标的稳定性。默认值：1。
`num_trees`		个体决策树的数量。增加树的数量可以提高模型质量，但会牺牲模型大小、训练速度和推理延迟。默认值：300。
`numerical_vector_sequence_num_examples`		对于具有 NUMERICAL_VECTOR_SEQUENCE 特征的数据集（即固定大小数值向量序列）。用于查找分裂的最大示例数。较大的值可以提高模型质量，但训练时间更长。默认值：1000。
`numerical_vector_sequence_num_random_anchors`		对于具有 NUMERICAL_VECTOR_SEQUENCE 特征的数据集（即固定大小数值向量序列）。随机生成的锚点值的数量。较大的值可以提高模型质量，但训练时间更长。默认值：100。
`pure_serving_model`		清除模型中任何服务模型不需要的信息。这包括调试、模型解释和其他元数据。序列化模型的大小可以显著减小（减小 50% 是常见的）。此参数对模型服务的质量、服务速度或 RAM 使用没有影响。默认值：False。
`random_seed`		模型训练的随机种子。学习器应通过随机种子实现确定性。默认值：123456。
`sampling_with_replacement`		如果为 true，则有放回地对训练示例进行抽样。如果为 false，则无放回地对训练示例进行抽样。仅在“bootstrap_training_dataset=true”时使用。如果为 false（无放回抽样），并且“bootstrap_size_ratio=1”（默认值），则所有示例都用于训练所有树（您可能不希望这样）。默认值：True。
`sorting_strategy`		如何对数值特征进行排序以查找分裂 - AUTO：在 IN_NODE、FORCE_PRESORT 和 LAYER 中选择最有效的方法。- IN_NODE：在节点中使用特征之前进行排序。此解决方案速度慢但消耗内存少。- FORCE_PRESORT：在训练开始时预先对特征进行排序。此解决方案速度快但消耗内存比 IN_NODE 多得多。- PRESORT：自动在 FORCE_PRESORT 和 IN_NODE 之间选择。默认值：“PRESORT”。
`sparse_oblique_max_num_features`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE`。控制分裂中的最大特征数量。设置为 -1 表示无最大值。仅在需要对变量数量设置硬性最大值时使用，否则优先使用 `projection_density_factor` 来控制每个投影的特征数量。默认值：None。
`sparse_oblique_max_num_projections`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE`。最大投影数（在 num_projections_exponent 后应用）。斜分裂会尝试 max(p^num_projections_exponent, max_num_projections) 个随机投影来选择分裂，其中 p 是数值特征的数量。增加“max_num_projections”会增加训练时间，但不增加推理时间。在模型开发的后期阶段，如果每一点准确性都很重要，请增加此值。论文“Sparse Projection Oblique Random Forests”（Tomita 等人，2020 年）没有定义此超参数。默认值：None。
`sparse_oblique_normalization`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE`。在应用稀疏斜投影之前对特征应用的归一化。- `NONE`：不归一化。- `STANDARD_DEVIATION`：通过在整个训练数据集上估计的标准差对特征进行归一化。也称为 Z-Score 归一化。- `MIN_MAX`：通过在整个训练数据集上估计的范围（即最大值-最小值）对特征进行归一化。默认值：None。
`sparse_oblique_num_projections_exponent`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE`。控制在每个节点测试的随机投影数。增加此值很可能提高模型质量，显著增加训练时间，但不影响推理时间。斜分裂会尝试 max(p^num_projections_exponent, max_num_projections) 个随机投影来选择分裂，其中 p 是数值特征的数量。因此，增加此 `num_projections_exponent` 和可能的 `max_num_projections` 可能会提高模型质量，但也会显著增加训练时间。（经典）随机森林的复杂度大致与 `num_projections_exponent=0.5` 成正比，因为它考虑 sqrt(num_features) 进行分裂。（经典）GBDT 的复杂度大致与 `num_projections_exponent=1` 成正比，因为它考虑所有特征进行分裂。论文“Sparse Projection Oblique Random Forests”（Tomita 等人，2020 年）建议的值范围为 [1/4, 2]。默认值：None。
`sparse_oblique_projection_density_factor`		投影密度，表示为特征数量的指数。对于每个投影独立地，每个特征有“projection_density_factor / num_features”的概率被考虑在投影中。论文“Sparse Projection Oblique Random Forests”（Tomita 等人，2020 年）将此参数称为 `lambda`，建议值范围为 [1, 5]。增加此值会增加训练和推理时间（平均而言）。此值最好针对每个数据集进行调优。默认值：None。
`sparse_oblique_weights`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE`。请注意，归一化在权重采样后应用，例如，只有在归一化为 NONE 时，二元权重才保证是二元的。可能的值：- `BINARY`：斜向权重在 {-1,1} 中采样（默认）。- `CONTINUOUS`：斜向权重在 [-1,1] 中采样。- `POWER_OF_TWO`：斜向权重是 2 的幂。指数在 [sparse_oblique_weights_power_of_two_min_exponent, sparse_oblique_weights_power_of_two_max_exponent] 中均匀采样，符号均匀采样。- `INTEGER`：权重是在范围 [sparse_oblique_weights_integer_minimum, sparse_oblique_weights_integer_maximum] 中均匀采样的整数。默认值：None。
`sparse_oblique_weights_integer_maximum`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE` 且使用整数权重，即 `sparse_oblique_weights=INTEGER`。权重的最大值。默认值：None。
`sparse_oblique_weights_integer_minimum`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE` 且使用整数权重，即 `sparse_oblique_weights=INTEGER`。权重的最小值。默认值：None。
`sparse_oblique_weights_power_of_two_max_exponent`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE` 且使用 2 的幂权重，即 `sparse_oblique_weights=POWER_OF_TWO`。权重的最大指数。默认值：None。
`sparse_oblique_weights_power_of_two_min_exponent`		对于稀疏斜分裂，即 `split_axis=SPARSE_OBLIQUE` 且使用 2 的幂权重，即 `sparse_oblique_weights=POWER_OF_TWO`。权重的最小指数。默认值：None。
`split_axis`		数值特征考虑的分裂结构。- `AXIS_ALIGNED`：轴对齐分裂（即一次一个条件）。这是训练树的“经典”方式。默认值。- `SPARSE_OBLIQUE`：来自 Tomita 等人于 2020 年发表的论文“Sparse Projection Oblique Random Forests”中的稀疏斜分裂（即在少数特征上随机分裂）。- `MHLD_OBLIQUE`：来自 Canete-Sifuentes 等人于 2029 年发表的论文“Classification Based on Multivariate Contrast Patterns”中的多类别 Hellinger 线性判别式分裂。默认值：“AXIS_ALIGNED”。
`uplift_min_examples_in_treatment`		仅用于提升模型。节点中每个干预的最小示例数。默认值：5。
`uplift_split_score`		仅用于提升模型。分裂器分数，即分裂器优化的分数。这些分数由 Rzepakowski 等人在“Decision trees for uplift modeling with single and multiple treatments”中引入。符号：`p` 表示正向结果的概率/平均值，`q` 表示对照组的概率/平均值。- `KULLBACK_LEIBLER` 或 `KL`：- p log (p/q) - `EUCLIDEAN_DISTANCE` 或 `ED`：(p-q)^2 - `CHI_SQUARED` 或 `CS`：(p-q)^2/q 默认值：“KULLBACK_LEIBLER”。
`winner_take_all`		控制分类树如何投票。如果为 true，每棵树投票支持一个类别。如果为 false，每棵树投票支持一个类别分布。通常 prefer winner_take_all_inference=false。默认值：True。
`working_dir`		可供学习算法存储中间计算结果的目录路径。根据学习算法和参数的不同，working_dir 可能是可选的、必需的或被忽略的。例如，分布式训练算法总是需要“working_dir”，并且如果提供，梯度提升树和超参数调优器会将工件导出到“working_dir”。
`num_threads`		用于训练模型的线程数。不同的学习算法以不同的方式使用多线程，效率也不同。如果为 `None`，`num_threads` 将自动设置为处理器数量（最多 32 个；如果处理器数量不可用，则设置为 6 个）。将 `num_threads` 设置得远大于处理器数量会减慢训练速度。默认值逻辑将来可能会改变。
`tuner`		如果设置，则使用提供的调优器自动选择最佳超参数。使用分布式训练时，调优是分布式的。
`feature_selector`		如果设置，则使用指定的特征选择器自动选择模型的输入特征，通过自动化特征选择。
`explicit_args`		内部使用的辅助参数。如果用户显式提供，则抛出错误。

hyperparameters `property` ¶

hyperparameters: HyperParameters

此学习器超参数的一个（可变）字典。

此对象可用于在创建学习器后检查或修改超参数。在构建学习器后修改超参数适用于一些高级用例。由于此方法绕过对给定超参数集的某些可行性检查，因此通常最好为每个模型重新创建学习器。当前超参数集可以使用 validate_hyperparameters() 手动验证。

learner_name `property` ¶

learner_name: str

capabilities `classmethod` ¶

capabilities() -> LearnerCapabilities

cross_validation ¶

cross_validation(
    ds: InputDataset,
    folds: int = 10,
    bootstrapping: Union[bool, int] = False,
    parallel_evaluations: int = 1,
) -> Evaluation

extract_input_feature_names ¶

extract_input_feature_names(ds: InputDataset) -> List[str]

hyperparameter_templates `classmethod` ¶

hyperparameter_templates() -> (
    Dict[str, HyperparameterTemplate]
)

此学习器的超参数模板。

超参数模板是一组预定义的超参数，以便轻松访问学习器的不同变体。每个模板都映射到一组超参数，可以直接应用于学习器。

使用示例

templates = ydf.RandomForestLearner.hyperparameter_templates()
better_defaultv1 = templates["better_defaultv1"]
# Print a description of the template
print(better_defaultv1.description)
# Apply the template's settings on the learner.
learner = ydf.RandomForestLearner(label, **better_defaultv1)

返回值

类型	描述
`Dict[str, HyperparameterTemplate]`	可用模板的字典

post_init ¶

post_init()

train ¶

train(
    ds: InputDataset,
    valid: Optional[InputDataset] = None,
    verbose: Optional[Union[int, bool]] = None,
) -> RandomForestModel

在给定数据集上训练模型。

数据集读取选项在学习器上给出。有关 YDF 中数据集读取的更多信息，请参阅学习器或 ydf.create_vertical_dataset() 的文档。

使用示例

import ydf
import pandas as pd

train_ds = pd.read_csv(...)

learner = ydf.RandomForestLearner(label="label")
model = learner.train(train_ds)
print(model.summary())

如果训练被中断（例如，通过中断 Colab 中的单元格执行），模型将恢复到中断发生时的状态。

参数

名称	类型	描述	默认值
`ds`	`InputDataset`	训练数据集。	必需
`valid`	`Optional[InputDataset]`	可选验证数据集。某些学习器（例如随机森林）不需要验证数据集。某些学习器（例如梯度提升树）如果在未提供验证数据集时会自动从训练数据集中提取验证数据集。	`None`
`verbose`	`Optional[Union[int, bool]]`	训练期间的详细级别。如果为 None，则使用 `ydf.verbose` 的全局详细级别。级别包括：0 或 False：无日志，1 或 True：在 notebook 中打印少量日志；在终端中打印所有日志。2：在所有界面上打印所有日志。	`None`

返回值

类型	描述
`RandomForestModel`	训练好的模型。

train_imp ¶

train_imp(
    ds: InputDataset,
    valid: Optional[InputDataset],
    verbose: Optional[Union[int, bool]],
) -> ModelType

validate_hyperparameters ¶

validate_hyperparameters() -> None

RandomForestLearner