add from_preset to OptimizationConfig (#279)

voorhs · github-actions[bot] · web-flow · commit 1124fe466b5d · 2026-03-15T16:31:26.000+03:00
* add `from_preset` to `OptimizationConfig`

* set default separation ratio to None

* Update optimizer_config.schema.json

* upd unit tests

---------

Co-authored-by: github-actions[bot] &lt;github-actions[bot]@users.noreply.github.com&gt;
diff --git a/docs/optimizer_config.schema.json b/docs/optimizer_config.schema.json
@@ -113,7 +113,7 @@
                             "type": "null"
                         }
                     ],
-                    "default": 0.5,
+                    "default": null,
                     "description": "Set to float to prevent data leak between scoring and decision nodes.",
                     "title": "Separation Ratio"
                 },
@@ -498,7 +498,7 @@
                 "scheme": "ho",
                 "n_folds": 3,
                 "validation_size": 0.2,
-                "separation_ratio": 0.5,
+                "separation_ratio": null,
                 "is_few_shot_train": false,
                 "examples_per_intent": 8
             }
diff --git a/src/autointent/_optimization_config.py b/src/autointent/_optimization_config.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 
-from typing import Any
+from typing import TYPE_CHECKING, Any
 
 from pydantic import BaseModel, Field, PositiveInt, field_validator
 
@@ -14,6 +14,10 @@
     get_default_hfmodel_config,
     initialize_embedder_config,
 )
+from .utils import load_preset
+
+if TYPE_CHECKING:
+    from .custom_types import SearchSpacePreset
 
 
 class OptimizationConfig(BaseModel):
@@ -46,3 +50,7 @@ def validate_embedder_config(cls, v: Any) -> EmbedderConfig:  # noqa: ANN401
     hpo_config: HPOConfig = HPOConfig()
 
     seed: PositiveInt = 42
+
+    @classmethod
+    def from_preset(cls, preset: SearchSpacePreset) -> OptimizationConfig:
+        return cls.model_validate(load_preset(preset))
diff --git a/src/autointent/configs/_optimization.py b/src/autointent/configs/_optimization.py
@@ -29,7 +29,7 @@ class DataConfig(BaseModel):
     )
     """Fraction of train samples to allocate for validation (if input dataset doesn't contain validation split)."""
     separation_ratio: FloatFromZeroToOne | None = Field(
-        0.5, description="Set to float to prevent data leak between scoring and decision nodes."
+        None, description="Set to float to prevent data leak between scoring and decision nodes."
     )
     """Set to float to prevent data leak between scoring and decision nodes."""
     is_few_shot_train: bool = Field(False, description="Whether to use few-shot training.")
diff --git a/tests/data/test_data_handler.py b/tests/data/test_data_handler.py
@@ -73,7 +73,9 @@ def mock_split():
 
 
 def test_data_handler_initialization(sample_multiclass_data):
-    handler = DataHandler(dataset=Dataset.from_dict(sample_multiclass_data), random_seed=42)
+    handler = DataHandler(
+        dataset=Dataset.from_dict(sample_multiclass_data), config=DataConfig(separation_ratio=0.5), random_seed=42
+    )
 
     assert handler.multilabel is False
     assert handler.dataset.n_classes == 2
@@ -84,7 +86,9 @@ def test_data_handler_initialization(sample_multiclass_data):
 
 
 def test_data_handler_multilabel_mode(sample_multilabel_data):
-    handler = DataHandler(dataset=Dataset.from_dict(sample_multilabel_data), random_seed=42)
+    handler = DataHandler(
+        dataset=Dataset.from_dict(sample_multilabel_data), config=DataConfig(separation_ratio=0.5), random_seed=42
+    )
 
     assert handler.multilabel is True
     assert handler.dataset.n_classes == 2

Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ class DataConfig(BaseModel):`
`29`	`29`	`)`
`30`	`30`	`"""Fraction of train samples to allocate for validation (if input dataset doesn't contain validation split)."""`
`31`	`31`	`separation_ratio: FloatFromZeroToOne \| None = Field(`
`32`		`- 0.5, description="Set to float to prevent data leak between scoring and decision nodes."`
	`32`	`+ None, description="Set to float to prevent data leak between scoring and decision nodes."`
`33`	`33`	`)`
`34`	`34`	`"""Set to float to prevent data leak between scoring and decision nodes."""`
`35`	`35`	`is_few_shot_train: bool = Field(False, description="Whether to use few-shot training.")`