å…¥é—¨æŒ‡å—
========

æœ¬æŒ‡å—æ—¨åœ¨å±•ç¤º ``scikit-learn`` æä¾›çš„ä¸€äº›ä¸»è¦åŠŸèƒ½ã€‚å®ƒå‡è®¾è¯»è€…å…·æœ‰æœºå™¨å¦ä¹ å®žè·µçš„åŸºæœ¬çŸ¥è¯†ï¼ˆå¦‚æ¨¡åž‹æ‹Ÿåˆã€é¢„æµ‹ã€äº¤å‰éªŒè¯ç‰ï¼‰ã€‚è¯·å‚è€ƒæˆ‘ä»¬çš„ :ref:`installation instructions <installation-instructions>` æ¥å®‰è£… ``scikit-learn`` ã€‚

 ``Scikit-learn`` æ˜¯ä¸€ä¸ªæ”¯æŒç›‘ç£å¦ä¹ å’Œæ— ç›‘ç£å¦ä¹ çš„å¼€æºæœºå™¨å¦ä¹ åº“ã€‚å®ƒè¿˜æä¾›äº†å„ç§å·¥å…·ï¼Œç”¨äºŽæ¨¡åž‹æ‹Ÿåˆã€æ•°æ®é¢„å¤„ç†ã€æ¨¡åž‹é€‰æ‹©ã€æ¨¡åž‹è¯„ä¼°ä»¥åŠå…¶ä»–è®¸å¤šå®žç”¨åŠŸèƒ½ã€‚

æ‹Ÿåˆå’Œé¢„æµ‹ï¼šä¼°è®¡å™¨åŸºç¡€
------------------------

 ``Scikit-learn`` æä¾›äº†æ•°åç§å†…ç½®çš„æœºå™¨å¦ä¹ ç®—æ³•å’Œæ¨¡åž‹ï¼Œç§°ä¸º :term:`estimators` ã€‚æ¯ä¸ªä¼°è®¡å™¨éƒ½å¯ä»¥ä½¿ç”¨å…¶ :term:`fit` æ–¹æ³•æ‹Ÿåˆåˆ°æŸäº›æ•°æ®ä¸Šã€‚

ä»¥ä¸‹æ˜¯ä¸€ä¸ªç®€å•ç¤ºä¾‹ï¼Œæˆ‘ä»¬å°†ä¸€ä¸ª :class:`~sklearn.ensemble.RandomForestClassifier` æ‹Ÿåˆåˆ°ä¸€äº›éžå¸¸åŸºæœ¬çš„æ•°æ®ä¸Š::

  >>> from sklearn.ensemble import RandomForestClassifier
  >>> clf = RandomForestClassifier(random_state=0)
  >>> X = [[ 1,  2,  3],  # 2 ä¸ªæ ·æœ¬, 3 ä¸ªç‰¹å¾
  ...      [11, 12, 13]]
  >>> y = [0, 1]  # æ¯ä¸ªæ ·æœ¬çš„ç±»åˆ«
  >>> clf.fit(X, y)
  RandomForestClassifier(random_state=0)

:term:`fit` æ–¹æ³•é€šå¸¸æŽ¥å— 2 ä¸ªè¾“å…¥ï¼š

- æ ·æœ¬çŸ©é˜µï¼ˆæˆ–è®¾è®¡çŸ©é˜µï¼‰ :term:`X` ã€‚ ``X`` çš„å¤§å°é€šå¸¸æ˜¯ ``(n_samples, n_features)`` ï¼Œè¿™æ„å‘³ç€æ ·æœ¬è¡¨ç¤ºä¸ºè¡Œï¼Œç‰¹å¾è¡¨ç¤ºä¸ºåˆ—ã€‚
- ç›®æ ‡å€¼ :term:`y` ï¼Œå¯¹äºŽå›žå½’ä»»åŠ¡æ˜¯å®žæ•°ï¼Œå¯¹äºŽåˆ†ç±»ä»»åŠ¡æ˜¯æ•´æ•°ï¼ˆæˆ–ä»»ä½•å…¶ä»–ç¦»æ•£å€¼é›†åˆï¼‰ã€‚å¯¹äºŽæ— ç›‘ç£å¦ä¹ ä»»åŠ¡ï¼Œ ``y`` ä¸éœ€è¦æŒ‡å®šã€‚ ``y`` é€šå¸¸æ˜¯ä¸€ä¸ªä¸€ç»´æ•°ç»„ï¼Œå…¶ä¸ç¬¬ ``i`` ä¸ªæ¡ç›®å¯¹åº”äºŽ ``X`` çš„ç¬¬ ``i`` ä¸ªæ ·æœ¬ï¼ˆè¡Œï¼‰çš„ç›®æ ‡ã€‚

 ``X`` å’Œ ``y`` é€šå¸¸æœŸæœ›æ˜¯ numpy æ•°ç»„æˆ–ç‰æ•ˆçš„ :term:`ç±»æ•°ç»„` æ•°æ®ç±»åž‹ï¼Œå°½ç®¡æŸäº›ä¼°è®¡å™¨æ”¯æŒå…¶ä»–æ ¼å¼ï¼Œå¦‚ç¨€ç–çŸ©é˜µã€‚

ä¸€æ—¦ä¼°è®¡å™¨è¢«æ‹Ÿåˆï¼Œå®ƒå°±å¯ä»¥ç”¨äºŽé¢„æµ‹æ–°æ•°æ®çš„ç›®æ ‡å€¼ã€‚æ‚¨ä¸éœ€è¦é‡æ–°è®ç»ƒä¼°è®¡å™¨::

  >>> clf.predict(X)  # é¢„æµ‹è®ç»ƒæ•°æ®çš„ç±»åˆ«
  array([0, 1])
  >>> clf.predict([[4, 5, 6], [14, 15, 16]])  # é¢„æµ‹æ–°æ•°æ®çš„ç±»åˆ«
  array([0, 1])

æ‚¨å¯ä»¥æŸ¥çœ‹ :ref:`ml_map` æ¥äº†è§£å¦‚ä½•ä¸ºæ‚¨çš„ç”¨ä¾‹é€‰æ‹©åˆé€‚çš„æ¨¡åž‹ã€‚

è½¬æ¢å™¨å’Œé¢„å¤„ç†å™¨
--------------------

æœºå™¨å¦ä¹ å·¥ä½œæµç¨‹é€šå¸¸ç”±ä¸åŒçš„éƒ¨åˆ†ç»„æˆã€‚ä¸€ä¸ªå…¸åž‹çš„ç®¡é“åŒ…æ‹¬ä¸€ä¸ªé¢„å¤„ç†æ¥éª¤ï¼Œè¯¥æ¥éª¤è½¬æ¢æˆ–å¡«å……æ•°æ®ï¼Œä»¥åŠä¸€ä¸ªæœ€ç»ˆçš„é¢„æµ‹å™¨ï¼Œç”¨äºŽé¢„æµ‹ç›®æ ‡å€¼ã€‚

åœ¨ ``scikit-learn`` ä¸ï¼Œé¢„å¤„ç†å™¨å’Œè½¬æ¢å™¨éµå¾ªä¸Žä¼°è®¡å™¨å¯¹è±¡ç›¸åŒçš„ APIï¼ˆå®žé™…ä¸Šå®ƒä»¬éƒ½ç»§æ‰¿è‡ªåŒä¸€ä¸ª ``BaseEstimator`` ç±»ï¼‰ã€‚è½¬æ¢å™¨å¯¹è±¡æ²¡æœ‰ :term:`predict` æ–¹æ³•ï¼Œè€Œæ˜¯æœ‰ä¸€ä¸ª :term:`transform` æ–¹æ³•ï¼Œè¯¥æ–¹æ³•è¾“å‡ºä¸€ä¸ªæ–°çš„è½¬æ¢æ ·æœ¬çŸ©é˜µ ``X`` ::

  >>> from sklearn.preprocessing import StandardScaler
  >>> X = [[0, 15],
  ...      [1, -10]]
  >>> # æ ¹æ®è®¡ç®—çš„ç¼©æ”¾å€¼ç¼©æ”¾æ•°æ®
  >>> StandardScaler().fit(X).transform(X)
  array([[-1.,  1.],
         [ 1., -1.]])

æœ‰æ—¶ï¼Œæ‚¨å¸Œæœ›å¯¹ä¸åŒçš„ç‰¹å¾åº”ç”¨ä¸åŒçš„è½¬æ¢ï¼š:ref:`ColumnTransformer<column_transformer>` æ£æ˜¯ä¸ºæ¤ç±»ç”¨ä¾‹è®¾è®¡çš„ã€‚

ç®¡é“ï¼šé“¾æŽ¥é¢„å¤„ç†å™¨å’Œä¼°è®¡å™¨
------------------------------

è½¬æ¢å™¨å’Œä¼°è®¡å™¨ï¼ˆé¢„æµ‹å™¨ï¼‰å¯ä»¥ç»„åˆåœ¨ä¸€èµ·æˆä¸ºä¸€ä¸ªå•ä¸€çš„ç»Ÿä¸€å¯¹è±¡ï¼š:class:`~sklearn.pipeline.Pipeline` ã€‚ç®¡é“æä¾›çš„ API ä¸Žå¸¸è§„ä¼°è®¡å™¨ç›¸åŒï¼šå¯ä»¥ä½¿ç”¨ ``fit`` å’Œ ``predict`` è¿›è¡Œæ‹Ÿåˆå’Œé¢„æµ‹ã€‚æ£å¦‚æˆ‘ä»¬ç¨åŽå°†çœ‹åˆ°çš„ï¼Œä½¿ç”¨ç®¡é“è¿˜å¯ä»¥é˜²æ¢æ•°æ®æ³„éœ²ï¼Œå³åœ¨è®ç»ƒæ•°æ®ä¸æŠ«éœ²ä¸€äº›æµ‹è¯•æ•°æ®ã€‚

åœ¨ä»¥ä¸‹ç¤ºä¾‹ä¸ï¼Œæˆ‘ä»¬ :ref:`load the Iris dataset <datasets>` ï¼Œå°†å…¶æ‹†åˆ†ä¸ºè®ç»ƒé›†å’Œæµ‹è¯•é›†ï¼Œå¹¶åœ¨æµ‹è¯•æ•°æ®ä¸Šè®¡ç®—ç®¡é“çš„å‡†ç¡®æ€§å¾—åˆ†::

  >>> from sklearn.preprocessing import StandardScaler
  >>> from sklearn.linear_model import LogisticRegression
  >>> from sklearn.pipeline import make_pipeline
  >>> from sklearn.datasets import load_iris
  >>> from sklearn.model_selection import train_test_split
  >>> from sklearn.metrics import accuracy_score
  ...
  >>> # åˆ›å»ºä¸€ä¸ªç®¡é“å¯¹è±¡
  >>> pipe = make_pipeline(
  ...     StandardScaler(),
  ...     LogisticRegression()
  ... )
  ...
  >>> # åŠ è½½é¸¢å°¾èŠ±æ•°æ®é›†å¹¶å°†å…¶æ‹†åˆ†ä¸ºè®ç»ƒé›†å’Œæµ‹è¯•é›†
  >>> X, y = load_iris(return_X_y=True)
  >>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
  ...
  >>> # æ‹Ÿåˆæ•´ä¸ªç®¡é“
  >>> pipe.fit(X_train, y_train)
  Pipeline(steps=[('standardscaler', StandardScaler()),
                  ('logisticregression', LogisticRegression())])
  >>> # æˆ‘ä»¬çŽ°åœ¨å¯ä»¥åƒä½¿ç”¨å…¶ä»–ä¼°è®¡å™¨ä¸€æ ·ä½¿ç”¨å®ƒ
  >>> accuracy_score(pipe.predict(X_test), y_test)
  0.97...

æ¨¡åž‹è¯„ä¼°
--------

å°†æ¨¡åž‹æ‹Ÿåˆåˆ°æŸäº›æ•°æ®å¹¶ä¸æ„å‘³ç€å®ƒå°†åœ¨æœªè§æ•°æ®ä¸Šé¢„æµ‹è‰¯å¥½ã€‚è¿™éœ€è¦ç›´æŽ¥è¿›è¡Œè¯„ä¼°ã€‚æˆ‘ä»¬åˆšåˆšçœ‹åˆ°äº† :func:` ~sklearn.model_selection.train_test_split`åŠ©æ‰‹ï¼Œå®ƒå°†æ•°æ®é›†æ‹†åˆ†ä¸ºè®ç»ƒé›†å’Œæµ‹è¯•é›†ï¼Œä½† ``scikit-learn`` è¿˜æä¾›äº†è®¸å¤šå…¶ä»–ç”¨äºŽæ¨¡åž‹è¯„ä¼°çš„å·¥å…·ï¼Œç‰¹åˆ«æ˜¯ç”¨äºŽ :ref:`äº¤å‰éªŒè¯ <cross_validation>` ã€‚

æˆ‘ä»¬åœ¨è¿™é‡Œç®€è¦å±•ç¤ºå¦‚ä½•ä½¿ç”¨ :func:`~sklearn.model_selection.cross_validate` åŠ©æ‰‹æ‰§è¡Œ 5 æŠ˜äº¤å‰éªŒè¯è¿‡ç¨‹ã€‚è¯·æ³¨æ„ï¼Œä¹Ÿå¯ä»¥æ‰‹åŠ¨éåŽ†æŠ˜å ï¼Œä½¿ç”¨ä¸åŒçš„æ•°æ®æ‹†åˆ†ç–ç•¥ï¼Œå¹¶ä½¿ç”¨è‡ªå®šä¹‰è¯„åˆ†å‡½æ•°ã€‚è¯·å‚é˜…æˆ‘ä»¬çš„ :ref:`User Guide <cross_validation>` äº†è§£æ›´å¤šè¯¦ç»†ä¿¡æ¯::

  >>> from sklearn.datasets import make_regression
  >>> from sklearn.linear_model import LinearRegression
  >>> from sklearn.model_selection import cross_validate
  ...
  >>> X, y = make_regression(n_samples=1000, random_state=0)
  >>> lr = LinearRegression()
  ...
  >>> result = cross_validate(lr, X, y)  # é»˜è®¤ä¸º 5 æŠ˜äº¤å‰éªŒè¯
  >>> result['test_score']  # r_squared å¾—åˆ†é«˜æ˜¯å› ä¸ºæ•°æ®é›†ç®€å•
  array([1., 1., 1., 1., 1.])

è‡ªåŠ¨å‚æ•°æœç´¢
------------

æ‰€æœ‰ä¼°è®¡å™¨éƒ½æœ‰å‚æ•°ï¼ˆåœ¨æ–‡çŒ®ä¸é€šå¸¸ç§°ä¸ºè¶…å‚æ•°ï¼‰ï¼Œè¿™äº›å‚æ•°å¯ä»¥è¿›è¡Œè°ƒæ•´ã€‚ä¼°è®¡å™¨çš„æ³›åŒ–èƒ½åŠ›é€šå¸¸åœ¨å¾ˆå¤§ç¨‹åº¦ä¸Šå–å†³äºŽå°‘æ•°å‡ ä¸ªå‚æ•°ã€‚ä¾‹å¦‚ï¼Œ:class:`~sklearn.ensemble.RandomForestRegressor` æœ‰ä¸€ä¸ª ``n_estimators`` å‚æ•°ï¼Œç”¨äºŽç¡®å®šæ£®æž—ä¸çš„æ ‘çš„æ•°é‡ï¼Œè¿˜æœ‰ä¸€ä¸ª ``max_depth`` å‚æ•°ï¼Œç”¨äºŽç¡®å®šæ¯æ£µæ ‘çš„æœ€å¤§æ·±åº¦ã€‚é€šå¸¸ï¼Œè¿™äº›å‚æ•°çš„ç¡®åˆ‡å€¼å¹¶ä¸æ¸…æ¥šï¼Œå› ä¸ºå®ƒä»¬å–å†³äºŽæ‰‹å¤´çš„æ•°æ®ã€‚

 ``Scikit-learn`` æä¾›äº†å·¥å…·æ¥è‡ªåŠ¨æ‰¾åˆ°æœ€ä½³çš„å‚æ•°ç»„åˆï¼ˆé€šè¿‡äº¤å‰éªŒè¯ï¼‰ã€‚åœ¨ä»¥ä¸‹ç¤ºä¾‹ä¸ï¼Œæˆ‘ä»¬éšæœºæœç´¢éšæœºæ£®æž—çš„å‚æ•°ç©ºé—´ï¼Œä½¿ç”¨ :class:`~sklearn.model_selection.RandomizedSearchCV` å¯¹è±¡ã€‚å½“æœç´¢ç»“æŸæ—¶ï¼Œ :class:`~sklearn.model_selection.RandomizedSearchCV` çš„è¡Œä¸ºå°±åƒä¸€ä¸ªå·²ç»æ‹Ÿåˆäº†æœ€ä½³å‚æ•°é›†çš„ :class:`~sklearn.ensemble.RandomForestRegressor` ã€‚æ›´å¤šè¯¦ç»†ä¿¡æ¯è¯·å‚é˜… :ref:`User Guide <grid_search>` ::

  >>> from sklearn.datasets import fetch_california_housing
  >>> from sklearn.ensemble import RandomForestRegressor
  >>> from sklearn.model_selection import RandomizedSearchCV
  >>> from sklearn.model_selection import train_test_split
  >>> from scipy.stats import randint
  ...
  >>> X, y = fetch_california_housing(return_X_y=True)
  >>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
  ...
  >>> # å®šä¹‰å°†è¦æœç´¢çš„å‚æ•°ç©ºé—´
  >>> param_distributions = {'n_estimators': randint(1, 5),
  ...                        'max_depth': randint(5, 10)}
  ...
  >>> # çŽ°åœ¨åˆ›å»ºä¸€ä¸ª searchCV å¯¹è±¡å¹¶å°†å…¶æ‹Ÿåˆåˆ°æ•°æ®ä¸Š
  >>> search = RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0),
  ...                             n_iter=5,
  ...                             param_distributions=param_distributions,
  ...                             random_state=0)
  >>> search.fit(X_train, y_train)
  RandomizedSearchCV(estimator=RandomForestRegressor(random_state=0), n_iter=5,
                     param_distributions={'max_depth': ...,
                                          'n_estimators': ...},
                     random_state=0)
  >>> search.best_params_
  {'max_depth': 9, 'n_estimators': 4}

  >>> # çŽ°åœ¨ search å¯¹è±¡è¡¨çŽ°å¾—åƒä¸€ä¸ªæ™®é€šçš„éšæœºæ£®æž—ä¼°è®¡å™¨
  >>> # å…·æœ‰ max_depth=9 å’Œ n_estimators=4
  >>> search.score(X_test, y_test)
  0.73...

.. note::
åœ¨å®žè·µä¸ï¼Œä½ å‡ ä¹Žæ€»æ˜¯å¸Œæœ›å¯¹ä¸€ä¸ªç®¡é“ï¼ˆpipelineï¼‰è¿›è¡Œæœç´¢ï¼Œè€Œä¸æ˜¯å•ä¸ªä¼°è®¡å™¨ã€‚ä¸»è¦åŽŸå› ä¹‹ä¸€æ˜¯ï¼Œå¦‚æžœä½ å¯¹æ•´ä¸ªæ•°æ®é›†åº”ç”¨é¢„å¤„ç†æ¥éª¤è€Œä¸ä½¿ç”¨ç®¡é“ï¼Œç„¶åŽè¿›è¡Œä»»ä½•å½¢å¼çš„äº¤å‰éªŒè¯ï¼Œä½ å°†ç ´åè®ç»ƒæ•°æ®å’Œæµ‹è¯•æ•°æ®ä¹‹é—´ç‹¬ç«‹æ€§çš„åŸºæœ¬å‡è®¾ã€‚å®žé™…ä¸Šï¼Œç”±äºŽä½ ä½¿ç”¨æ•´ä¸ªæ•°æ®é›†å¯¹æ•°æ®è¿›è¡Œäº†é¢„å¤„ç†ï¼Œä¸€äº›å…³äºŽæµ‹è¯•é›†çš„ä¿¡æ¯å·²ç»å¯¹è®ç»ƒé›†å¯ç”¨ã€‚è¿™å°†å¯¼è‡´è¿‡é«˜ä¼°è®¡ä¼°è®¡å™¨çš„æ³›åŒ–èƒ½åŠ›ï¼ˆä½ å¯ä»¥åœ¨ `Kaggle post <https://www.kaggle.com/alexisbcook/data-leakage>`_ ä¸äº†è§£æ›´å¤šä¿¡æ¯ï¼‰ã€‚

ä½¿ç”¨ç®¡é“è¿›è¡Œäº¤å‰éªŒè¯å’Œæœç´¢å°†å¤§å¤§é¿å…è¿™ç§å¸¸è§é™·é˜±ã€‚

ä¸‹ä¸€æ¥
------

æˆ‘ä»¬å·²ç»ç®€è¦ä»‹ç»äº†ä¼°è®¡å™¨æ‹Ÿåˆå’Œé¢„æµ‹ã€é¢„å¤„ç†æ¥éª¤ã€ç®¡é“ã€äº¤å‰éªŒè¯å·¥å…·å’Œè‡ªåŠ¨è¶…å‚æ•°æœç´¢ã€‚æœ¬æŒ‡å—åº”è¯¥è®©æ‚¨å¯¹åº“çš„ä¸€äº›ä¸»è¦åŠŸèƒ½æœ‰ä¸€ä¸ªæ¦‚è§ˆï¼Œä½† ``scikit-learn`` è¿˜æœ‰æ›´å¤šå†…å®¹ï¼

è¯·å‚é˜…æˆ‘ä»¬çš„ :ref:`ç”¨æˆ·æŒ‡å—` ä»¥èŽ·å–æˆ‘ä»¬æä¾›çš„æ‰€æœ‰å·¥å…·çš„è¯¦ç»†ä¿¡æ¯ã€‚æ‚¨è¿˜å¯ä»¥åœ¨ :ref:`APIå‚è€ƒ` ä¸æ‰¾åˆ°å…¬å…±APIçš„è¯¦å°½åˆ—è¡¨ã€‚

æ‚¨è¿˜å¯ä»¥æŸ¥çœ‹æˆ‘ä»¬ä¼—å¤šçš„ :ref:`ç¤ºä¾‹ <general_examples>`ï¼Œè¿™äº›ç¤ºä¾‹åœ¨è®¸å¤šä¸åŒçš„ä¸Šä¸‹æ–‡ä¸å±•ç¤ºäº†``scikit-learn``çš„ä½¿ç”¨ã€‚