第28回「近ごろの機械学習ライブラリ(5)mlxtend」

こんにちは、小澤です。

これまで、auto-sklearn、H2O AutoML、PyCaretといったAutoML(自動機械学習)ツール を紹介してきました。いずれも、プログラミングに不慣れな人でも機械学習を活用できるように設計されたツールで、AI導入のハードルを大きく下げてくれる存在です。

さて、今回紹介するのは、「mlxtend」です。mlxtend は、Python で機械学習やデータ分析をする人を支援するための拡張ライブラリです。前処理、特徴量選択、アンサンブル、可視化、アソシエーション分析など、機械学習の実務でよく使う機能をワンストップで提供し、scikit‑learn などの既存ライブラリを補強します。

なお、今回も、教科書『Pythonによる新しいデータ分析の教科書(第2版)』の「近ごろの機械学習ライブラリ」(271ページ) に関連した内容です。

1. mlxtendとは?

mlxtend(https://rasbt.github.io/mlxtend/)は、scikit-learnなどの既存のツールを拡張する形で使われることを想定しており、分類・回帰モデルに加え、アンサンブル学習・特徴量選択・前処理・可視化・アソシエーション分析といった幅広い補助機能がまとめられています。

たとえば、

  • 複数モデルを組み合わせて高精度化する「スタッキングアンサンブル」
  • 学習曲線や混同行列を簡単にグラフ化する可視化関数
  • 頻出アイテムの分析に役立つ「アプリオリアルゴリズム(Apriori)」

など、現場であると便利な機能が詰め込まれたライブラリです。

mlxtend は PyPI で公開されており、以下のようにインストールできます。

pip install mlxtend

2. mlxtendの主な特徴

mlxtend は、データ分析や機械学習の実務でよく使われる処理を簡単に実装できるように設計されたライブラリです。

  1. 前処理・ユーティリティ機能
    標準化(StandardScaler)や Min-Max スケーリング、One‑Hot エンコーディングといった基本的な前処理ツールが用意されています。また、データの読み書きやファイル操作といった補助的なユーティリティ関数も含まれており、前処理の自動化やスクリプトの簡略化に役立ちます。
  2. モデル補助・拡張機能
    mlxtend には、線形回帰や分類モデルといったシンプルなアルゴリズムのほか、複数のモデルを組み合わせるアンサンブル学習のための仕組みも搭載されています。
    たとえば、
    • StackingClassifier / StackingRegressor:複数モデルを重ねて汎化性能を高める
    • EnsembleVoteClassifier:多数決で予測を行うシンプルなアンサンブル手法

      といったクラスを使うことで、複雑なアンサンブルモデルも簡単に構築することができます。
  3. 特徴量選択(Feature Selection)
    mlxtend は特徴量選択の支援機能も充実しています。主に次のような手法が用意されています。
    • SequentialFeatureSelector:前進選択法や後退選択法を利用し、特徴量の組み合わせを段階的に最適化します。
    • ExhaustiveFeatureSelector:可能な全組み合わせを総当たりで評価し、最適なサブセットを選びます。

      これらを活用することで、過学習の防止やモデルのシンプル化(軽量化)に役立てることができます。
  4. 可視化機能(Plotting / Visualization)
    mlxtend は、モデルの可視化やデータ理解を深めるためのグラフ描画ツールも多数備えています。
    • plot_decision_regions:分類モデルの決定境界を2次元で可視化します。
    • plot_learning_curves:学習曲線を描画し、過学習・学習不足の傾向を確認できます。
    • plot_confusion_matrix:混同行列を視覚的に確認できます。
    • plot_linear_regression:回帰直線をプロットし、予測傾向を把握します。
    • scatterplot matrix / histogram / heatmap:特徴量間の相関や分布を視覚化することができます。

      これらは主にJupyter Notebookやレポート用途で便利に活用されています。
  5. 頻出パターン・アソシエーション分析
    マーケットバスケット分析などに用いられる、アソシエーション分析の機能も備えています。
    • Apriori algorithm
    • FP-Growth algorithm
    • association_rules:上記のアルゴリズムによって得られた頻出アイテム集合から、ルール(もしAならB)を生成する関数です。

      これにより、「一緒に購入されやすい商品」や「共起する事象」のパターンを抽出することができます。
  6. モデル評価・統計テスト
    mlxtend は、モデルの性能評価や統計的な有意性検定にも対応しています。
    • 性能評価指標:accuracy や balanced accuracy などのスコア指標を提供
    • ブートストラップ評価(bootstrap sampling):モデルの頑健性を再サンプリングで評価
    • バイアス–バリアンス分解:モデルの複雑さと予測誤差の関係を定量化
    • 交差検証と統計テスト:paired t-test や McNemar’s test などを用いて、複数モデルの性能差を統計的に検証できます。
  7.  次元削減・特徴抽出
    高次元データを圧縮して扱いやすくするための次元削減手法も提供されています。
    • PCA(主成分分析)
    • LDA(線形判別分析)
    • カーネルPCA(RBFカーネル対応)

      これらを活用することで、学習時間の短縮や可視化のしやすさ、さらには精度向上にもつながる可能性があります。

3. mlxtendの利用シーン

  1. モデルの比較やアンサンブルを試したいとき
    scikit‑learn で多数のアルゴリズムを逐一試すのは手間がかかりますが、mlxtendのStackingClassifierやEnsembleVoteClassifierを使えば、複数モデルの組み合わせを簡単に試せます。
  2. 特徴量選択や次元削減を手軽に実装したいとき
    多くの特徴量があるデータで、「どの特徴量を使うべきか」を試す場合、mlxtendの特徴選択・PCA 機能が役立ちます。
  3. 分類や回帰モデルの可視化で理解を深めたいとき
    決定境界、学習曲線、混同行列などをグラフで確認できるので、モデルの振る舞いや過学習の有無、クラス分離の状況などを直感的に把握できます。
  4. アソシエーション分析(バスケット分析)をやりたいとき
    ある商品の購買と他商品の関連性を見たい、小売・マーケティング分析をしたい、といった場合に、Apriori や FP‑growth がそのまま使えます。
  5. 統計的な妥当性やモデルの汎化性を確認したいとき
    Bootstrapやバイアス–バリアンス分解、交差検証による統計テスト機能があるので、モデルが偶然によるものか、再利用可能か、過学習していないかなどを調べやすい。

4. 学習曲線や混同行列の可視化サンプル

以下のコードは、機械学習モデルの構築から評価、可視化までを、scikit-learnとmlxtendを使って行う一連の流れのサンプルです。mlxtendを使うことで、グラフ付きで視覚的に評価できるようになります。初心者でもモデルの良し悪しをつかみやすくなるのがポイントです。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from mlxtend.plotting import plot_learning_curves, plot_confusion_matrix
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt

# データ準備
iris = load_iris()
X = iris.data[:, [0, 2]]
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 分類器
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

# 学習曲線のプロット
plot_learning_curves(X_train, y_train, X_test, y_test, clf, scoring=’accuracy’)
plt.show()

# 混同行列の作成と表示
cm = confusion_matrix(y_test, y_pred)
fig, ax = plot_confusion_matrix(conf_mat=cm,
                                class_names=iris.target_names,
                                show_normed=True,
                                show_absolute=True,
                                figsize=(6, 6),
                                colorbar=True)
plt.show()

PAGE TOP