自动特征工程和选择线性预测模型

项目描述

`autofeat`图书馆

具有自动特征工程和选择的线性预测模型

该库包含AutoFeatRegressor和AutoFeatClassifier具有与模型类似的接口的scikit-learn模型：

fit()拟合模型参数的函数
predict()给定输入预测目标变量的函数
score()计算拟合优度的函数（R^2/准确度）
fit_transform()和transform()函数，通过模型设计和选择的附加特征扩展给定数据

调用该fit()函数时，将在内部调用该函数fit_transform()，因此如果您打算调用transform()相同的数据，请fit_transform()立即调用。transform()如果您已将数据拆分为训练数据和测试数据并且没有调用fit_transform()整个数据集，则该方法最有用。和函数可以以调用/时使用的原始数据帧的格式提供数据predict()，也可以给它们一个已经转换的数据帧。score()fit()fit_transform()

此外，模型中也只有特征选择部分FeatureSelector。

AutoFeatLight此外（从 2.0.0 版开始），模型中还提供最小特征选择（去除零方差和冗余特征）、工程（简单乘积和特征比率）和缩放（功率变换以使特征更正态分布）.

、和模型需要适合没有 NaN 的数据AutoFeatRegressor，因为它们在内部调用 sklearn模型，它不能处理 NaN。调用时，NaN（但不是）是可以的。AutoFeatClassifierFeatureSelectorLassoLarsCVtransform()np.inf

autofeat示例笔记本包含一个简单的使用示例 - 试试吧！:) 其他示例可以在回归的 autofeat 基准笔记本中找到（其中还包含从下面提到的论文中重现结果的代码）和分类，以及测试脚本。

请记住，由于AutoFeatRegressor和AutoFeatClassifier模型可以生成非常复杂的特征，它们可能会过度拟合数据集中的噪声，即，找到一些新特征会导致对训练集的良好预测，但会导致在新测试样本上的表现不佳。虽然这通常只发生在样本很少的数据集上，但我们建议您仔细检查发现的特征，autofeat并使用对您有意义的特征来训练自己的模型。

根据feateng_steps输入特征的数量（默认为 2）和数量，autofeat可以生成一个非常巨大的特征矩阵（在从这个庞大的特征池中选择最合适的特征之前）。通过在feateng_cols那些列中指定您希望在特征工程部分中最有价值的列，可以大大减少特征的数量。此外，transformations可以仅限于那些对您的数据有意义的特征转换。最后但同样重要的是，您可以对用于训练模型的数据进行二次抽样以限制内存需求。模型拟合后，您可以调用transform()整个数据集以仅生成在fit()/期间选择的少数特征fit_transform()。

安装

您可以从此处下载代码并将 autofeat 文件夹包含在您的$PYTHONPATH或通过 pip 安装（仅限库组件）：

$ pip install autofeat

该库需要 Python 3！其他依赖项：numpy, pandas, scikit-learn, sympy, joblib,pint和numba.

纸

有关模型和实现的更多详细信息，请参阅论文 ——当然，如果此代码中的任何一个对您的研究有帮助，请考虑引用它：

@inproceedings{horn2019autofeat,
  title={The autofeat Python Library for Automated Feature Engineering and Selection},
  author={Horn, Franziska and Pack, Robert and Rieger, Michael},
  booktitle={Joint European Conference on Machine Learning and Knowledge Discovery in Databases},
  pages={111--120},
  year={2019},
  organization={Springer}
}

如果你不喜欢阅读，你也可以观看我在 PyData 会议上关于自动化特征工程和选择的演讲视频autofeat。

该代码旨在用于研究目的。

如果您有任何问题，请随时给我发送电子邮件，当然，如果您发现任何错误或想贡献其他改进，非常欢迎拉取请求！

致谢

得益于巴斯夫的支持，该项目得以实现。

项目详情

发布历史发布通知| RSS订阅

这个版本

2.0.10

2021 年 10 月 28 日

2.0.9

2021 年 7 月 12 日

2.0.8

2021 年 6 月 3 日

2.0.7

2021 年 6 月 2 日

2.0.6

2021 年 6 月 2 日

2.0.5

2021 年 1 月 15 日

2.0.4

2020 年 11 月 30 日

2.0.3

2020 年 11 月 11 日

2.0.2

2020 年 11 月 10 日

2.0.1

2020 年 11 月 10 日

2.0.0

2020 年 11 月 7 日

1.1.3

2020 年 7 月 21 日

1.1.2

2020 年 2 月 28 日

1.1.1

2020 年 2 月 25 日

1.1.0

2020 年 2 月 24 日

1.0.0

2020 年 2 月 24 日

0.2.5

2019 年 5 月 12 日

0.2.4

2019 年 5 月 12 日

0.2.3

2019 年 5 月 11 日

0.2.2

2019 年 5 月 9 日

0.2.1

2019 年 5 月 9 日

0.2.0

2019 年 5 月 2 日

0.1.1

2019 年 1 月 23 日

0.1

2019 年 1 月 22 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

autofeat-2.0.10.tar.gz （25.6 kB 查看哈希）

已上传 2021 年 10 月 28 日 source

内置分布

autofeat-2.0.10-py3-none-any.whl (24.8 kB 查看哈希)

已上传 2021 年 10 月 28 日 py3

autofeat -2.0.10.tar.gz 的哈希值

autofeat-2.0.10.tar.gz 的哈希值
算法	哈希摘要
SHA256	`82c54c50f56bdf86ff8537e0846823eaab99a4e58b7ce3a3112748605df801e8`
MD5	`95942a46a9e49e3d09b4efdd4a693f49`
布莱克2-256	`eb01153f1752e67708200ff9f007157aca0be2fea54036b3eb0d3c96d7c96677`

autofeat -2.0.10-py3-none-any.whl 的哈希值

autofeat-2.0.10-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`379d57d062f51c909c366512e412dd9f6bb687d0056c64da91219bd0d6b54fd0`
MD5	`48a9640a339de8ebe9eb64f958f8b864`
布莱克2-256	`83491b48c7503316a5011e6a78e5a14c386c5a17db7fb29fe8eea09b2afb3e95`

autofeat 2.0.10

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

`autofeat`图书馆

具有自动特征工程和选择的线性预测模型

安装

纸

致谢

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

autofeat 2.0.10

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

autofeat图书馆

具有自动特征工程和选择的线性预测模型

安装

纸

致谢

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

`autofeat`图书馆

发布历史发布通知| RSS订阅