各种 scikit-learn 扩展
项目描述
关于
scikit_ext包包含各种 scikit-learn 扩展,完全建立在sklearn基类之上。该软件包分为两个模块: estimators 和 scorers。完整的文档可以在 这里找到。
安装
PyPI 上的包索引要安装:
pip install scikit-ext
估算器
MultiGridSearchCV : 扩展到本地 sklearn GridSearchCV ,用于多个估计器和 param_grids。接受估计器和 param_grids 的列表,遍历每个为每个估计器/param_grid 拟合一个 GridSearchCV模型。选择最适合的GridSearchCV模型。继承 sklearn 的 BaseSearchCV类,所以属性和方法都类似于 GridSearchCV。
PrunedPipeline:对原生 sklearn管道的扩展,旨在用于具有矢量化步骤和特征选择步骤的文本学习管道。扩展不是记住所有矢量化词汇表元素并在预测时选择适当的特征,而是在拟合后修剪词汇表,只包括最终将在管道中稍后应用的特征选择过滤器中幸存下来的元素。这减少了内存并改善了预测延迟。预测将与使用经过训练的Pipeline模型做出的预测相同。继承了 sklearn 的Pipeline类,所以属性和方法都和Pipeline类似。
ZoomGridSearchCV:对原生 sklearn GridSearchCV的扩展。适合多个GridSearchCV模型, 每次迭代后更新param_grid 。更新查看每个网格键的成功参数值。创建了一个新的值列表,该列表扩展了以先前拟合的最佳性能值为中心的搜索值的分辨率。这允许标准网格搜索过程从每个参数的少量遥远值开始,并随着超参数搜索空间的性能更好的角落变得清晰而放大。
IterRandomEstimator:元估计器主要用于无监督估计器,其拟合模型可能严重依赖于任意随机初始化状态。它最适合用于使用fit_predict方法的问题,因此用于预测的唯一数据将是与模型拟合的相同数据。
OptimizedEnsemble:优化的集成类。将根据指定的输入参数为给定的集成估计器找到最优的n_estimators参数。
OneVsRestAdjClassifier:One-Vs-Rest 多类策略。调整后的版本是一个自定义扩展,它使用更灵活的方法覆盖继承的 predict_proba方法,允许对预测概率进行自定义归一化。任何可以直接传递给sklearn.preprocessing.normalize的 norm 参数都是允许的。此外,norm=None 将跳过标准化步骤 alltogeter。要模仿继承的OneVsRestClassfier行为,请设置 norm='l2'。所有其他方法都继承自 OneVsRestClassifier。
得分手
TimeScorer:使用估计器的估计预测延迟得分。
MemoryScorer:使用腌制估计器对象的估计内存进行评分。
CombinedScorer:通过对多个得分者的得分进行平均来组合得分。
cluster_distribution_score:评分函数,对跨类的结果集群分布进行评分。更均匀的分布表示更高的分数。
执照
该项目在 MIT 许可下获得许可 - 请参阅 LICENSE 文件了解详细信息