pyCADD.Dance package
Subpackages
Submodules
pyCADD.Dance.common module
- class pyCADD.Dance.common.Dancer[source]
Bases:
object
Data analyzer for CADD 数据预处理及分析器
- class pyCADD.Dance.common.Evaluator(matrix: Matrix, label_col: str = 'activity')[source]
Bases:
object
模型性能评估器 仅适用于非神经网络模型
- add_clf(clf: Any, clf_name: str | None = None) None [source]
添加分类器实例到待评估的self.clfs字典属性中 同名分类器将被覆盖
Parameters
- clfAny
分类器实例
- clf_namestr
分类器名称 如为None则使用clf的__class__.__name__
- property gbt_default_params: dict
默认GBT参数空间
- property lr_default_params: dict
默认LR参数空间
- repeat_cv(n_repeats: int = 30, k_folds: int = 4, random_seed: int = 42, score_func: ~typing.Callable = <function roc_auc_score>, use_train_set_only: bool = False) dict [source]
对所有添加的分类器执行多重交叉验证
Parameters
- n_repeatsint
多重交叉验证的次数
- k_foldsint
交叉验证的折数
- random_seedint
随机种子
- score_funcCallable
评估函数 默认为roc_auc_score
- use_train_set_onlybool
是否只使用训练集进行交叉验证 如为False 则在交叉验证中使用完整数据集
Returns
- dict
评估结果字典 SCP为单构象结果 clf_cv_results为交叉验证结果
- property rf_default_params: dict
默认RF参数空间
- save_params(file_name: str, params: dict) None [source]
保存参数文件
Parameters
- file_namestr
参数文件名
- paramsdict
参数字典
- class pyCADD.Dance.common.Matrix(dataframe: DataFrame, test_size=0.25, random_seed=42)[source]
Bases:
object
结果矩阵
- classmethod from_csv(path, *args, **kwargs) Matrix [source]
从csv文件中读取结果矩阵
Parameters
- pathstr
csv文件路径
- classmethod from_pickle(path, *args, **kwargs) Matrix [source]
从pickle文件中读取结果矩阵
Parameters
- pathstr
pickle文件路径
pyCADD.Dance.core module
- pyCADD.Dance.core.calc_scp_score(X: ~pandas.core.frame.DataFrame, y_true: ~pandas.core.series.Series, lower_is_better: bool = True, score_func: ~typing.Callable = <function roc_auc_score>)[source]
获取单构象Performance计算ROC-AUC值
Parameters
- XDataFrame
数据特征
- y_trueSeries
标签
- lower_is_betterbool
评估指标是否为下降性指标
- score_funccallable
评估方法 即 sklearn.metrics 函数 默认为ROC-AUC
Return
- dict
{‘PDB’: SCP AUC}
- pyCADD.Dance.core.hyperparam_tuning(model, param_gird: dict, X: DataFrame, y: Series, scoring: str = 'roc_auc', cv: int = 5, n_jobs: int = -1, method: str = 'grid', save_dir: str | None = None, model_name: str | None = None)[source]
超参数调优
Parameters
- modelobject
需要调优的模型
- param_griddict
超参数网格
- XDataFrame
训练集
- ySeries
训练集标签
- scoringstr
评估标准
- cvint
训练集分割数
- n_jobsint
训练进程数
- methodstr
调优方法 * grid: 网格搜索 * random: 随机搜索
- save_dirstr | None
参数文件保存路径 为None则不保存
- model_namestr
模型名称
Return
- dict
调优后的模型参数
pyCADD.Dance.metrics module
Module contents
Data Analyzer for Computer-aid drug design