资讯中心 Info
当前位置:爱尚教育 > 资讯中心 >
sk-learn之数据集及数据集的划分
发布日期:2021-09-08 阅读次数:
scikit-learn 是基于 Python 语言的机器学习工具。
 
优势:
  • 简单高效的数据挖掘和数据分析工具
  • 可供大家在各种环境中重复使用
  • 建立在 NumPy ,SciPy 和 matplotlib 上
  • 开源,可商业使用 - BSD许可证
 
scikit-learn常用数据集获取方法
 
  • sklearn.datasets.load_XX():获取小规模数据集
  • sklearn.datasets.fetch_XX():加载大规模数据集
  • 返回值load和fetch返回的数据类型是sklearn.utils.Bunch(字典格式)
    •   data:特征数据,[样本 * 特征值]的二维ndarray数组
    •   target:标签数组,一维ndarray数组
    •   DESCR:数据描述
    •   feature_names:特征名称
    •   target_names:标签名称

 

数据集划分

 
机器学习一般将数据集划分为两个部分:
 
  • 训练数据:用于训练、构建模型,划分比例:70% 80%
  • 测试数据:在模型评估时使用, 划分比例:30% 20%
  • sklearn.model_selection.train_test_split(arrays, *options)
    •   x数据集的特征值
    •   y数据集的目标值
    •   test_size测试集的大小,float类型
    •   返回 训练集特征值、测试集特征值、训练集目标值、测试集目标值