运维开发网
广告位招商联系QQ:123077622
 
广告位招商联系QQ:123077622

pandas.DataFrame.sample随机抽样

运维开发网 https://www.qedev.com 2021-03-31 10:40 出处:51CTO 作者:PythonEducation
pandas.DataFrame.sample随机抽样

在大数据时代,我们建模数据量可能达到千万级甚至TB。大数据在给投资者介绍时很必要,容易得到融资。但对于数据科学家来说,有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。如果用全量数据建模或数据分析,成本太高,需要高性能服务器存储数据。这对中小公司来说不现实。

最经典案例是二战中德军坦克问题。在第二次世界大战期间,西方盟国不懈地努力确定德国的生产规模,并以两种主要方式进行处理:常规情报收集和统计估计。

pandas.DataFrame.sample随机抽样

英国人用统计学方法估计德国坦克数量和德国真实坦克数量非常接近,远比情报部门数据准确。

pandas.DataFrame.sample随机抽样

python的pandas中自带有抽样的方法。这是相关官网文档介绍:

pandas.DataFrame.sample - pandas 1.2.3 documentationpandas.pydata.org

pandas.DataFrame.sample随机抽样

输入参数说明

pandas.DataFrame.sample随机抽样

pandas.DataFrame.sample随机抽样

欢迎各位学习更多数据分析知识(博主录制)

https://edu.51cto.com/sd/8faab

pandas.DataFrame.sample随机抽样

扫码领视频副本.gif

0

精彩评论

暂无评论...
验证码 换一张
取 消