点击上方关注,All in AI中国 根据维基百科,以法国数学家SiméonDenisPoisson命名的泊松分布(Poisson Distribution)是一个离散概率分布,表示如果这些事件以已知的恒定速率发生,则在固定的时间或空间间隔内发生给定数量事件的概率。 让我们了解这究竟是什么意思。 环境设置 清理 加载库 数据 在本练习中,我一直在寻找FIFA比赛数据,并使用我们朋友在谷歌(谷歌数据集搜索)上的最新资源,我发现这个惊人的数据集国际足球比赛结果是从1872年到2018年的记录。这是所有足球的数据集1872年至2018年的比赛,总共39,669场!(数据集传送门:/martj42/international-football-results-from-1872-to-2017) 探索 看起来数据是完整和整洁的。让我们一起去看一些有趣的发现 数据从1872年11月30日到2018年7月10日。 最大home_score值为31,最大off_score为21?! 大约25%的比赛是在中立的区域进行的。这些都是世界杯比赛吗? 让我们生成一些更有趣的功能 Poisson分布何时适用? 要使一个随机变量k是泊松,它需要保持以下4个条件(维基百科) k是事件在一个区间内发生的次数,k可以取值0,1,2,....即,k需要是整数(与更流行的高斯分布的主要区别,其中变量是连续的)。 一个事件的发生不会影响第二个事件发生的概率。也就是说,事件独立发生。 事件发生的速率是不变的。某些时间间隔的速率不能更高,而其他时间间隔的速率更低。 两个事件不可能在同一时刻发生;相反,在每个非常小的子间隔中恰好发生或不发生一个事件。 要么 实际概率分布由二项分布给出,试验次数远大于人们所要求的成功次数。 现在,让我们首先确定我们的k和间隔,看看它们是否符合上述4个条件。让我们探讨以下3个选项 - k是目标总数,间隔是1年。 k是目标总数,间隔是1天。 k是目标总数,间隔是1场比赛。 虽然我们保留了3个选项,条件1和2总是保持不变,即目标数总是一个整数,1个目标独立于另一个目标(大部分)。但我们需要探索每个选项的条件3和4。 1. k是目标总数,间隔是1年 正如我们在上面的2个图中看到的那样,即使平均目标数量多年来或多或少保持不变,但每年的目标总数增加,这违反了我们的条件3,因为它是泊松分布。此外,根据条件4,试验次数应该比成功次数大得多,在这种情况下也会违反,因为我们有147次试验(即数据集中的年数),成功次数约为1000或更多(即每年的总进球数)。 即使在逻辑上,我们也可以认为如果一年中有更多的比赛,那么那一年的总进球数将会更多,这违反了条件3。 基于上述情况,我们还可以假设我们的选项2(即1天内的目标总数),虽然与选项1相比更接近泊松分布,但它仍然不会因为更多的匹配数量日将意味着更多的目标将违反条件3,即事件发生的速率需要保持不变。让我们看一下选项2。 2. k是目标总数,间隔是1天 因此,尽管与试验次数(条件4满足)相比,成功次数相当低,但事件发生率不是恒定的,并且取决于选项2所进行的匹配次数。因此,我们拒绝将选项2作为泊松分布。 让我们最后探讨一下选项3。 3. k是目标总数,间隔是1匹配 找到了!我们每场比赛的进球数保持不变,每场比赛的进球数达到3个,平均进球数为2.935642。得分的目标数(’事件"是得分的目标)是一个整数,其中一个目标独立于另一个,并且匹配数(即试验)高于每个匹配的目标数(即成功)。因此,我们找到了泊松分布! 泊松分布事件的概率 现在我们有泊松分布,我们可以使用以下方法计算区间内发生k事件的概率: P(间隔中的k个事件)= e ^ { - λ} *λ^ {k} / k! λ=每个区间的平均事件数,即每场比赛的平均目标数 k =概率估计的事件数,即目标数 e =是欧拉数和 ķ! =是k的阶乘 根据我们上面的探索,我们将平均目标数量设为λ= 2.935642,我们可以将此值插入上面的公式,以计算在匹配中得分的任意数量目标的概率。 例如, P(比赛得分5球)= e ^ -2.935642 * 2.935642 ^ 5/5! P(比赛得分5球)= 0.09647195841 让我们用R来计算上面的内容。 ## [1] 0.09647199 我们看到与上面计算的值相同的值。 我们还可以看到概率随着事件数量的增加而变化,即目标数量从0增加到8。 总结 泊松分布的概率计算公式可以是任何人都可以用来评估事件发生概率的一个小技巧。它还广泛用于行业中,例如估计k个客户到达商店的概率,以优化资源或网页已经看到一些k更新的概率,通过搜索引擎抓取网页,以优化爬行的速率。