Skip to content

常用

异常值标准

3倍标准差 如果数据分布比较均匀,且异常值不多,可以选择标准差方法;

四分位数(Q3=75%)、下四分位数(Q1=25%)和中位数(Q2=50%) [Q1-1.5×(Q3-Q1), Q3+1.5×(Q3-Q1)] 如果数据分布不均匀,且存在较多异常值,可以选择箱体方法。

抽样

抽取样本服从什么分布?

根据中心极限定理:若给定样本量的所有样本来自任意整体,则样本均值的抽样分布近似服从正态分布,且样本量越大,近似性越强。

当样本量大于30的时候符合中心极限定理,样本服从正态分布;当样本量小于30的时候,总体近似正态分布时,此时样本服从t分布。样本的分布形态决定了我们在假设检验中采用什么方法去检验它。 抽样方法

推断统计/基本步骤

推断统计顾名思义就是从样本特征推断总体的特征。而这个推断的过程即所谓的假设检验。

这个过程首先需要明确问题是什么?然后确定证据是什么?判断标准是什么?

最后做出结论。即对应假设检验的几个步骤:

1.提出原假设(H0)和备选假设(H1)

2.确定显著性水平(原假设为正确时,人们把它拒绝了的概率)

3.选择检验统计量

4.建立决策准则

5.下结论

参照【p值.png】 p值

无偏估计

为什么样本方差的分母是n-1? 最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息是不相关的。 而你的第n个数已经可以由前(n-1)个数和均值来唯一确定,实际上没有信息量。 所以在计算方差时,只除以(n-1)。

因子入库标准

  • 需查看单因子值的稳定性(非因子与收益的相关性)model.access.stabilization.loop此方法可查看

ic

  • IC绝对值为1,表示该因子选股单调性好。绝对值越小单调性越差 当 I C > 0.05 时,就可以视为有效因子,当 I C > 0.1,就可以认为是很好的阿尔法因子了

ir

  • IR大于0.5时,因子稳定获取超额收益的能力较强 一般绝对值0-0.2没有先关性,0.2-0.4弱相关,0.4-0.6中等相关,0.6-0.8强相关

偏度

取值范围为(-∞,+∞) 当偏度<0时,概率分布图左偏(峰左边x轴长于右边) 当偏度=0时,表示数据相对均匀的分布在平均值两侧,不一定是绝对的对称分布 当偏度>0时,概率分布图右偏(峰右边x轴长于左边)

峰度

峰度的取值范围为[1,+∞) 完全服从正态分布的数据的峰度值为 3 峰度值越大,概率分布图越高尖,峰度值越小,越矮胖

因子入库条件

与收益较好的因子时序的相关性<0.4-0.5(对于中低频截面0.4可能还是有点高,高频的话0.8可能都行)(如果与相关性大于阈值,但收益高于以入库的。则去除以入库的,采用新的因子) 分层为5:多头超额年化>0.05,多空年化>0.15 ic>0.02

测试下rolling sharpe、sortino、max dd、turnover、signal autocorrelation

标准差与分布

  • 正太分布标准差为1,均值为0
  • 标准差为1,均值为0,不一定是正太分布

  • 正负1倍标准偏差的概率 =68.3%

  • 正负2倍标准偏差的概率 =95.5%
  • 正负3倍标准偏差的概率 =99.7%

  • 箱体图(box)一般定义 1.5*IQR(25%-75%)上下外的值为异常值

  • 密度图(kde)
  • 直方图(hist)

相加/根号定理

n个标准正太分布相加,除以根号下n。的结果也为标准正太分布

(值-均值)/标准差的意义

消除量纲影响,保留原有分布,标准差为1,均值为0

均值/标准差的意义

用于不同单位的标准差【离散度】比较

标准差

反映的是一个数据集的离散程度,值越大,越离散,即个体间差异越大 sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n)

标准误差

标准误差简单理解即是对平均数求标准差 比如一次实验会得到一个平均数,多次实验得到多个平均数,标准误差即是对这些平均数求标准差。

实际意义即是用来表示样本均值与总体均值的离散程度,标准误越小,样本均值和总体均值差距则越小,反之越大。 标准误差用于预测样本数据准确性 ,标准误越小,样本均值和总体均值差距越小,样本数据越能代表总体数据。

标准误差= 样本标准差/sqrt(n)= sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n(n-1))/sqrt(n)

标准差与分布相关实验.py