Biostatistics Q&A

By TurtleIzzy

以下都是个人理解。欢迎各位拍砖。

描述


  • 统计学干什么?
    • 研究总体和样本的关系。
    • 研究对象是总体。我们只能通过实验去了解,而实验有误差。统计通过有误差的实验结果去(样本)获得真实的总体情况。
  • 怎么看数据
    • 画图。茎叶图,Histogram都可以。
    • 一眼就知道有没有聚集性,偏不偏,正不正太。
  • 常见的参数描述有什么特点?
    • 表现集中趋势
      • 均值(mean)
        • 优点:利用所有信息。
        • 缺点:受到极端值影响大。
        • 适合:具有中心聚集感觉的数据。
      • 中位数(median)
        • 优点:不受极端值影响
        • 缺点:信息利用少
        • 适合:有极端值的数据
    • 表现离散趋势
      • 标准差(sd)
        • 优点:量纲和测量值一致,物理意义直观。
        • 缺点:一般和均值大小正相关。受极端值影响大。
        • 适合:表现数据与均值的偏离程度。
      • 变异系数(CV=sd/mean)
        • 优点:无量纲。
        • 缺点:提供的信息比标准差少。
        • 适合:比较多组均值差距较大或者量纲不同的数据的分散趋势。
      • 四分位间距(Q=75%分位数-25%分位数)
        • 优点:不受极端值影响。
        • 缺点:信息利用少。
        • 适合:有极端值的数据。
      • 标准误(se = sd/√n)
        • 优点:小。画在图上特别好看。
        • 缺点:没有统计学意义。只能拿来算均值置信区间。
        • 适合:发文章时用来骗人。
  • 标准差(sd),标准误(se),均值置信区间(CI)?
    • 标准差描述的是数据的离散程度大小。
    • 均值置信区间描述的是根据现有样本估计得到的,总体均值的范围。
    • 标准误是这三个之中最小的。
  • n还是n-1
    • 不会考。实际应用中如果你用n和n-1得到的结果很不一样,你就该增大数据量了。
    • 如果还是好奇的话:
      • 总体方差的计算(手头已经得到总体的全部数据),分母是n。
      • 通过样本对总体方差的估计(也叫样本方差),分母是n-1。直观理解:因为样本是总体的冰山一角,可以想象总体的方差会比样本的大。所以除以n-1。
    • 有关自由度请参考以下几个链接,引用一下第一个链接的第一句话。
      • http://www.tufts.edu/~gdallal/dof.htm
      • http://www.wisegeek.com/what-is-degree-of-freedom.htm > One of the questions an instrutor dreads most from a mathematically unsophisticated audience is, "What exactly is degrees of freedom?"
  • 估计和检验有什么区别和联系?
    • 估计和检验都可以回答一个问题:「A和B是不是一样」。这里的A和B可以是参数,也可以是分布等。
      • (区间)估计是计算参数可能的范围。如果A的参数和B的参数的范围完全不重叠,那么说「不能认为A和B一样」;否则「不能认为A和B不一样」。
      • 检验只回答「A和B是不是一样」这个问题,不估计参数范围。会得到一个p值。
    • 检验结果不具有统计学意义时,可以依靠估计来阐释数据。
      • 想看例子请参考Intuitive Biostatistics
  • 为什么不用估计代替检验?
    • 因为很多东西估计不出来,只能检验。

估计


  • 估计在干什么?
    • 回答一个问题:「从目前样本来看,总体的参数a大概在什么范围」
    • 样本量越大,置信区间(CI)越窄
    • 如果a的95%置信区间是[5, 6],不能说a落在[5, 6]的概率是95%,而应该说[5, 6]覆盖a的概率是95%。因为a是总体的参数,不是随机变量。
  • μ和m,σ和s有什么区别?
    • 希腊字母(μ,σ)等用于表示总体参数
    • 罗马字母(m,s)等用于表示样本参数
  • 置信区间公式怎么记?
    • SE(标准误) = s/√n
    • 均值:m ± z·SE
      • z是根据显著性水平确定的。例如α = 0.05时z = 1.96; α = 0.01时z = 2.58。
      • 如果样本少要用t分布估计,则把z用t代替。根据自由度和α查表即可。
    • 阳性率:p ± z·SE
      • p是阳性率
      • sd = √p(1-p)
    • 其他别记了,看书吧。

检验


  • 假设检验在干什么?
    • 回答一个问题:「A和B是不是一样」
    • 问题的答案:「不能认为A和B一样」或者「不能认为A和B不一样」。「不能认为A和B一样」与「认为A和B不一样」相同,而「不能认为A和B不一样」与「认为A和B一样」不同。
  • 怎么检验?
    1. 算检验量
    2. 查临界值
    3. 说答案
    4. p值?那是什么能吃么?
  • 一眼告诉我正态性怎样?
    • 正态分布大于 95%的数据会落在μ±2σ之间,根据这个可以粗略判断。
    • 老师说:t检验非常棒,只要均值比sd的一半大,放心用吧。
  • t检验,卡方检验和F检验都检验什么?
    • t检验:均值是否一样
    • 卡方检验:组成是否一样
    • F检验:方差是否一样
  • p值是什么意思?
    • 假设检验的基础是小概率事件在一次实验中几乎不发生
      • p值是「A和B实际上一样,而偶然抽出当前样本的概率」
      • 如果p值很小,由刚才的假设,我们认为「A和B实际上一样」这种事情不太可能是真的。
    • p值的大小只能说明现有证据的强度,跟A和B的差距大小没有关系。
      • “显著”二字是统计学措辞,跟疗效是否“显著”没有关系。统计学的显著是“证据强度足够强”的意思,“疗效显著”是“A和B差距足够大”的意思。
  • 多组数据为什么不能多次检验?
    • 因为会提高假阳性的发生率。
      • “小概率事件在一次实验中几乎不发生”,但“多个小概率事件至少发生一个”的概率并不低。
  • 一句话告诉我ANOVA是什么?
    • 回答「多组数据的均值是否一样」这个问题,可以理解为t检验的推广。
    • 答案:「各组数据均值不全相同」「不能认为数据各组均值不全相同」。
  • ANOVA的想法是什么?
    • 有好几种处理方式,我们想知道他们的效果是否一样。
    • 对于每种处理,我们都进行多次试验。试验有误差。
    • ANOVA可以将组内的随机误差组间的系统差异分开。
    • 但是ANOVA只知道几种处理方式是否都一样,而不知道哪些和别的不一样
  • 事后比较是什么?
    • ANOVA说几种处理方式不全相同之后,用来决定哪些和别的不同。
    • SNK-q:所有组别两两比较
    • Dunnet-t:比较各处理组和对照组
    • LSD-t:比较指定的几组之间的差异。
2013-06-19 14:40358