ABOUT ME

궁금한점/고칠점은 댓글에 남겨주세요

Today
Yesterday
Total
  • p value
    카테고리 없음 2022. 1. 26. 18:06

    https://en.wikipedia.org/wiki/P-value 

    "p 밸류는 확률" 으로 어떤확률이냐면,

    H_o (귀무가설)가 주어졌을때(참이라고 가정) 

    "알지못하는 분포 T" 가    

    t(관측된 값,검정통계량,귀무가설에 따른 분포로 계산된 값) 값보다 클 확률

    을 말합니다(right tail일 경우),

    이 p 값이 작을 경우 귀무가설은 거짓이 됩니다.

    The p-value is a function of the chosen test statistic {\displaystyle T}T and is therefore a random variable.

    p밸류는 테스트 통계량 T 를 뽑는 함수입니다. 그래서 p 밸류는 랜덤 베리어블(확률변수)입니다.

    통계적 가설은 정의에 따라 분포의 일부 속성을 기술하므로 귀무 가설은 해당 속성이 존재하지 않는 기본 가설입니다. 귀무 가설은 일반적으로 관심 모집단의 일부 매개변수(예: 상관관계 또는 평균 간의 차이)가 0이라는 것입니다. 우리의 가설은 X의 확률 분포를 정확하게 지정하거나 분포의 일부 클래스에만 속한다고 지정할 수 있습니다. 종종 우리는 데이터를 단일 수치 통계(예: T)로 축소합니다. 이 통계의 한계 확률 분포는 연구의 주요 관심 질문과 밀접하게 연결되어 있습니다.

    위,밑 사진들에서 p_X(x) 에서 x =1 일 경우, 0.6이 marginal probability 

    marginal ==>   차원 축소 와 연관 

    밑줄 그은것이 marginal probability 

     

     

     

    이 랜덤베리어블이 연속적일경우 pdf 는 [0,1]사이에 분포합니다 

    The lower the p-value is, the lower the probability of getting that result if the null hypothesis were true.

    p 값이 작을수록 귀무가설이 참일 확률 이 줄어듭니다(기각될 확률 높아집니다)


     

    Usually, 

    T는 테스트 통계량입니다.

    For the important case in which the data are hypothesized to be a random sample from a normal distribution, depending on the nature of the test statistic and the hypotheses of interest about its distribution, different null hypothesis tests have been developed. Some such tests are the z-test for hypotheses concerning the mean of a normal distribution with known variance, the t-test based on Student's t-distribution of a suitable statistic for hypotheses concerning the mean of a normal distribution when the variance is unknown, the F-test based on the F-distribution of yet another statistic for hypotheses concerning the variance. For data of other nature, for instance categorical (discrete) data, test statistics might be constructed whose null hypothesis distribution is based on normal approximations to appropriate statistics obtained by invoking the central limit theorem for large samples, as in the case of Pearson's chi-squared test.

    Thus computing a p-value requires a null hypothesis, a test statistic (together with deciding whether the researcher is performing a one-tailed test or a two-tailed test), and data. Even though computing the test statistic on given data may be easy, computing the sampling distribution under the null hypothesis, and then computing its cumulative distribution function (CDF) is often a difficult problem. Today, this computation is done using statistical software, often via numeric methods (rather than exact formulae), but, in the early and mid 20th century, this was instead done via tables of values, and one interpolated or extrapolated p-values from these discrete values[citation needed]. Rather than using a table of p-values, Fisher instead inverted the CDF, publishing a list of values of the test statistic for given fixed p-values; this corresponds to computing the quantile function (inverse CDF).

    p 값 테이블을 이용했었지만 지금은 CDF 를 invert 한 것을 사용하여 계산합니다.

    Conditional Cumulative Density Probability Function


    the null hypothesis  H_0 (귀무가설 H)

     is rejected if the p-value is less than a predefined threshold value

    ( 귀무 가설은 p 값이 미리정해놓은알파 값 보다 작으면 리젝됩니다(기각됩니다))

    ,which is referred to as the alpha level or significance level(앞절 수식) 

    알파는 T의 propotion 을 나타내며 , 그것은  T(귀무가설을 주어진 채로 값을 뽑았는데, 그 분포) 의 가능한 모든 결과의 좁은 범위를 정의하여

    t (실제 값) 의 값이 그 범위 내에 있으면

    그 값이 우연히 발생했을 가능성이 거의 없다고 합니다. 


    Consider an observed test-statistic {\displaystyle t} from unknown distribution {\displaystyle T}. Then the p-value {\displaystyle p} is what the prior probability would be of observing a test-statistic value at least as "extreme" as {\displaystyle t} if null hypothesis {\displaystyle H_{0}} were true.

     

    알파 미리 설정(임계값)

     귀무가설이 참일 경우)

        관측된 테스트-통계량 t ( 알수없는 분포 T 에서 얻은)을 고려하자

        그리고, p 값은 사전 확률이다. t 만큼 극단적인 테스트-통계량이다. 

     

Designed by Tistory.