ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [074:190429m] 기술통계,추론통계/ 데이터분석 검정비법/ 표본추출비법/ 분할표(table,xtabs)/ 기술통계보고서/ 카지금곱분석/ 적합도검정실습(주사위, 완두콩) 봐봐요
    카테고리 없음 2020. 2. 17. 12:23

    - 기술통계: 수집한 데이터의 주요 특성을 분석 및 기술하는 통계비결 ex)평균치(mean), 중위수(median), 최빈수(mode), 최대치, 최소치, 범위(range), 분산(variance), 보통편차(standard deviation) 등-추론통계: 수집한 데이터에서 표본(sample)을 추출, 특성을 파악하여 모두 데이터(모집단)의 특성에 초반화할 수 있는지를 판단하여 모집단의 특성을 추정하는 것을 목적으로 한다. 간단하게 표본을 기초로 향후의 초를 예측하는 것에 초점을 둔다.비밀선거 시즌 후보자 지지율 조사(참조: http://www.playnexacro.com/index.html#show:article))


    >


    ​​​


    (하나)척도(자료가 수집될 때 관찰된 현상에 의해서 일의 값을 하는 그 당시 갖기 위해서 사용되는 측정의 수준)에 의한 분류 ​ 하나)의 명목 척도(nominal scale)– 척도의 명칭만 의미 있는 것(예)결혼 상태에 대한 코드:{미혼=한 기혼자=2, 이혼=3, 사별=4}2)순서 척도(서열)(ordinal scale)– 명칭 및 순서가 의미를 갖는 것(예)성적의 등급-{poor=하나, fair=2, good=3, very good=4, excellent=5}3)간격 척도(도우은강)(interval scale)– 명칭, 절차 및 간격이 의미를 갖는 것(예)온도 4)비율 척도(ratio scale)-명칭, 순서, 간격 및 경쟁률 모두 의미를 갖는다. 이들 척도의 경우 이른바 '절대 원점(absolute zero point)'이 정의된다.(예)키, 몸무게, 재산, 월 소득, 연령, 휘발유 1리터당 주행 거리, 텔레비전 시청률 등*측정 척도는 양적 분석을 위한 통계 분석의 비결을 결정하는 중요하다. 즉 명목척도와 서열척도로 측정된 변인은 비모수 통계(nonparametric statistics)를 적용하고, 등간척도와 비율척도로 측정된 변인은 t검정이나 상관관계 분석, 변량 분석과 같은 모수 통계(nonparametric statistics)를 적용한다.​ ​(2)독립 변수와 종속 변수로 추론 및 검정을 위한 데이터 분석 시 분석 모델 선택에 영향을 주는 주된 구분 기준으로 사용될 것으로 종속 변수(반응 변수. 결과변수. 어떠한 영향을 받는다)와 독립변수(설명변수, 원인 변수. 종속변수에 따라 영향을 준다)가 있다. 두 변수 사이에는 원인과 결과의 관계를 가진다.


    표에서 (노란색 배경: '가설 검정', 주황색 배경: '머신 러닝')으로 볼 수 있다.* 한쪽반적으로 독립변수가 연속형 자료이면 공변량(Covariance)이라 부르고 카테고리형이면 요인(Factor)이라 부르기도 합니다. ​ ​(3)그이무카솔, 대립 가설, p-value​ 하나)의 통계적 추론:어떤 집단(모집단)의 특징을 알고 자료 조사를 진행하는데 집단의 규모와 성격에 의해서 차이는 있지만 대개의 경우에 모집단 전체를 대상으로 자료 조사를 하는 것은 쉽지 않다. 따라서집단의특징을간단히파악하기위해모집단의한부자료만을표본으로하여추정조사를한다. 추정은 점 추정과 구간 추정으로 나뉜다. 예를 들면 키 하나 75는 유동적입니다. 구간추정 시 신뢰구간설정이 중요한데 아무리 신뢰구간이라도 모수가 신뢰구간 안에 포함되지 않을 확률은 항상 존재하는데, 이 확률을 알파라고 합니다. 이때 신뢰 구간은 xy축에서 y축을 기준으로 양쪽을 다루게 되므로 α/2이다. 모수가 구간에 포함되지 않을 확률이 α이므로 모수가 구간에 포함될 확률은 -이 된다. 이를 신뢰 구간이란 하나 발죠크에 90%, 95%, 99퍼센트의 확률을 많이 사용합니다. 2)의 통계적 가설:세상에는 관념(정설)이 있지만 그것 자체가 항상 정답은 없고, 대개의 사람들이 인정하는 소견입니다. 그러나 이러한 소견은 영원하지 않고 불완전을 포함하고 있지만 시간이 지날수록 이러한 불완전을 해결하기 위한 새로운 소견, 즉 가설이 생겨나게 된다. 발발한 가설은 세상에 인정받지 못하고 사라질 수도 있고, 기존의 정설을 대신해 새로운 정설로 인정되기도 한다.이는 다시 새로운 가설에 의해 사라질 기회도 있다. 3)가설 검정:하나 밴 하나 된 사실은 쉽게 바뀌지 않는다. 그리고 어떤 사실을 주장하려면 한 가지 반화된 사실이 틀렸다는 것을 증명해야 합니다. 이것이 가설검정을 실시하는 이유다. 모수에 관한 주장을 가설로 정립해 가설이 올바른지를 자료로 판단하게 된다.이때는 물론 확률을 이용합니다. 4)그이무/대립 가설:추론 통계에는 현재의 정설을 "그이무카솔(H0)"으로서 새로운 가설을 "대립 가설(H한가지)"라는 이 두가지 가설 중 어느 것이 더 타당한지를 판단한다.추론 통계에서 "검정 통계량은 표본 통계량으로부터 모수는 "이렇게 될 것입니다"라는 가설을 추정하는 것으로, 언제라도 틀릴 확률이 있다."라고 하는 전제 조건을 가진다. 어떤 자료에 대해 하나 반적으로 인정되는 제한이나, 최근까지 정설에 대한 새로운 의견, 즉 아직 일반적이지 않은 가설을 수용 역시 기각하는 과정을 거치게 된다.​


    >


    ​+의 이해를 돕기 위한 추가 참조:https://kkokkilkon.tistory.com/36


    ​​


    >


    >


    >


    >


    ​​​


    >


    >


    >


    >


    *-margin.table():행 또는 열 합을 구하다 함수(하나-행, 2-열)-prop.table():빈도의 비율을 구할 때 사용하는 함수(하나-행, 2-열)​ ​ ​ ​


    >


    - table(): 데이터 빈도를 출력하는 함수


    >


    dim(): 데이터 프레임 길이를 관측할 때 사용하고 행과 열의 개수를 모두 출력합니다.- str(오브젝트): 데이터 구조, 변수 수, 변수명, 관찰치 수, 관찰치 미리보기


    >


    - summary( ): 데이터의 기초 통계량을 산출하여 표시한다. (평균, 그냥 편차, 중위수 등)


    >


    -unique():중복된 값은 삭제 후 유 1한 값만 출력


    >


    barplot(x): x 데이터 결과를 그래프로 표현합니다.


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    - kurtosis(): 정규 분포에 대한 꽃봉오리의 높이를 조사하는 측도


    >


    >


    ​​​


    -정규 분포 표 참고:https://math7.tistory.com/48-카직무고프 분포 표 참고:https://math7.tistory.com/58​-카직무고프 검정 통계량의 공식:


    >


    *참고: https://support.minitab.com/ko-kr/minitab/ 하나8/help-and-how-to/statistics/tables/how-to/chi-square-goodness-of-fit-test/methods-and-formulas/methods-and-formulas/(하나) 카이승분석(교차분석) 기본 이해


    >


    ​-방법 1)의 결과 X2=3, 여자 기에가프 3.84->그이무카솔 채택


    ​-방법 2)p-value사용


    >


    -Chi^2=3, d.f.=최초의 p=0.08326452-0.083(유의 확률치)>0.05(95Percent신뢰 확률에서의 유의 수준)-결론:허용할 수 없는->그이무카솔 채택-밴 보프쵸쯔과 방법 2의 결과는 움직이는지이다.-방법 2를 사용하면 밴 보프쵸쯔에 비해서 그다지 고생하고 결과를 도출할 수 있다.​ ​ ​(2)교차 분석(X 타고 보람 스퀘어):Pearson's Chi-squared test-두 불연속 변수(카테고리형)간의 상관 관계를 측정하는 방법-이 방법은 그이무카솔을 세우고 교차 분석을 통하여 기대 빈도를 계산한 뒤 관찰 빈도가 유의하고 있는지 확인-변인의 수에 의해서 하나원, 이원 카이 제곱 분석이 있다. ​(2-최초의 하나원 카이 제곱:쵸쯔게의 대변인(집단, 구)을 대상으로 검정 실시-교차 분할 표를 사용하지 않는다.-적합도 검정:어떤 조건에서 기대되는 빈도에 관측 빈도가 어느 정도 과인 적합한지 조사 ​ ​-​의 적합도 검정실 스프쵸쯔)사이코로하그와잉룰 60번 던져서 나 온 경우의 수가 다소움 같다. 카이제곱검정을 실시하라.


    >


    <해석 노하우>


    X-Squared 값이 임계값의 오른쪽에 있으므로 귀무가설을 기각합니다.■결론: 현재 사용 중인 주사위는 게임에 적합하지 않다. ​<해석 방법 2>(p-value=0.0일 439)<0.05이므로 ∴ 그이무카솔을 기각하며 대립 가설을 채택합니다. ​-​의 적합도 검정 실습 2)멘델의 완두 콩 점검 결과


    >


    ∴(p-value=0.9254)>0.05이므로 그이무카솔을 채택합니다.<해석>멘델의 완두 콩 실험 결과, 완두 콩의 모양과 색깔의 2대 유전의 비율은 9:3:3:하나였다 ​ ​ ​


    댓글

Designed by Tistory.