Statistics

· Statistics
Goolge Bigquery는 상당히 많은 기능을 지원한다. SQL부터 ML, 스케줄링, 데이터 분석 등 데이터가 들어가는 직군에 종사 한다면 모를 수가 없다. 그만큼 편하고 쉽다. 처음 접한다고 어렵게 생각 했던게 부끄러울 정도로 안되는 것보다 되는 것이 많다. Bigquery란? 더보기 BigQuery는 머신러닝, 지리정보 분석, 비즈니스 인텔리전스와 같은 기본 제공 기능으로 데이터를 관리하고 분석할 수 있게 해주는 완전 관리형 엔터프라이즈 데이터 웨어하우스입니다. BigQuery의 서버리스 아키텍처에서는 SQL 쿼리를 사용하여 제로 인프라 관리에 관한 조직의 가장 큰 질문을 해결할 수 있습니다. BigQuery의 확장 가능한 분산형 분석 엔진을 통해 테라바이트급 쿼리를 초 단위로 수행하고 페타바이트..
· Statistics
Auto Arima Summary Table 설명 ARIMA 모형을 다루면 꼭 봐야하는 Table이다. 한번의 시행으로 모형을 정한다면 Auto ARIMA의 결과를 보지 않을 수 있으나 통계적 모델인 만큼 유의성 검증이 필요하다. 기본적인 설명 ARIMA는 차분과 이동평균선 모형의 차수로 y = a(0) + p(0) + a(1) + p(1) ... 이런식으로 단순한 모형에서 복잡한 모형으로 만들어간다. (1) 위의 Summary Table에서 중요한 점은 Log Likelihood의 값이 내가 이전 시행 모델 보다 커졌는지가 중요하다. 우도의 결과가 보통 Positive Value 이지만 음수여도 꼭 모델이 틀린 것은 아니다. 이 의미는 "모델이 data에 fit한지 보는 것" 이다. (클 수록 잘 fi..
· Statistics
K-NN (k-최근접이웃) *안정적이지만 편향된 선형 모델 vs 덜 안정적이지만 덜 편향적인 모델 *어떠한 x든지 이에 가까운 관측치의 이웃을 꽤 많이 찾고 평균을 구할 수 있다. -> 하지만 high dimension에서 이 방식은 통하지 않는다. curse of dimensionality(Bellman, 1961) p차원 유닛의 초입방체내 균일하게 분포된 입력값에 관한 K-NN 모델 가정 $e_{r}$= $r^\frac{1}{p}$ 고차원에서 표집의 다른 중요한 점은 모든 표본 지점들이 표본의 모서리와 가깝다는 것이다. N개의 데이터 지점이 있을 때 원점으로부터 가장 가까운 데이터 지점의 중앙값의 거리를 $d(p,N) = (1 - \frac{1}{2}^(1/N))^(1/p)$ N=500, p=10 d..
다했다
'Statistics' 카테고리의 글 목록