대역폭이 넓을수록 분포가 더 매끄럽게 처리됩니다. 또한 데이터를 -60분에서 120분으로 제한했지만 밀도 플롯은 이러한 한계를 넘어선다는 것을 알 수 있습니다. 이는 밀도 플롯의 한 가지 잠재적인 문제입니다: 각 데이터 요소에서 분포를 계산하기 때문에 원래 데이터의 범위를 벗어난 데이터를 생성할 수 있습니다. 이것은 우리가 원래 데이터에 존재하지 않았던 x 축에 불가능한 값으로 끝날 수 있음을 의미 할 수 있습니다! 참고로 각 데이터 포인트에 그려진 분포와 전체 분포를 변경하는 커널도 변경할 수 있습니다. 그러나 대부분의 응용 프로그램의 경우 기본 커널, Gaussian 및 기본 대역폭 추정이 매우 잘 작동합니다. 일반 모집단의 무작위 표본의 경우 가우시안 스무딩을 위한 최적의 대역폭은 1.06×sy/n1/5이지만 단점에도 불구하고 히스토그램(및 주파수 다각형)은 여전히 매우 인기가 있습니다. 이 에 대한 하나의 이유는 대부분의 사람들이 훨씬 쉽게 해석하고 지터링 점도표, 누적 분포 또는 QQ 플롯보다 비교 찾을 수 있습니다. 히스토그램의 또 다른 중요한 장점은 클래스 간격 내에서 관찰된 값 빈도를 합산(또는 평균화)하여 각 간격 내의 미세 구조가 제거된다는 것입니다. 불행히도 이렇게 해도 클래스 간격 간의 샘플링 변형이 제거되지 않으므로 작은 샘플이 있거나 많은 클래스 간격을 사용하는 경우 문제가 발생합니다. 또한 클래스 간격은 불연속적이고 임의적이기 때문에 모집단 분포에 대한 편향된 추정을 제공합니다. 또한 클래스 간격이 넓을수록 더 많은 정보가 손실됩니다.
단일 변수를 플로팅하는 것은 쉬워야 할 것처럼 보입니다. 데이터를 효과적으로 표시하는 것이 얼마나 어려운지 한 차원만 으로도? 오랜 시간 동안, 나는 값의 위치, 데이터의 확산 및 데이터의 모양 (정상, 왜곡, 바이 모달 등)을 보여주는 간단한 히스토그램을 사용하여 얻었습니다. 그러나 최근에 히스토그램이 실패하고 내 음모 지식을 넓힐 때가 되었다는 것을 알았습니다. 나는 데이터 시각화에 우수한 무료 온라인 책을 발견하고, 기술의 일부를 구현했다. 내가 배운 모든 것을 자신에게 유지하는 대신, 나는 히스토그램에 대한 파이썬 가이드와 대단히 유용한 밀도 플롯을 입증 한 대안을 작성하는 것이 도움이 될 것이라고 결정했습니다. 마지막으로, 스플라인 F의 미분, f = DF는 히스토그램의 스무딩 버전이다. geom_histogram을 사용하는 기본 설정은 이상적이지 않습니다: 분석은 대표 점의 몬테 카를로 샘플로 변수의 불확실성을 나타냅니다. 확률 밀도 뷰를 포함한 다양한 불확실성 결과 뷰는 모두 결과 창이 표시될 때 기본 샘플에서 파생됩니다. 분석은 기본 샘플에서 확률 밀도의 추정값을 얻기 위한 두 가지 기본 방법이 있습니다: 히스토그램 및 커널 밀도 스무딩.
Published by: gianni57
Comments are closed.