서 론
교정치료에 있어서 가장 중요한 것은 치료계획을 세 우는 것이며, 치료계획을 세우는 데 있어서 가장 중요한 것은 진단이라고 할 수 있다[1]. 정확한 진단을 위해 부 정교합 환자의 분류에 대한 연구가 많이 이루어졌다. 가 장 널리 쓰이는 Angle의 부정교합의 분류는 치열의 전 후방적 부조화만을 기준으로 하므로[2] 부정교합을 분류 하는 데 한계가 있어 포괄적인 해부학적 구조를 반영한 분류가 필요했다.
치의학을 포함한 생물의학(biomedicine)에서 다변량으 로 표현되는 여러 생물학적 데이터에 대하여 주성분 분석 (principal component analysis, PCA)과 같은 차원 감소 (dimension reduction) 기법이나 k-평균(k-means) 알고리즘 과 같은 머신러닝(machine learning, ML) 기법을 적용하려 는 시도가 있었다[3]. 예를 들어 치아 이동시 유전자 발현 프로파일(gene expression profile)에 대한 연구, 유전자 발 현 수준을 기저로 한 암의 하위유형분류(subtyping), 아미 노산 서열 또는 구조로부터 단백질의 상동관계를 파악하 는 연구 등에 이용되었다[4-7]. 이렇게 유사성을 기준으로 그룹을 나누는 군집 분석(cluster analysis)과 고차원 데이 터의 차원 감소를 통한 분석 기법은 생물학과 기초 치의 학 분야에서 이미 활발하게 이용되고 있다.
또한 이러한 접근은 부정교합 환자의 진단에 있어서 환자군의 분류에도 적용되고 있으며 주로 측모 두부계 측방사선사진 계측치(cephalometric measurements)에 대한 연구가 많이 이루어졌다[8-16]. 측모 두부계측방사선사진 의 분석은 치열 관계뿐만 아니라 골격적 요소인 두개저, 상악골의 위치, 하악골의 위치, 그리고 이들에 대한 치 열의 위치 관계 등을 포함하고 있어 구강 악안면 영역 의 해부학적 구조에 대해 포괄적으로 고려할 수 있다. 이들 과거 연구에서는 정상교합자, III급 부정교합자, II 급 부정교합자, 비대칭 환자, 전체 부정교합자를 대상으 로 환자군의 분류에 데이터 분석 기법들을 적용 하였고, 이를 통해 해부학적 구조물의 위치에 따라 단순 분류하 던 기존의 방법을 고도화 하였으며, 분류에 있어서 주요 하게 기여하는 해부학적 요소를 밝혔다.
그러나 지금까지의 연구는 주성분 분석을 적용하는 데 있어서 유의미한 주성분을 경험적으로 선택하였다는 한 계가 있고, 군집 분석에 있어서 환자 유형의 분류 및 아 분류에 대한 구조 연구가 부족했다. 이러한 부분들을 개 선하기 위해서는 주성분 분석에서 과학적 준거(criteria)의 적용이 필요하고, 다중 축적(multiscale)에서의 환자 분류 구조 및 기준에 대한 연구가 필요하며, 이를 위해 충분한 수의 표본에 대한 분석이 필요하다. 따라서 본 연구에서 는 이러한 부분을 보완하여 부정교합 환자군의 분류에 있 어서 주요하게 기여하는 해부학적 기준에 대해 연구하고, 이를 바탕으로 환자군의 분류 구조에 대해 보다 세밀하게 밝히고자 하였다.
연구 대상 및 방법
1 연구대상
본 연구는 조선대학교 치과병원 교정과에 내원하여 진단검사를 시행한 환자 중 만 16세 이상의 환자 1020 명(남자 415명, 여자 605명, 평균 나이 25.0세)을 대상 으로 하였다. 대상 선정 요건은 병리적 소견이 없고, 이전에 교정치료나 악정형 치료를 받지 않았던 환자로 하였다.
2 연구방법
본 연구는 조선대학교 치과병원 연구윤리위원회의 심 의를 거친 후 시행되었다. (CUDHIRB 1706 003) 실험군의 측모 두부계측방사선사진은 PM 2002 Proline (Planmeca, Helsinki, Finland)을 이용하여 촬영하였다. 촬영시 관전류 12 mA, 관전압 70~80 kV, 노출시간 0.8 ~ 1.6 초의 조건으 로 촬영하였고, 방사선 사진은 PACS (Picture Archiving and Communication System) 서버에 저장되었다.
1) 측모 두부계측방사선사진의 분석
측모 두부계측방사선사진에서 다른 연구[8, 12, 14, 15]에 서도 널리 사용되고 있는 값들을 계측하였으며, 이들은 Table 1과 같다. 계측에는 V-ceph 7.0 (Osstem, Seoul, Korea) 을 사용하였다.
2) 신뢰도 검증
연구에 사용된 측모 두부계측방사선사진의 계측시 조사 자 내 오차를 확인하기 위해 무작위로 20개를 추출하여 재 계측하였다. 얻어진 분석치를 소프트웨어(SPSS 20.0, IBM SPSS, Chicago, IL, USA)를 이용하여 통계처리하였다. 통계 학적 유의성은 0.05로 하였다. 계측값들의 신뢰도검정을 위 한 급내상관계수값은 0.949에서 0.999의 값을 보였다. 따라 서 두 번의 계측에서 모든 변수에 대하여 높은 신뢰도를 보임을 확인하였다. 달버그 식(Dahlberg formula)을 이용한 오차값은 각도를 측정한 값에서는 0.31~2.81°, 길이를 측정 한 값에서는 0.26~1.60mm이었다.
3) 데이터의 통계적 전처리 및 분석
분석에 앞서 각각의 변수에 대해 동일하게 분석할 수 있도록 N 명의 환자에 대한 38개의 계측값에 대해 통계 적 전처리 과정을 거쳤다. 먼저 각기 다른 단위를 제거 하여 무차원으로 만들고 계측치별, 남녀별 다른 기준을 보정하기 위해 한국인 남⋅녀 각각의 평균 및 표준편차 [17, 18]로 개별 데이터를 다음과 같이 표준화하였다. i 번째 환자의 j 번째 계측치 xij 는 해당 환자와 동일한 성별(k)의 한국인 평균 Xjk 와 표준편차 ∑jk로
와 같이 표준화하였다.
그 이후 특정 계측치의 표준편차가 상대적으로 클 경우 분석에 있어서 다른 계측치보다 과도하게 큰 영향력을 주게 되므로 이 효과를 제거할 필요가 있고, 또한 주성분 분석에 있어서도 상관 행렬을 얻기 전에 필요한 과정으로, 각각의 표준화된 계측치 에 대해 전체 환자의 데이터의 평균 와 표준편차 로 다 시 표준화하여서
와 같이 전처리된 데이터를 분석에 활용하였다. 이렇게 전처리된 환자 데이터의 남녀의 차이에 대해서는 독립 t- 검정을 시행하였으며 통계학적 유의성은 0.05로 하였다.
4) 주성분 분석과 무작위 행렬이론(random matrix theory, RMT)
빅데이터 분석에 있어서 차원 감소는 주요한 접근 방 식 중 하나로, 고차원 데이터를 저차원으로 옮겨서 시스 템의 특성을 분석하고 시각화하는 시도는 다양한 분야 에서 이루어지고 있다[19]. 측모 두부계측방사선사진 계 측치의 분석에도 많이 활용[8, 13-15]되고 있는 주성분 분석은 대표적인 차원 감소 기법으로 고차원 데이터를 직교 선형 변환(orthogonal linear transformation)하여 주성 분(principal components, PC) 공간으로 전환하여 나타내 는 방법이다. 이 과정을 통해 m-차원으로 이루어진 시 스템에 대하여 분산(variance)를 최대화 하는 순서대로 새로운 기저인 m개의 주성분을 얻고, 이중 주요한 몇 개의 기저(basis)만으로 시스템의 상당부분을 설명함으로 써 차원 감소 목적을 이루게 된다. 실제 활용에 있어서 는 전처리된 데이터를 이용하여 계측치 간의 상관행렬 (correlation matrix)
where and
을 구하고, 이 행렬의 고유 벡터(eigenvector)와 고유 값 (eigenvalue)을 얻어서 수행하게 되는데, 이 고유 벡터는 새로운 기저인 주성분을 나타낸다. 또한 시스템의 차원 (m = 38) 대비 특정 고유 벡터에 해당하는 고유 값의 비 율은 전체 시스템에서 해당 고유 벡터 방향의 분산 비 율을 의미하는데, 만약 특정 고차원 데이터에서 몇 개의 고유 벡터만으로 시스템의 상당 부분을 설명할 수 있다 면, 그 시스템은 주성분 분석을 통해 차원을 감소시켜 고차원 데이터를 쉽게 이해하는 것이 가능하다.
주성분 분석에 있어서, 고유 값이 큰 고유 벡터 중 몇 개를 시스템 분석에 활용해야 하는가는 중요한 문제 이며 무작위 행렬 이론을 통해 이를 해결할 수 있다[20, 21]. 측모 두부계측방사선사진의 경우, 개의 계측치를 명의 환자에 대하여 측정하였다고 하면, -차원으로 이루어진 데이터는 행렬로 표현된다. 이 데이터 에 대해 주성분 분석의 결과로 얻어지는 고유값의 확률 밀도 함수(probability density function, PDF)를 동일한 크 기의 무작위 행렬에 대한 분석 결과와 비교함으로써 유 의미한 고유 벡터의 개수를 결정할 수 있다. 무작위 행 렬 이론에 의한 확률밀도 함수는
where
가 되고, 실제 계측한 데이터의 경우 보다 큰 고유 값에 해당하는 고유 벡터에 대해서만 유의미한 해석이 가능하다. 이를 이용하여 주성분 분석의 결과 중 고려해 야할 고유 벡터의 수를 정할 수 있다.
5) k-평균 알고리즘을 활용한 군집 분석
k-평균 알고리즘은 머신러닝에서 대표적인 비지도 학습 방법론으로 -차원으로 이루어진 세트에 대하여 유사한 데이터끼리 군집화하여 k개의 그룹으로 나누는 군집 분석 기법이다[22, 23]. 각각의 군집 중심으로부터 군집에 속하 는 데이터까지의 거리의 제곱의 합(the sum of the squared error, SSE)을 최소화 하는 방향으로 데이터를 군집화하며, 이 과정에서 적절한 k 값의 설정과 거리의 정의를 어떻게 정할 것인지가 실제 활용에서의 관건이라 할 수 있다. k 값을 정하는 데 있어서 다양한 과학적 준거가 존재하나 아 직 완벽한 준거는 밝혀지지 않았고, 본 연구에서는 결과의 해석에 있어서 임상적 경험에 근거한 k값의 선택(a number of heuristics)[24]에 따라 분석하였다. 또한 데이터 사이의 거리는 마할라노비스 거리(Mahalanobis distance), 맨해튼 (Manhattan) 거리, 해밍(Hamming) 거리, 코사인(cosine) 거 리, 상관계수(correlation) 등 각각의 연구 별로 데이터의 특 성이나 용도에 따라 다양한 방식이 활용될 수 있으나, 본 연구에서는 데이터의 통계적 전처리를 통해 데이터를 표 준화하였으므로 가장 널리 쓰이는 유클리드 거리 (Euclidean distance)를 이용하였다.
결 과
남녀간의 차이에 대한 p-value가 Table 2에 나타나 있 으며, 전체 38개의 변수 중 20개에서 남녀 사이에 유의 한 차이가 있었다. 즉 이 결과로부터 해당 계측치들의 경우 한국인의 남녀 평균 및 표준편차로 표준화하여 단 위를 제거하고 스케일을 맞추어도 교정 환자 남녀간 분 포에 유의한 차이가 있음을 의미한다. 다만, 이러한 분 포의 차이는 개별 계측치에 대한 남녀간 비교에서 통계 적으로 유의하다. 전체 계측치 데이터에 대한 주성분 분 석 및 군집 분석에 있어서 남녀간의 차이는 본 연구에 서 밝힌 주요한 특징에 비하여 두드러지지 않았다.
Fig. 1은 주성분 분석을 통해 얻은 고유값의 확률밀도 함수를 나타낸 그래프로, 먼저 실제 환자 데이터를 계측 치 별로 무작위로 뒤섞은 후 주성분 분석을 한 결과와 무작위 행렬 이론의 이론값을 비교함으로써 두 결과가 일치함을 내부 그래프에서 확인할 수 있다. 또한 무작위 행렬 이론과의 비교를 통해 실제 환자 데이터에서 유의 미한 해석이 가능한 주성분의 개수가 7개임을 확인하였 다. 이 7개의 주성분이 38개의 전체 변수 중 81.2%에 해당하는 분산을 설명하였다. 그 중에서도 첫 번째 고유 값에 해당하는 고유벡터가 전체 분산의 29.8%를 설명하 고, 두 번째와 세 번째 고유값에 해당하는 고유벡터가 각각 15.4%, 11.9%의 분산을 설명하며, 그 다음 4개의 고유값에 해당하는 고유벡터가 4.6% ~ 7.7%(4개를 합산 하면 24.2%)의 분산을 설명하였다.
또한 전체 환자 군에 대한 주성분 분석결과가 시간에 대하여 일정한 양상을 보여야 앞으로의 환자에 대해서 도 유효한 것으로 추정할 수 있기 때문에 시간에 따라 결과가 일정한 지에 대해 검증이 필요하다. Fig. 2가 나 타내는 바와 같이 시간을 기준으로 전반기와 후반기로 나눈 환자 군에 대해서 주성분 분석의 결과가 견고함을 확인할 수 있다.
시간을 기준으로 두 그룹으로 나눈 환자 군 각각에 대해 주성분 분석을 했다. 이를 통해 얻은 고유벡터들의 행렬 와 를 이용하여 중복 행렬(overlapping matrix), 을 히트맵(heatmap)으로 표현하였다 [20]. Fig. 2-(a)에서 전반적으로 대각 성분의 값이 높은 것에서부터 시간에 대하여 현재의 주성분 분석의 결과는 견고함을 확인할 수 있다. 특히 Fig. 2-(b)에서 주요한 7개 의 주성분 중 5번째와 6번째 주성분의 순서가 바뀌기는 하였지만 시간에 대해 견고함이 있음을 확인할 수 있다.
Fig. 3은 고유값이 큰 순서대로 7개의 유의미한 고유 벡터(주성분 1~7)의 성분 그래프이며, 이들에서 눈에 띄 게 나타나는 변수들은 Table 3에 정리되어 있다. 주성분 1의 주요성분은 APDI, ANB 등 악골의 전후방적 크기 차이와 SNB, Pog to N-perp 등과 같이 하악골의 전후방 적 위치에 관한 것이고, 주성분 2의 주요성분은 Facial height ratio, Sum, FMA 등과 같이 수직적인 성분에 관 한 것이었으며, 주성분 3의 주요성분은 SNA, A point - N-perp. 등과 같은 상악의 위치나 상하악 전치의 치축 등에 관한 것이었다.
Fig. 6에서 전체 환자를 k-평균 알고리즘을 활용하여 군집의 개수 3개로(k=3) 군집화한 결과를 주성분 분석한 주성분 1~7축 위에 시각화하였다. 이 경우 주성분 1과 주성분 2만이 군집을 구분하는데 있어서 유의미한 기저 가 되며 환자군의 구분이 가능함을 확인하였다. 즉, 주 성분 3~7은 환자의 세부적 특징을 표현하는 데에 의미 가 있지만, 거시적 분류에 있어서는 주성분 1, 2로 충분 하였다. 군집화된 3개의 환자 그룹에 대하여, 주성분 1 에 투영한 값을 기준으로 양의 값으로 치우친 환자군을 ‘타입 A’, 음의 값으로 치우친 환자군을 ‘타입 C’, 그 중 간에 있는 환자군을 ‘타입 B’라 지칭하기로 하였다.
Fig. 5는 앞서 세 개의 군집으로 나눈 환자군의 대표 환자 프로파일(Typical Patient Profile, TPP)이다. 각각의 군집에 해당하는 환자들의 프로파일의 평균이며, 표준편 차를 오차 막대 형태로 함께 표기하였다. 또한 회색 상 자로 주성분 1의 주요한 계측값들을 나타내었다. 앞선 Fig. 4에서 확인 하였듯이 주성분 1은 이 세 그룹의 분 류에 충분한 기준이 되고, Fig. 5에서 각각의 군집 별 명확한 양상의 차이가 주성분 1의 주요 계측치에서 나 타난다는 점에서 이 두 결과는 서로 부합한다.
1의 주요성분은 APDI, ANB 등 악골의 전후방적 크기 차이와 SNB, Pog to N-perp 등과 같이 하악골의 전후방 적 위치에 관한 것이고, 주성분 2의 주요성분은 Facial height ratio, Sum, FMA 등과 같이 수직적인 성분에 관 한 것이었으며, 주성분 3의 주요성분은 SNA, A point - N-perp. 등과 같은 상악의 위치나 상하악 전치의 치축 등에 관한 것이었다.
Fig. 6은 6개의 군집(k=6)으로 전체 환자를 군집화한 결과이다. Fig. 4와 동일하게 주성분 1~7에 대하여 시각 화 한 결과 주성분 1~3에서 군집이 유의미하게 분류되 었고, 주성분 4~7은 이 경우에서도 군집의 분류에 기준 으로서 역할을 하지 못하였다.Fig. 5
Fig. 4의 타입 A와 C에서 일부 경계선의 환자들이 Fig. 6에서 타입 B로 분류되었으나 기존 군집의 동질성 이 유지됨은 Fig. 7에서 확인 할 수 있으므로 A’와 C’로 명명하였다. 또한 타입 B는 주성분 2를 기준으로 녹색 (B-3) > 노랑과 회색(B-1) > 하늘색(B-2)으로 분류가 되 었고, Fig. 6의 오른쪽 그림에서 B-1은 주성분 3을 기준 으로 노랑(B-1-1)과 회색(B-1-2)으로 나뉘었다.
Fig. 7은 여섯 개의 군집(k=6)으로 나눈 각 그룹의 대 표 환자 프로파일이다. 타입 A’과 C’은 Fig. 6에서 설명 하였듯이 k=3인 경우의 타입 A, C와 군집의 특징이 각 각 유지됨을 확인할 수 있다. 환자군 B-1, 2, 3으로 명명 된 그룹은 기존 타입 B의 하위 분류에 해당하며 주성분 2의 주요 계측치로 구분됨을 확인할 수 있다. 마지막으 로 주성분 3의 주요 계측치를 기준으로 B-1-1과 B-1-2가 구분됨을 확인하였다.
고 찰
주성분 분석은 다른 연구에서도 교정 환자의 분류를 위해 여러 번 이용되었다. 여기서 몇 개의 주성분을 선 택할 것인가가 문제가 되는데 Kim 등[12]은 18개의 변 수에 대해 주성분 분석한 결과 고유값 1.0 이상인 성분 을 두 가지 선택하였다. Bui 등[8]은 다섯 가지의 주성 분이 분산의 67%를 설명한다고 하였으나 처음 세 주성 분을 이용하였고, 그 이유는 그들이 해부학적 설명에 직 접적이기 때문이라고 하였다. 본 연구에서는 무작위행렬 이론을 이용하여 몇 개의 주성분을 선택할 것인지를 결 정하였고, 이는 경험적으로 주성분을 선택하였던 기존의 논문에 비하여 과학적 준거를 적용하였다고 할 수 있다.
정상교합자를 대상으로 한 Kim 등[12]의 연구에서 첫 번째 주성분은 전후방적 성분, 두 번째 주성분은 수직적 성분으로 확인되었다. III급 부정교합자를 대상으로 한 연구에서 Bui 등[8]은 첫 번째 주성분은 시상면적 성분 들로 구성되었고, 두 번째 성분은 수직적 계측이 유의하 다고 하였다. Li 등[13]의 연구에서는 첫 번째 주성분은 수직적 길이계측으로 구성되었고, 두 번째 주성분은 두 개저에 대한 하악의 시상면적 위치에 속하였으며, 세 번 째 성분은 하악전치의 돌출과 경사도를 표현하였다. Moreno 등[15]은 III급 연구에서 두개저에 대한 하악의 전후방적 위치, 상하악의 수평적 크기 차이, 하악 전치 의 위치와 그로 인한 하순의 돌출도가 표본의 절반 이 상의 분산을 설명한다고 하였고, II급 연구에 대하여는 하악평면의 각도, 상악 전치의 각도, 하악골의 수평적, 수직적 길이가 분산의 50% 정도를 설명한다고 하였으 며, 특히 두 번째 주성분인 상악 전치의 각도는 II급 부 정교합의 아분류를 분류하므로 흥미롭다고 하였다[14]. 본 연구에서는 전체 부정교합자를 대상으로 하여 첫 번 째 주성분이 악골의 전후방적 부조화와 두개저에 대한 하악의 전후방적 위치 관계, 두 번째 주성분이 수직적 위치 관계, 세 번째 주성분이 상악의 위치나 상하악 전 치의 치축에 관한 것으로 분석되었으며, 이는 환자군에 따라 분산을 설명하는 특징적 계측치가 다를 수 있음을 보인다고 하겠다.
군집 분석은 교정환자의 분류를 위해 많이 사용되어 온 방법의 하나이나, 별도의 시각화가 필요하다. 이에 본 연구에서는 주성분 분석한 결과를 축으로 하는 주평 면(principal plane)에 군집 분석의 결과를 시각화 하였고, 이 결과 부정교합의 분류 및 아분류에 대해 보다 직관 적인 결과를 나타낼 수 있었다. 3개 또는 6개의 군집으 로 나누었을 때, Fig. 4와 6에서 보여지는 것처럼 주성 분 1~3만이 군집의 분류에 의미있고, 4~7은 군집의 분 류의 기준이 되지 못한다. 그 이유는 앞서 고유값이 주 성분 1에서 매우 크고, 주성분 2와 주성분 3에서 적당히 크며, 주성분 4~7은 무작위 행렬이론으로는 에러영역을 넘어선 고유값을 갖기는 하지만, 앞선 고유벡터에 비하 면 고유값이 매우 작기 때문으로 추정된다. 보다 세부적 으로 분류된 환자군에 대해서는 주성분 4~7도 유의미한 분류 기준이 될 수 있으나, 과도하게 세분화된 환자군의 경우 동일성이 높은 주요 군집도 분리되어서 유의미한 군집 구조를 파악하기 어려워진다. 즉 주성분 4~7은 환 자의 특징을 나타내는 기준으로서는 유효하나, 교정환자 군의 분류에 있어서는 적용에 한계가 있다고 하겠다. 그 러므로 본 연구에서는 거시 규모 분류(k=3)와 중규모 분 류(k=6)에 대해 분석하였다.
k-평균 군집 분석의 결과, 3개의 군집으로 나누었을 때 타입 A의 환자는 하악골이 작으며, ANB가 큰 양상 의 골격성 II급에 해당하며, 타입 B의 환자는 골격성 I 급, 타입 C의 환자는 하악이 큰 골격성 III급에 해당한 다고 볼 수 있다. 즉 주성분 1이 악골의 전후방적인 위 치관계와 하악골의 위치를 주성분으로 하는 것을 고려 하였을 때 이에 따라 분류된 것으로 보인다.
주성분 2는 수직적 성분을 설명하므로, 타입 B는 이 에 따라 나뉘어졌다고 볼 수 있으며, 대표 환자 프로파 일에서 보이는 것처럼 타입 B-1은 normodivergent 한 유 형, 타입 B-2는 hypodivergent, 타입 B-3은 hyperdivergent 한 유형으로 볼 수 있다. 주성분 3은 상하악 치아의 돌 출도가 주성분이라 할 수 있으며, 대표 환자 프로파일 역시 타입 B-1-1은 상악이 크고, 상하순이 돌출된 유형, 타입 B-1-2는 하악이 약간 작고 상악 전치가 설측경사 된 II급 2류 또는 I급 부정교합으로 볼 수 있다.
결국 지금까지 분석을 보면 주성분 1~3이 전후방적, 수직적 요소를 평가하여 환자군을 분류하는 주요 기준 이고, 군집 분석 및 이 결과를 주성분 분석으로 시각화 한 결과를 보면 환자군은 A, B, C로 크게 나뉘며, 더 세부적으로는 A’, B-1(B-1-1 및 B-1-2), B-2, B-3, C’으로 나눌 수 있다.
대표 환자 프로파일에서 확인할 수 있듯이 각각의 군집의 특징을 요약하면, 타입 A'는 하악이 작고, hyperdivergent한 골격성 II급 부정교합, 타입 B-1-1은 상악이 크고, 상하순이 돌출된 normodivergent한 중등도의 골격성 II급 부정교합, 타 입 B-1-2는 하악이 약간 작고, 상악 전치가 설측경사된 normodivergent한 I급 또는 경도의 II급부정교합, 타입 B-2는 상하악이 약간 큰 hypodivergent한 수평성장형 I급 부정교합, 타입 B-3은 상악이 작고 hyperdivergent인 경도의 III급 부정 교합, 타입 C는 하악이 크고 normodivergent한 골격성 III급 부정교합이라고 할 수 있다.
본 연구에서는 전체 부정교합자를 대상으로 주성분 분석과 군집 분석을 시행하여, 그 결과를 바탕으로 빅데 이터 시각화 기법과 대표 환자 프로파일을 이용해 교정 환자군의 분류 및 아분류에 대한 체계와 기준을 연구하 였으며 각각 환자군의 대표 프로파일을 시각화하였다. 본 연구 결과를 기반으로 추후 각각의 환자군의 특징에 대한 추가적인 분석 및 새로운 환자 샘플의 진단에 활 용하는 방안을 연구하면 흥미로운 결과를 얻을 수 있을 것으로 생각된다. 또한 이러한 빅데이터 시각화 기법을 다양한 분야의 치의학 연구에 도입하면 연구 결과를 시 각화 하는 데 도움이 될 것으로 기대된다.
결 론
성인 교정 환자 1020명의 측모 두부계측방사선사진에 서 측정된 38가지 계측치를 통계적 전처리, 주성분 분 석, 무작위 행렬분석, k-평군 알고리즘을 활용한 군집 분석을 통해 분석하였다. 이를 통해 환자의 특징을 나타 내는 일곱 가지 주성분(PC)을 밝혔고, 환자군의 분류 및 아분류의 구조를 밝혔으며, 이때 주성분 1~3만이 기준 이 됨을 확인하였다. 또한 거시적 관점에서 분류된 환자 군(타입. A~C)의 대표 환자 프로파일과 중규모 관점에 서 분류된 환자군(타입 A’, B-1-1, B-1-2, B-2, B-3, C’)의 대표 환자 프로파일을 밝혔다. 그리고 이러한 연구 결과 가 특정 기간의 환자군에 국한되지 않고 지속적으로 관 찰되는 결과임을 확인하였다. 이러한 데이터 기반의 환 자 분류 연구는 교정 환자 진단 기술의 발전에 토대가 될 것으로 기대된다.