Article Image
Article Image
read

##

서론

딥러닝은 과적합(overfitting)의 문제가 있었으나 상호 학습(pretraining) 개념과 드롭아웃(dropout) 개념을 통해 기존의 문제를 극복할 길운 있음을 증명하였다. 머신러닝과 달리 딥러닝은 성식 추출과정이 궁핍히 데이터로부터 자체적으로 특징을 추출하고 학습하기 그러니까 사람의 간여 없이 정보 의존적 학습을 수행한다.

하지만, 딥러닝 연마 방법은 데이터로부터 어떠한 과정을 통해 결과를 유추했는지 명확한 원리를 알 수명 없기 그러니까 블랙박스(black box)라고 불린다. 이는 딥러닝이 내린 결정에 대한 신뢰성과 직결되기에 딥러닝 공부 과정을 시각화하기 위한 많은 연구들이 시도되고 있다.

CAM(Class Activation Map)을 통해 딥러닝의 결정을 유추할 요체 있다.

##

감 수집

오픈 데이터는 딥러닝 학습에 부족한 데이터를 보완할 길운 있지만, 데이터의 퀄리티 및 신뢰성에 대한 문제점이 있다. 그러니 오픈 데이터를 사용할 경우에는 실 검증을 통한 신뢰성 확보가 우선되어야 한다.

하수 실상 수집 시에는 다양한 대표성을 보이는 데이터를 수집하여 학습 모델이 일반화될 행복 있도록 하는 것이 중요하지만, 어쩔 복 궁핍히 사실상 불균형이 발생한다면 실은 증강(data augmentation)을 통해 보완을 해주는 것이 좋다. 레이블링 데이터는 학습되는 모델의 목적에 따라 취집 방법에 차이가 발생한다.

1. 분류 (classification)

공부 데이터에 교량 카테고리에 대한 번호를 매겨 레이블링을 수행한다. 대조적 과정이 간단하기에 빠른 시간에 학업 실사 구축이 가능하다. ex) 폐 종양의 양/악성 진단, 퇴행성 관절염의 K-grade 조람 등

2. 검출 (detection)

검출 대상의 위치에 박스 내지 가망 형태의 관심영역(region of interest)을 그려 레이블링을 수행한다. 검출 대상을 영상에서 찾은 뒤, 위치를 표시해야 하기에 레이블링에 약간 시간이 걸리지만, 관심영역을 그리는 방법이 간단하기에 상당히 빠른 시간에 공부 데이터를 구축할 목숨 있다. ex) 유방 종괴 검출, 대장 용종 검출 등

3. 분할 (segmentation)

특정 대상에 대한 정량적 측정이 필요한 경우에 이뤄진다. 대상의 정확한 구조를 추출해내야 오뉴월 그렇게 자유곡선 방식을 통해 분할 대상의 외곽을 따라 관심영역을 그려야 한다. 따라서, 분할 대상의 구조가 복잡할수록 관심영역을 그리는 시간이 증가하며, 판별 및 검출에 비해 레이블링 시간이 수두룩이 소요된다. ex) 병변의 면적 또는 체적의 측정이 필요한 경우, 병변의 면모 관찰이 필요한 경우 레이블링 작업은 딥러닝 모델의 개발 과정에서 쥔님 많은 시간과 노력이 요구된다.

선행 학습된 딥러닝 모델을 활용하여 이러한 문제를 일부분 해결할 길운 있다.

또한, 양병 영상을 지원하는 무보수 및 유료 레이블링 소프트웨어를 이용하는 방법도 있다.

##

원료 증강

자료 증강(data augmentation) 기법은 소량의 데이터를 바탕으로 컴퓨터 알고리즘을 통해 데이터의 양을 늘리는 기술로, 실사 부족 및 불균형 문제를 해결하기 위한 최적의 수단이다.

가료 분야의 특성상 딥러닝 학습을 위한 데이터가 부족하거나 다리파 레이블 간의 실은 불균형이 흔히 발생한다. 데이터가 부족한 경우, 데이터셋의 특징을 밤낮 반영하지 못하거나 과소적합 및 과적합에 빠질 위험이 증가한다. 또한, 레이블 나간 데이터의 양이 불균형한 상태에서는 딥러닝 모델의 학습이 데이터가 많은 레이블 쪽으로 편향될 위험이 증가한다.

1. 기존 영상을 변환하여 데이터를 증강하는 방법

데이터 증강에서 일반적으로 사용되는 방법으로, 영상의 기하학적 구조는 유지하면서 수학적 변환을 주어 데이터를 늘리는 방법이다.

다양한 변환 기술 및 동전 파라미터 수준을 랜덤하게 적용하여 한량 장의 영상으로부터 기하급수적으로 데이터를 증강할 핵 있지만, 증강된 모든 영상들의 기하학적 구조가 말없이 유지되기 왜냐하면 데이터의 대표성이 낮고, 이는 모델의 일반화 성능을 떨어뜨릴 수명 있다.

2. 새로운 데이터를 생성하여 데이터를 증강하는 방법

샘플 데이터를 기반으로 새로운 데이터를 인위적으로 만들어내는 방법이다.

GAN(Generative Adversarial Network) 생성자(generator)와 구분자(discriminator)를 경쟁적으로 학습시켜 참말로 데이터와 구분이 어려운 모조품 데이터를 생성해내는 기법

2019년, MR에서 2813개의 수부 전이 암을 기반으로 새로운 골통 변이 암 증강을 시도한 결과, 4000개의 새롭게 생성된 골통이 화천 암 데이터를 나란히 학습하였을 때, 생각 이행 암 검출에 대한 민감도(sensitivity)가 83%에서 91%로 증가하였음

GAN을 이용한 증강 방법은 영상의 기하학적 형상 자체가 다른 새로운 형태의 영상을 생성해내기 그리하여 데이터의 대표성이 상대적으로 높다는 장점이 있다.

부적합 : 체제 검사의 확진이 필요한 암에 대한 진단과 관련된 경우 적합 : 양악성의 감별이 필요하지 않은 경우, 장기간 영역의 분할이나 검출인 경우, 건립 검사나 추가적인 시련 궁핍히 양상 소견만으로 확진이 가능한 경우

하지만, GAN을 통해 생성된 데이터는 임상적 검증이 결여된 위제품 데이터로, 이를 통해 학습된 딥러닝 모델은 임상적 신뢰성이 떨어진다. 환자의 생명과 직결될 생령 있는 치료 분야에서 연마 데이터의 임상적 신뢰성은 너무너무 중요한 문제이기에 딥러닝의 목적에 따라 GAN을 통해 생성된 데이터의 운용 여부를 고려해야 한다.

##

진실 전처리

딥러닝 모델의 습업 전에 연마 데이터를 대상으로 처리되는 모든 과정을 포함한다. 기존의 데이터를 학습에 용이하도록 바꾸는 과정으로, 딥러닝 모델의 성능 향상에 직접적인 영향을 미치기 그리하여 적절한 전처리 방법들을 선택하고 적용하는 것은 딥러닝 형범 개발에서 중요한 계단 새중간 하나이다.

목적에 따라 다양한 방법들이 존재하지만 요치 딥러닝 모델의 개발에서는 아래의 방법들이 대부분 사용된다.

1. 비트 변환

가료 영상에서 주로 사용되는 특수한 전처리 방법이다. 마찬가지 영상은 하나의 픽셀이 8bit를 가지지만, 의료 영상은 종류에 따라 8bit, 12bit, 16bit 등으로 구성된다.

12bit 이상의 영상은 Window Width/Level에 따라 8bit 영상으로 재구성하여 모니터에 표현된다. 따라서, 판독 시간 모니터를 통해 보는 영상은 8bit로 변환된 영상이며, 판독 대상에 따라 Window Width/Level을 조절하여 육안 식별에 최적화하여 판독이 이뤄진다.

비트 변환은 이러한 특수성을 반영한 방법으로, 12bit 이상의 영상을 최적의 육안 식별이 가능하도록 특정 Window Width/Level을 조절하여 8bit 영상으로 변환하는 방법이다.

12bit 영상을 8bit로 변환할 본보기 픽셀 손실이 발생하지만, 상황에 따라서는 픽셀 범위를 좁혀주는 것이 도움이 되는 경우도 있다. 즉, Window Level을 기준으로 Window Width 영역 밖의 픽셀 값들이 손실되는 것을 활용하면 수습 대상에서 불필요한 부분을 제거할 길운 있기에 학습에 긍정적인 영향을 미칠 수 있다. 수업 대상의 특성에 따라 비트 변환을 통한 전처리 방법의 악용 여부를 결정해야 한다.

2. 노이즈 제거 및 자취 개선

저선량 CT의 실용례 영상에 많은 잡음이 발생하는데 잡음은 풍신 인식을 위한 학습에 불필요한 영향을 미칠 고갱이 있기에 잡음 제거를 위한 필터링 알고리즘을 통해 잡음을 제거하는 것이 도움이 될 수명 있다. 잡음 제거에 대개 사용되는 알고리즘은 다음과 같다.

또한, 학습 대상이 근방 구조물과 대비(contrast)가 적어 경계의 구분이 어려운 곡절 학습이 곧 이뤄지지 않을 가능성이 크기에 모습 초보 및 선명도를 높이는 방법을 이용하기도 한다.

####

3. 정규화

정규화는 입력 영상의 화소값 범위를 제한하는 것이다. 8bit 영상의 사태 0~255 12bit 영상의 형편 0~4095의 화소 범위를 가지는데 이를 0~1 또는 -1~+1 사이의 범위로 좁혀 딥러닝 모델의 수렴 속도를 높일 수 있다.

4. 일괄적 모양 스케일 조정

일괄적 형태 치수 조정은 연마 데이터의 크기가 제각각일 경우, 동일한 크기로 조정해주는 과정을 의미한다.

여태껏 동일한 크기로 스케일 수정(resize)하는 과정에서 가로 오래오래 비율(aspect ratio)을 유지하거나 무시할 핵심 있다. 오히려 원본 영상에서의 형태학적 구조들이 손실된 아직 부피 조정이 발생하기에 가급적 가로세로 비율을 유지해주는 것이 적절하다. 서토 크기가 다른 영상들의 가로세로 비율을 유지한 상금 동일한 크기로 수정하기 위해서는

일반적으로는 긴 변을 맞추는 방법이 사용된다.

##

모델의 학습

전처리 과정이 끝난 사후 사용할 딥러닝 모델을 선정하고, 학습을 위한 하이퍼 파라미터(hyper parameter)에 따라 학습이 이루어진다.

하이퍼 파라미터는 가중치(weight) 아울러 모델이 직통 설정하고 갱신하는 변수가 아닌, 사람이 제출물로 설정해주는 매개변수를 의미한다.

이러한 하이퍼 파라미터는 값에 따라 모델의 성능이 크게 좌우될 성명 있기에 많이 중요하지만, 사람이 손수 결정해야 하기에 많은 경험을 필요로 한다. 그래서 하이퍼 파라미터의 최적값이 존재하는 범위를 좁히면서 찾아내는 것이 효율적이다.

변전 학습 (transfer learning)

딥러닝 모델의 학습에는 대량의 공부 데이터가 필요하지만, 의료분야에서는 대량의 연마 데이터를 확보하기 어려운 경우가 많다. 플러스 경우 변환 학습을 통해 극복할 운명 있다. 전천 학습이란 학업 데이터가 부족한 경우, 데이터가 풍부한 타 분야에서 가겟집 훈련된 모델을 재사용하는 학업 기법이다. 변천 학습은 수업 데이터의 수가 적을 식음 효과적이며, 공부 속도와 정확도를 높일 행복 있다는 장점이 있다.

##

모델의 검증

학습이 완료된 모델은 별도로 구축한 검사 데이터를 통해 검증이 이뤄진다. 이는 학습된 모델을 대상을 새로운 데이터에서의 일반화 성능을 평가하기 위한 과정이다. 만약 테스트 데이터에서의 결과가 학습 데이터에서의 결과와 상이한 차이를 보이는 경우, 모델이 습업 데이터에 과적합(overfitting) 되었다고 유추할 핵 있다.

교차 검증 (cross validation)

테스트 데이터가 충분하지 않은 경우에는 검증 결과만으로 모델의 일반화 성능을 단안 짓기는 어렵다. 특히, 의료 데이터는 특성상 모델의 일반화 성능을 확신할 정도의 충분한 데이터를 구축하는 것이 어려운 경우가 많기에 교차검증을 고려할 핵심 있다.

####

세컨드 검증 (external validation)

데스트 데이터도 후머리 동일 기관에서 확보된 가능성이 한도 왜냐하면 교차 검증만으로도 일반화 성능을 확신하기에는 무리가 있다. 최근에는 타 기관으로부터 수집된 데이터를 통해 모델의 일반화 성능을 검증하는 바깥주인 검증(external validation)의 필요성이 증가하고 있다.

##

모델의 경량화

딥러닝 모델은 수습 과정에서뿐만 아니라 시중 상용 시에도 많은 양의 연산이 필요하고, 이를 위해서는 GPU 기반의 고성능 컴퓨팅 파워(computing power)가 요구된다. 실시간 처리가 필요하거나 모바일 환경과 함께 리소스 사용에 제한이 있는 경우에는 딥러닝 모델을 활용하기 위한 자원이 부족할 가능성이 높다. 이에 최근에는 모해 경량화를 통해 저사양의 환경에서 적은 연산으로도 정확도를 유지하며 딥러닝 모델을 학습하고 구동할 생명 있는 경량화 기법들이 연구되고 있다.

모델의 네트워크 구조나 합성곱 필터 등이 효율적으로 설계된 딥러닝 모델을 활용하는 방법

여잉 블록이나 병목 블록, 밀집 블록 등의 설립 변경을 통해 연산량과 파라미터 수를 줄인 신경망 모델은 다음과 같다.

채널별로 합성곱을 수행하고, 점별로 연산을 나누어 연산량과 파라미터를 줄인 모델은 다음과 같다.

기존 알고리즘의 하라미터를 줄임으로써 경량화하는 방법

지아비 대표적인 방법으로는 사표 압축이 있다. +) 가중치 가지치기는 가중치를 0으로 만들어 뉴런을 삭제하는 드롭 아웃(dropout)과 동일한 효과를 가지지만, 드롭 아웃은 연마 과정에서 무작위로 가중치를 삭제하는 것이고, 가중치 가지치기는 삭제할 가중치를 선택할 수 있다는 차이점이 있다.

####

데이터 증류 방법

첩보 증류 방법은 가일층 많은 파라미터와 연산량을 기반으로 선행 학습된 큰 규모의 모델(전문가 모델, teacher model)로부터 필요한 정보들을 귀토 단순한 규모의 모델(숙련가 모델, student model)에서 전달받아 학습하는 기법이다. 적은 규모의 모델에서 큰 규모의 모델과 비슷한 성능을 낼 수명 있다는 장점이 있다. 폐종양

전이 학업 (transfer learning)

변동 학습은 다른 데이터로 학습된 모델의 결과를 옮겨와 이를 기반으로 학습하는 방법이다. 부족한 데이터와 연마 시간을 단축할 고갱이 있다는 장점이 있다. 기이 곧이어 학습된 모델의 결과를 기반으로 학습하기 왜냐하면 적은 파라미터와 연산량에서도 기존보다 높은 수준에서 연마 결과가 수렴되어 딥러닝 모델의 경량화에 심히 활용되고 있다.

##

결론

일반화된 성능의 딥러닝 모델을 만들기 위해서는 방대한 데이터가 요구될 뿐만 아니라 팩트 준비 과정에서부터 정말 증강, 전처리, 딥러닝 모델의 학습과 검증, 경량화까지의 모든 과정이 딥러닝 모델의 일반화 성능을 결정하는데 영향을 미칠 운 있다.

딥러닝의 목적과 데이터의 규모, 사용하는 영상의 특성을 바탕으로 개발 과정에서 각각의 상황에 적절한 최적화 방법을 고려해야 한다.

치유 분야에서의 인공지능의 역할은 임상적 신뢰성을 바탕으로 정확한 예측과 일관된 성능을 보이는 것이 중요하다. 이를 위해 치유 영상의 임상적 관점을 공학적으로 풀어내어 딥러닝 모델의 개발과정에 녹여내고, 이를 최적화하기 위한 방법들을 고려해야 할 것이다.

Category: life
Blog Logo

네규갸마


Published

Image

네규갸마 의 다양한 글쓰는 세상

세상에 많은 이야기들을 글로 표현하고 싶어하는 블로거입니다. 많은 사랑 부탁드립니다.

홈으로 이동