728x90 반응형 SMALL 전체 글81 신경망 신경망은 여러개의 퍼셉트론을 쌓은 다층 퍼셉트론으로 볼 수 있으며 아래의 그림과 같이 입력층, 은닉층, 출력층으로 구성된다. 이전의 퍼셉트론이 임계값을 기준으로 0 아니면 1로 출력되는 계단함수를 활성화함수로 사용하는 반면 신경망은 비선형의 활성화 함수를 사용한다. 활성화 함수란 가중치가 곱해진 입력신호의 총합을 활성화 할지 정해주는 함수이다. 예를 들어 아래와 같은 시그모이드 함수는 오른쪽에 값이 대입되어 출력값을 돌려주는 형태로 입력되는 값에 따라 다른 값을 출력하게 된다. 흔하게 사용되는 활성화 함수는 ReLU이다. 아래의 그래프와 식과 같이 입력된 신호를 계산하지 않고 그대로 입력해주며 음수가 입력되는 경우는 무조건 0을 반환하는 방식이다. 2022. 3. 18. Perceptron 퍼셉트론은 처음 제안된 인공신경망으로 위 그림과 같이 입력되는 신호를 축삭돌기를 통해 축삭말단으로 전달하는 형태이다. 위 그림과 같이 다중의 입력이 축삭돌기와 같이 신호를 전달해주는 weight(가중치)값이 부여되어 하나의 출력을 낸다. 이때 가중치 값이 클수록 중요한 신호라는 의미이다. 가중치가 부여된 값이 정해진 bias(임계값)을 넘으면 1, 아니면 0으로 분류된다. 퍼셉트론 모형으로 데이터를 학습하면서 잘못 부여되는 가중치값은 계속해서 업데이트된다. bias는 높게 설정될수록 분류기준이 엄격해지지만 underfitting의 문제가 있다. 반대로 낮게 설정되면 overfitting의 문제가 발생한다. 퍼셉트론은 1 아니면 0으로 분류하는 선형분류이기 때문에 XOR과 같이 어느 한쪽이 1일때 1인 비.. 2022. 3. 17. Segmentation이란? Segmentation의 종류 1. Sementic segmentation : 객체 종류별로 구분하여 같은 색상으로 표현하고 한번에 masking함. 주변 배경을 포함하여 모든 pixel을 labeling. 2. Instance segmentation : 모든 객체가 개별로 취급되어 masking함 3. Panoptic segmentation : 모든 pixel을 labeling하면서 객체 종류 별로 masking함 CNN for Segmentation 1. CNN의 앞쪽 layer에서 학습하는 정보는 edges, colors등과 같은 저수준의 정보이다. 2. CNN의 뒷쪽 layer에서 학습하는 정보는 객체가 어떻게 다른지 분류할 수 있는 객체에 관한 정보이다. 3. CNN의 뒷쪽으로 갈 수록 spat.. 2022. 3. 16. Attention Is All You Need [Introduction] RNN, LSTM, Gated recurrent network는 언어 모델링 및 기계 번역과 같은 순차 모델링 및 변환 문제에서의 최신의 접근법으로 자리잡고있었다. 그 이후로 반복 언어 모델과 인코더-디코더 아키텍처의 경계를 확장하기 위한 수많은 노력이 계속되었다. 반복 모델은 전형적으로 입력과 출력 시퀀스의 기호 위치를 따라 계수를 계산한다. 계산 단계에서 위치를 적절히 맞추기 위해 이전 상태 ht−1과 위치 t의 함수인 은닉상태 ht를 생성한다. 이 본질적인 sequenial 특성은 학습에서의 병렬화를 불가능하게 한다. 메모리 제한으로 인해 sequence가 길어지면 병렬화가 불가능하다. 최근에는 인수분해 트릭들과 조건적인 계산으로 연산효율성과 모델 성능을 향상시켰다. 하지.. 2022. 3. 14. MLOps MLOps는 다음 3가지의 문제를 해결하기 위해 등장했다. 1. 모델 적용의 어려움: 데이터가 계속 변하는 것뿐만 아니라 사업 변화가 끊임없이 일어나고 있다. 또한, 기존 목표를 달성하기 위한 기대값이나 생산지표가 바뀔 수 있기 때문이다. 2. 협업의 어려움 : 소프트웨어 서비스를 만들어가는 과정에서 Frontend/Backend/Data Scientist/DevOps 등 많은 사람들이 일을 하는데 MLOps는 이러한 사람들이 서로 소통할 수 있는 기본적 스킬이나 도구들이 다 다르다. 3. 데이터 과학자 != 소프트웨어 개발자 : 데이터 과학자들은 지표를 세우고 모델을 만든 모델로 지표를 만들어가는 사람이지 실제 서비스의 배포나 개발에 대해서 모르는 경우가 많기 때문이다. 위 이미지에서 표현한 것과 같이.. 2022. 3. 10. Swin Transformer : Hierarchical Vision Transformer using Shifted Windows [Abstract] - transformer를 자연어처리에서 비전분야에 적용하는 것은 1) visual entity의 크기 큰 변화 2) 텍스트보다 높은 화질 의 차이 때문에 어렵다. - 이러한 차이를 다루기 위해 Shifted windows로 representation을 계산하는 hierarchical Transformer를 제안한다. - Shifted windows 방식은 기존 self-attention의 제곱에 비례하는 계산량을 선형 비례하게 줄이면서도 다양한 scale을 처리할 수 있는 접근법이다. - 이미지 분류, 객체 검출, segmentation과 같이 넓은 분야에 호환될 수 있게 했다. [Introduction] 컴퓨터 비전은 오랬동안 CNN이 지배적이였다. Alexnet을 시작으로 이미지.. 2022. 3. 10. Robust Scene Text Recognition with Automatic Rectification Abstract 자연의 이미지에서의 문자인식은 해결하지 못한 문제로써 해결해내야하는 과제이다. 문서와 달리 자연 이미지의 단어는 원근 왜곡, 곡선 문자 배치 등으로 인해 불규칙한 형태를 띄는 경우가 많다. 그래서 본논문은 불규칙한 텍스트에 강한 모델인, RARE를 제안한다. RARE는 Spatial Transformer Network (STN)과 Sequence Recognition Network (SRN)를 포함하는 딥러닝 네트워크로 디자인되었다. 테스트에서 이미지는 먼저 예측된 Thin-Plate-Spline(TPS) 변환을 통해 먼저 수정되고, SRN을 통해서 더 읽기 쉬운 이미지가된다. 제안하는 모델을 통해서 원근적이거나 구부러진 텍스트를 포함하는 여러 형태의 불규칙한 텍스트를 인식할 수 있게 한.. 2021. 11. 6. Augmentation for small object detection 논문 : Augmentation for small object detection 1. Introduction 이미지에서 객체를 검출하는 것은 오늘날의 컴퓨터 비전 연구의 근본적인 task들중 하나이다. 객체 검출은 로봇, 자율주행, 인공위성, 항공 영상 분석 그리고 의료 영상에서 장기와 덩어리의 위치 파악을 포함하여 실제로 적용되기 위한 시작점이 된다. 객체검출의 이 중요한 문제는 최근에 많은 발전이 있었다. MSCOCO로 객체 검출의 경쟁에서 정확도가 2015년 0.373에서 2017년 0.525로 증가하였다. 비슷한 진전은 MSCOCO의 segmentation 분야에서도 관찰할 수 있었다. 이러한 성능향상에도 불구하고 소형 객체에 대한 성능은 실적이 저조하다. MSCOCO 데이터셋에서의 객체 크기를 .. 2021. 11. 2. CBAM 논문 : CBAM: Convolutional Block Attention Module 1. Introduction CNN은 큰 표현력에 기반하여 vision tasks의 성능에 많은 영향을 끼쳤다. CNN의 성능을 향상시키기 위해서, 최근의 연구들은 주로 중요한 요소인 depth, width, cardinality 를 연구하고 있다. LeNet부터 ResNet까지 rich representation을 가지며 네트워크는 깊어졌다. VGGNet은 같은 형태의 블럭을 쌓는 것도 같은 결과를 내는 것을 알려주었다. 같은 맥락으로, ResNet은 깊은 구조를 만들기위해 skip-connection과 함께 같은 형태의 residual blocks를 쌓았다. GoogleNet은 width가 모델의 성능을 향상시키기 .. 2021. 10. 28. 이전 1 ··· 5 6 7 8 9 다음 728x90 반응형 LIST