본문 바로가기

728x90

SMALL

전체 글161

Perceptron 퍼셉트론은 처음 제안된 인공신경망으로 위 그림과 같이 입력되는 신호를 축삭돌기를 통해 축삭말단으로 전달하는 형태이다. 위 그림과 같이 다중의 입력이 축삭돌기와 같이 신호를 전달해주는 weight(가중치)값이 부여되어 하나의 출력을 낸다. 이때 가중치 값이 클수록 중요한 신호라는 의미이다. 가중치가 부여된 값이 정해진 bias(임계값)을 넘으면 1, 아니면 0으로 분류된다. 퍼셉트론 모형으로 데이터를 학습하면서 잘못 부여되는 가중치값은 계속해서 업데이트된다. bias는 높게 설정될수록 분류기준이 엄격해지지만 underfitting의 문제가 있다. 반대로 낮게 설정되면 overfitting의 문제가 발생한다. 퍼셉트론은 1 아니면 0으로 분류하는 선형분류이기 때문에 XOR과 같이 어느 한쪽이 1일때 1인 비.. 2022. 3. 17.

Segmentation이란? Segmentation의 종류 1. Sementic segmentation : 객체 종류별로 구분하여 같은 색상으로 표현하고 한번에 masking함. 주변 배경을 포함하여 모든 pixel을 labeling. 2. Instance segmentation : 모든 객체가 개별로 취급되어 masking함 3. Panoptic segmentation : 모든 pixel을 labeling하면서 객체 종류 별로 masking함 CNN for Segmentation 1. CNN의 앞쪽 layer에서 학습하는 정보는 edges, colors등과 같은 저수준의 정보이다. 2. CNN의 뒷쪽 layer에서 학습하는 정보는 객체가 어떻게 다른지 분류할 수 있는 객체에 관한 정보이다. 3. CNN의 뒷쪽으로 갈 수록 spat.. 2022. 3. 16.

Attention Is All You Need [Introduction] RNN, LSTM, Gated recurrent network는 언어 모델링 및 기계 번역과 같은 순차 모델링 및 변환 문제에서의 최신의 접근법으로 자리잡고있었다. 그 이후로 반복 언어 모델과 인코더-디코더 아키텍처의 경계를 확장하기 위한 수많은 노력이 계속되었다. 반복 모델은 전형적으로 입력과 출력 시퀀스의 기호 위치를 따라 계수를 계산한다. 계산 단계에서 위치를 적절히 맞추기 위해 이전 상태 ht−1과 위치 t의 함수인 은닉상태 ht를 생성한다. 이 본질적인 sequenial 특성은 학습에서의 병렬화를 불가능하게 한다. 메모리 제한으로 인해 sequence가 길어지면 병렬화가 불가능하다. 최근에는 인수분해 트릭들과 조건적인 계산으로 연산효율성과 모델 성능을 향상시켰다. 하지.. 2022. 3. 14.

MLOps MLOps는 다음 3가지의 문제를 해결하기 위해 등장했다. 1. 모델 적용의 어려움: 데이터가 계속 변하는 것뿐만 아니라 사업 변화가 끊임없이 일어나고 있다. 또한, 기존 목표를 달성하기 위한 기대값이나 생산지표가 바뀔 수 있기 때문이다. 2. 협업의 어려움 : 소프트웨어 서비스를 만들어가는 과정에서 Frontend/Backend/Data Scientist/DevOps 등 많은 사람들이 일을 하는데 MLOps는 이러한 사람들이 서로 소통할 수 있는 기본적 스킬이나 도구들이 다 다르다. 3. 데이터 과학자 != 소프트웨어 개발자 : 데이터 과학자들은 지표를 세우고 모델을 만든 모델로 지표를 만들어가는 사람이지 실제 서비스의 배포나 개발에 대해서 모르는 경우가 많기 때문이다. 위 이미지에서 표현한 것과 같이.. 2022. 3. 10.

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows [Abstract] - transformer를 자연어처리에서 비전분야에 적용하는 것은 1) visual entity의 크기 큰 변화 2) 텍스트보다 높은 화질 의 차이 때문에 어렵다. - 이러한 차이를 다루기 위해 Shifted windows로 representation을 계산하는 hierarchical Transformer를 제안한다. - Shifted windows 방식은 기존 self-attention의 제곱에 비례하는 계산량을 선형 비례하게 줄이면서도 다양한 scale을 처리할 수 있는 접근법이다. - 이미지 분류, 객체 검출, segmentation과 같이 넓은 분야에 호환될 수 있게 했다. [Introduction] 컴퓨터 비전은 오랬동안 CNN이 지배적이였다. Alexnet을 시작으로 이미지.. 2022. 3. 10.

Robust Scene Text Recognition with Automatic Rectification Abstract 자연의 이미지에서의 문자인식은 해결하지 못한 문제로써 해결해내야하는 과제이다. 문서와 달리 자연 이미지의 단어는 원근 왜곡, 곡선 문자 배치 등으로 인해 불규칙한 형태를 띄는 경우가 많다. 그래서 본논문은 불규칙한 텍스트에 강한 모델인, RARE를 제안한다. RARE는 Spatial Transformer Network (STN)과 Sequence Recognition Network (SRN)를 포함하는 딥러닝 네트워크로 디자인되었다. 테스트에서 이미지는 먼저 예측된 Thin-Plate-Spline(TPS) 변환을 통해 먼저 수정되고, SRN을 통해서 더 읽기 쉬운 이미지가된다. 제안하는 모델을 통해서 원근적이거나 구부러진 텍스트를 포함하는 여러 형태의 불규칙한 텍스트를 인식할 수 있게 한.. 2021. 11. 6.

Augmentation for small object detection 논문 : Augmentation for small object detection 1. Introduction 이미지에서 객체를 검출하는 것은 오늘날의 컴퓨터 비전 연구의 근본적인 task들중 하나이다. 객체 검출은 로봇, 자율주행, 인공위성, 항공 영상 분석 그리고 의료 영상에서 장기와 덩어리의 위치 파악을 포함하여 실제로 적용되기 위한 시작점이 된다. 객체검출의 이 중요한 문제는 최근에 많은 발전이 있었다. MSCOCO로 객체 검출의 경쟁에서 정확도가 2015년 0.373에서 2017년 0.525로 증가하였다. 비슷한 진전은 MSCOCO의 segmentation 분야에서도 관찰할 수 있었다. 이러한 성능향상에도 불구하고 소형 객체에 대한 성능은 실적이 저조하다. MSCOCO 데이터셋에서의 객체 크기를 .. 2021. 11. 2.

CBAM 논문 : CBAM: Convolutional Block Attention Module 1. Introduction CNN은 큰 표현력에 기반하여 vision tasks의 성능에 많은 영향을 끼쳤다. CNN의 성능을 향상시키기 위해서, 최근의 연구들은 주로 중요한 요소인 depth, width, cardinality 를 연구하고 있다. LeNet부터 ResNet까지 rich representation을 가지며 네트워크는 깊어졌다. VGGNet은 같은 형태의 블럭을 쌓는 것도 같은 결과를 내는 것을 알려주었다. 같은 맥락으로, ResNet은 깊은 구조를 만들기위해 skip-connection과 함께 같은 형태의 residual blocks를 쌓았다. GoogleNet은 width가 모델의 성능을 향상시키기 .. 2021. 10. 28.

YOLO_v4 Introduction 다수의 cnn기반의 객체검출기들은 대체로 추천시스템에만 적합했다. 예를 들어 도시의 카메라를 통한 주차 빈자리 찾기는 느리지만 정확한 모델에 의해 실행되지만 자동차 충돌 주의는 빠르지만 정확하지 않은 모델을 통해 실행된다. 실시간의 객체 검출기의 정확도를 높이는 것이 추천시스템에 대한 힌트를 생성하는 것 뿐만아니라 독립형 프로세스 관리와 사람이 입력해야하는 것을 감소시키는것을 가능하게한다. 전통적인 GPU를 사용한 실시간 객체검출 수행은 방대한 사용량을 허용한다. 가장 정확한 신상의 neural network들은 실시간에서 동작하지 않으며 큰 mini-batch-size를 요구하면서 여러개의 GPU 사용을 필요로한다. 이러한 문제점에 직면하면서 하나의 GPU만을 사용하는 모델을 만.. 2021. 10. 27.

이전 1 ··· 14 15 16 17 18 다음

728x90

LIST

티스토리툴바