본문 바로가기
728x90
반응형
SMALL

Paper/Object Detection7

Attention Is All You Need [Introduction] RNN, LSTM, Gated recurrent network는 언어 모델링 및 기계 번역과 같은 순차 모델링 및 변환 문제에서의 최신의 접근법으로 자리잡고있었다. 그 이후로 반복 언어 모델과 인코더-디코더 아키텍처의 경계를 확장하기 위한 수많은 노력이 계속되었다. 반복 모델은 전형적으로 입력과 출력 시퀀스의 기호 위치를 따라 계수를 계산한다. 계산 단계에서 위치를 적절히 맞추기 위해 이전 상태 ht−1과 위치 t의 함수인 은닉상태 ht를 생성한다. 이 본질적인 sequenial 특성은 학습에서의 병렬화를 불가능하게 한다. 메모리 제한으로 인해 sequence가 길어지면 병렬화가 불가능하다. 최근에는 인수분해 트릭들과 조건적인 계산으로 연산효율성과 모델 성능을 향상시켰다. 하지.. 2022. 3. 14.
Swin Transformer : Hierarchical Vision Transformer using Shifted Windows [Abstract] - transformer를 자연어처리에서 비전분야에 적용하는 것은 1) visual entity의 크기 큰 변화 2) 텍스트보다 높은 화질 의 차이 때문에 어렵다. - 이러한 차이를 다루기 위해 Shifted windows로 representation을 계산하는 hierarchical Transformer를 제안한다. - Shifted windows 방식은 기존 self-attention의 제곱에 비례하는 계산량을 선형 비례하게 줄이면서도 다양한 scale을 처리할 수 있는 접근법이다. - 이미지 분류, 객체 검출, segmentation과 같이 넓은 분야에 호환될 수 있게 했다. [Introduction] 컴퓨터 비전은 오랬동안 CNN이 지배적이였다. Alexnet을 시작으로 이미지.. 2022. 3. 10.
Augmentation for small object detection 논문 : Augmentation for small object detection 1. Introduction 이미지에서 객체를 검출하는 것은 오늘날의 컴퓨터 비전 연구의 근본적인 task들중 하나이다. 객체 검출은 로봇, 자율주행, 인공위성, 항공 영상 분석 그리고 의료 영상에서 장기와 덩어리의 위치 파악을 포함하여 실제로 적용되기 위한 시작점이 된다. 객체검출의 이 중요한 문제는 최근에 많은 발전이 있었다. MSCOCO로 객체 검출의 경쟁에서 정확도가 2015년 0.373에서 2017년 0.525로 증가하였다. 비슷한 진전은 MSCOCO의 segmentation 분야에서도 관찰할 수 있었다. 이러한 성능향상에도 불구하고 소형 객체에 대한 성능은 실적이 저조하다. MSCOCO 데이터셋에서의 객체 크기를 .. 2021. 11. 2.
CBAM 논문 : CBAM: Convolutional Block Attention Module 1. Introduction CNN은 큰 표현력에 기반하여 vision tasks의 성능에 많은 영향을 끼쳤다. CNN의 성능을 향상시키기 위해서, 최근의 연구들은 주로 중요한 요소인 depth, width, cardinality 를 연구하고 있다. LeNet부터 ResNet까지 rich representation을 가지며 네트워크는 깊어졌다. VGGNet은 같은 형태의 블럭을 쌓는 것도 같은 결과를 내는 것을 알려주었다. 같은 맥락으로, ResNet은 깊은 구조를 만들기위해 skip-connection과 함께 같은 형태의 residual blocks를 쌓았다. GoogleNet은 width가 모델의 성능을 향상시키기 .. 2021. 10. 28.
YOLO_v4 Introduction 다수의 cnn기반의 객체검출기들은 대체로 추천시스템에만 적합했다. 예를 들어 도시의 카메라를 통한 주차 빈자리 찾기는 느리지만 정확한 모델에 의해 실행되지만 자동차 충돌 주의는 빠르지만 정확하지 않은 모델을 통해 실행된다. 실시간의 객체 검출기의 정확도를 높이는 것이 추천시스템에 대한 힌트를 생성하는 것 뿐만아니라 독립형 프로세스 관리와 사람이 입력해야하는 것을 감소시키는것을 가능하게한다. 전통적인 GPU를 사용한 실시간 객체검출 수행은 방대한 사용량을 허용한다. 가장 정확한 신상의 neural network들은 실시간에서 동작하지 않으며 큰 mini-batch-size를 요구하면서 여러개의 GPU 사용을 필요로한다. 이러한 문제점에 직면하면서 하나의 GPU만을 사용하는 모델을 만.. 2021. 10. 27.
Scaled-YOLOv4 3. Principles of model scaling : 질적인 요소의 파라미터, 양적인 요소를 변화하는것을 다뤄야한다. 양적인요소 1) image size 2) number of layers(depth) 3) number of channels(width) 3.1 General principle of model scaling : 효율적인 모델스케일링 방법을 디자인할때 중요한 원칙은 스케일이 up/down하면, increase/decrease 하고자하는 양적인 cost를 더낮추거나/더높이는 것이다. : 위 두 표를 비교해보면 각 scaling factor를 키우는것보다 CSP를 적용하는것이 계산량이 더 줄어든다. 따라서 CSP를 적용하는 것이 model scaling의 가장 좋은 모델이다. 3.2 Sca.. 2021. 7. 13.
MDSSD : Multi-scale Deconvolutional Single Shot Detector for Small Object To make the feature maps of the shallow layers contain more semantic information, we build several fusion layers between high-level and low-level feature maps through Fusion Blocks. conv11 and conv12 have totally lost the fine details of small objects, and therefore we apply the Fusion Block before conv11. In order to share the structure of Fusion Block, we delicately design symmetric topology b.. 2021. 4. 15.
728x90
반응형
LIST