728x90 반응형 SMALL Paper18 Swin Transformer : Hierarchical Vision Transformer using Shifted Windows [Abstract] - transformer를 자연어처리에서 비전분야에 적용하는 것은 1) visual entity의 크기 큰 변화 2) 텍스트보다 높은 화질 의 차이 때문에 어렵다. - 이러한 차이를 다루기 위해 Shifted windows로 representation을 계산하는 hierarchical Transformer를 제안한다. - Shifted windows 방식은 기존 self-attention의 제곱에 비례하는 계산량을 선형 비례하게 줄이면서도 다양한 scale을 처리할 수 있는 접근법이다. - 이미지 분류, 객체 검출, segmentation과 같이 넓은 분야에 호환될 수 있게 했다. [Introduction] 컴퓨터 비전은 오랬동안 CNN이 지배적이였다. Alexnet을 시작으로 이미지.. 2022. 3. 10. Robust Scene Text Recognition with Automatic Rectification Abstract 자연의 이미지에서의 문자인식은 해결하지 못한 문제로써 해결해내야하는 과제이다. 문서와 달리 자연 이미지의 단어는 원근 왜곡, 곡선 문자 배치 등으로 인해 불규칙한 형태를 띄는 경우가 많다. 그래서 본논문은 불규칙한 텍스트에 강한 모델인, RARE를 제안한다. RARE는 Spatial Transformer Network (STN)과 Sequence Recognition Network (SRN)를 포함하는 딥러닝 네트워크로 디자인되었다. 테스트에서 이미지는 먼저 예측된 Thin-Plate-Spline(TPS) 변환을 통해 먼저 수정되고, SRN을 통해서 더 읽기 쉬운 이미지가된다. 제안하는 모델을 통해서 원근적이거나 구부러진 텍스트를 포함하는 여러 형태의 불규칙한 텍스트를 인식할 수 있게 한.. 2021. 11. 6. Augmentation for small object detection 논문 : Augmentation for small object detection 1. Introduction 이미지에서 객체를 검출하는 것은 오늘날의 컴퓨터 비전 연구의 근본적인 task들중 하나이다. 객체 검출은 로봇, 자율주행, 인공위성, 항공 영상 분석 그리고 의료 영상에서 장기와 덩어리의 위치 파악을 포함하여 실제로 적용되기 위한 시작점이 된다. 객체검출의 이 중요한 문제는 최근에 많은 발전이 있었다. MSCOCO로 객체 검출의 경쟁에서 정확도가 2015년 0.373에서 2017년 0.525로 증가하였다. 비슷한 진전은 MSCOCO의 segmentation 분야에서도 관찰할 수 있었다. 이러한 성능향상에도 불구하고 소형 객체에 대한 성능은 실적이 저조하다. MSCOCO 데이터셋에서의 객체 크기를 .. 2021. 11. 2. CBAM 논문 : CBAM: Convolutional Block Attention Module 1. Introduction CNN은 큰 표현력에 기반하여 vision tasks의 성능에 많은 영향을 끼쳤다. CNN의 성능을 향상시키기 위해서, 최근의 연구들은 주로 중요한 요소인 depth, width, cardinality 를 연구하고 있다. LeNet부터 ResNet까지 rich representation을 가지며 네트워크는 깊어졌다. VGGNet은 같은 형태의 블럭을 쌓는 것도 같은 결과를 내는 것을 알려주었다. 같은 맥락으로, ResNet은 깊은 구조를 만들기위해 skip-connection과 함께 같은 형태의 residual blocks를 쌓았다. GoogleNet은 width가 모델의 성능을 향상시키기 .. 2021. 10. 28. YOLO_v4 Introduction 다수의 cnn기반의 객체검출기들은 대체로 추천시스템에만 적합했다. 예를 들어 도시의 카메라를 통한 주차 빈자리 찾기는 느리지만 정확한 모델에 의해 실행되지만 자동차 충돌 주의는 빠르지만 정확하지 않은 모델을 통해 실행된다. 실시간의 객체 검출기의 정확도를 높이는 것이 추천시스템에 대한 힌트를 생성하는 것 뿐만아니라 독립형 프로세스 관리와 사람이 입력해야하는 것을 감소시키는것을 가능하게한다. 전통적인 GPU를 사용한 실시간 객체검출 수행은 방대한 사용량을 허용한다. 가장 정확한 신상의 neural network들은 실시간에서 동작하지 않으며 큰 mini-batch-size를 요구하면서 여러개의 GPU 사용을 필요로한다. 이러한 문제점에 직면하면서 하나의 GPU만을 사용하는 모델을 만.. 2021. 10. 27. Scaled-YOLOv4 3. Principles of model scaling : 질적인 요소의 파라미터, 양적인 요소를 변화하는것을 다뤄야한다. 양적인요소 1) image size 2) number of layers(depth) 3) number of channels(width) 3.1 General principle of model scaling : 효율적인 모델스케일링 방법을 디자인할때 중요한 원칙은 스케일이 up/down하면, increase/decrease 하고자하는 양적인 cost를 더낮추거나/더높이는 것이다. : 위 두 표를 비교해보면 각 scaling factor를 키우는것보다 CSP를 적용하는것이 계산량이 더 줄어든다. 따라서 CSP를 적용하는 것이 model scaling의 가장 좋은 모델이다. 3.2 Sca.. 2021. 7. 13. MDSSD : Multi-scale Deconvolutional Single Shot Detector for Small Object To make the feature maps of the shallow layers contain more semantic information, we build several fusion layers between high-level and low-level feature maps through Fusion Blocks. conv11 and conv12 have totally lost the fine details of small objects, and therefore we apply the Fusion Block before conv11. In order to share the structure of Fusion Block, we delicately design symmetric topology b.. 2021. 4. 15. ShuffleNet_V2 1. Introduction ˙ Accuracy뿐만 아니라, computation complexity도 중요한 요소이다. ˙ computation complexity 측정하기위해서 FLOPs를 많이 측정하는데 이것은 간접적인 방식이며 충분하지 않다. ˙ 직접적인 방식으로 speed와 latency(지연시간)을 중요하게 생각해야한다. ˙ 왜냐하면, 1) MAC(memory access cost)와 같은 요소는 FLOPs를 측정하는데 포함되지 않는다. 그리고 모델의 degree of parallelism이 높을수록 더 빨라지는데 이것은 FLOPs에 포함되지 않는다. (*mac은 group convolution과 같은 특정 연산의 runtime에서 많은 부분을 포함한다.) 2) 플랫폼에 따라서 같은 FLOPs.. 2020. 9. 29. ShuffleNet_V1 √ 계산비용이 많이 차지하는 1x1컨볼루션을 pointwise group convolution으로 대체하여 계산비용을 줄이겠다. √ group convolution은 각 그룹간의 교류가 없어 해당 그룹의 정보만 갖고 있게 되는데 그문제를 'channel shuffle'을 통해 해당 문제를 해결하겠다. √ (a) 하나의 channel을 지정한 group의 수 만큼 나누고 group들마다 각자 convolution을 하는데 그러면 다른 그룹의 정보가 없어져 representation을 약화시킴 √ (b), (c)가 channel shuffle의 과정을 나타낸 것 √ group들을 subgroup으로 나눠서 각 그룹들이 섞어서 나눠가지고 있는것 √ 위의 그림은 shuffle unit 으로 이러한 구조를 반복하.. 2020. 9. 24. 이전 1 2 다음 728x90 반응형 LIST