이미지를 MLP의 input layer에 입력하려면 이미지를 flatten 해야함
이미지를 flatten 하지 않고 사용할 수 있음
이미지의 Locality 특성을 고려하여 학습할 수 있도록 설계된 neural network
CNN을 사용한 최초의 모델이자 GPU 사용을 고려한 딥러닝 모델
구도가 단순하지만, 깊은 네트쿼그의 중요성을 알림
네트워크를 깊게 쌓을 경우 생기는 문제점을 해결, 기존보다 더 깊은 네트워크를 제안(최대 152 Layer)
기존 네트워크들이 가진 trade-off를 분석
Natural Language Processing (NLP) task 를 위해 고안
Transformer 구조를 computer vision 에 적용하여 해결한 VIT(Vision Transformer)
CNN 특성을 ViT 에 다시 적용한 Swin Transformer
각 block의 input을 x, Convolution 연산을 F라고 가정
F(x) + x 를 output으로 사용
Natural Language Processing - 04 [ 2025년03월10일 ]
Natural Language Processing - 03 [ 2025년03월07일 ]
Natural Language Processing - 02 [ 2025년03월06일 ]
Natural Language Processing - 01 [ 2025년03월05일 ]
Computer Vision - 02 [ 2025년02월14일 ]