티스토리 뷰

  ▶ MNIST: 0부터 9까지의 28 x 28 손글씨 사진을 모은 데이터셋 (학습용: 60,000개 / 테스트용: 10,000)

MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용됩니다. 이 데이터베이스는 또한 기계 학습 분야의 트레이닝 및 테스트에 널리 사용됩니다. NIST의 오리지널 데이터셋의 샘플을 재혼합하여 만들어졌습니다. NIST의 흑백 그림들은 28x28 픽셀의 바운딩 박스와 앤티엘리어싱 처리되어 그레이스케일 레벨이 들어가 있도록 평준화되었습니다.

 

 

  ▶ CIFAR-10: 10개의 클래스로 구분된 32 x 32 사물 사진을 모은 데이터셋 (학습용: 50,000개 / 테스트용: 10,000개)

 

  ▶ ImageNet: 이 데이터셋은 1,000개의 클래스로 구성되며 총 백만 개가 넘는 데이터를 포함한다. 약 120만 개는 학습(training)에 쓰고, 5만개는 검증(validation)에 쓴다. 학습 데이터셋 용량은 약 138GB, 검증 데이터셋 용량은 약 6GB이다. 특히 분류(classification) 문제에 관심이 있는 딥러닝 연구자라면 대개 이미지넷 데이터셋을 다운로드하는 편이다. 학습 데이터를 확인해 보면 각 클래스당 약 1,000개가량의 사진으로 구성되어 있다.

 

ImageNet의 클래스들...

ImageNet은 정말 많은 종류의 Class로 분류 되어 있다. 

 

다운받는데도 며칠이 걸린다고 해서 일단 MNIST를 받아보려고 했다..

토렌트 아니고 imagenet 사이트에서 받으려면 컨펌도 기다려야 함;;;

 

 

결국 torrent에서 받는 중이다. https://academictorrents.com/details/bf62f5051ef878b9c357e6221e879629a9b4b172

 

Downsampled ImageNet 32x32

This page includes downsampled ImageNet images, which can be used for density estimation and generative modeling experiments. Images come in two resolutions: 32x32 and 64x64, and were introduced in Pixel Recurrent Neural Networks. Please refer to the Pixel

academictorrents.com

downsample된 테스트셋이라 그나마 4GB...

 

근데 파일 명으로 분류를 안해둠! 

https://ndb796.tistory.com/471 여기에 스크립트가 있긴 하다...

 

이미지넷(ImageNet) 데이터셋 소개 및 다운로드하는 방법

이미지넷(ImageNet) 데이터셋은 MNIST, CIFAR 데이터셋과 더불어 굉장히 유명한 데이터셋이다. 일반적으로 MNIST나 CIFAR는 아이디어에 대한 검증 목적으로 사용한다. 최신 컴퓨팅 장치를 기준으로 보았

ndb796.tistory.com





torch에서 제공해 주는 Datasets 종류는 다음과 같습니다.



TorchVision에서 다운로드 받기

dataset_train_MNIST = torchvision.datasets.MNIST('data/MNIST/', # 다운로드 경로 지정
                                                 train=True, # True를 지정하면 훈련 데이터로 다운로드
                                                 transform=transforms.ToTensor(), # 텐서로 변환
                                                 download=True, 
                                                )

train=True이면 학습용 데이터가, train=False이면 테스트용 데이터가 나온다. 

 

len(dataset_train_MNIST)

dataset_train_MNIST.classes

 
같은 성질들로 데이터가 잘 들어갔는지 확인해본다. 
 
 

 

 

 


출처: https://ndb796.tistory.com/471 [안경잡이개발자]

https://teddylee777.github.io/pytorch/pytorch-mnist-dataloader-loading하기

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함