티스토리 뷰
▶ MNIST: 0부터 9까지의 28 x 28 손글씨 사진을 모은 데이터셋 (학습용: 60,000개 / 테스트용: 10,000)
MNIST 데이터베이스 (Modified National Institute of Standards and Technology database)는 손으로 쓴 숫자들로 이루어진 대형 데이터베이스이며, 다양한 화상 처리 시스템을 트레이닝하기 위해 일반적으로 사용됩니다. 이 데이터베이스는 또한 기계 학습 분야의 트레이닝 및 테스트에 널리 사용됩니다. NIST의 오리지널 데이터셋의 샘플을 재혼합하여 만들어졌습니다. NIST의 흑백 그림들은 28x28 픽셀의 바운딩 박스와 앤티엘리어싱 처리되어 그레이스케일 레벨이 들어가 있도록 평준화되었습니다.
▶ CIFAR-10: 10개의 클래스로 구분된 32 x 32 사물 사진을 모은 데이터셋 (학습용: 50,000개 / 테스트용: 10,000개)
▶ ImageNet: 이 데이터셋은 1,000개의 클래스로 구성되며 총 백만 개가 넘는 데이터를 포함한다. 약 120만 개는 학습(training)에 쓰고, 5만개는 검증(validation)에 쓴다. 학습 데이터셋 용량은 약 138GB, 검증 데이터셋 용량은 약 6GB이다. 특히 분류(classification) 문제에 관심이 있는 딥러닝 연구자라면 대개 이미지넷 데이터셋을 다운로드하는 편이다. 학습 데이터를 확인해 보면 각 클래스당 약 1,000개가량의 사진으로 구성되어 있다.
ImageNet은 정말 많은 종류의 Class로 분류 되어 있다.
다운받는데도 며칠이 걸린다고 해서 일단 MNIST를 받아보려고 했다..
토렌트 아니고 imagenet 사이트에서 받으려면 컨펌도 기다려야 함;;;
결국 torrent에서 받는 중이다. https://academictorrents.com/details/bf62f5051ef878b9c357e6221e879629a9b4b172
downsample된 테스트셋이라 그나마 4GB...
근데 파일 명으로 분류를 안해둠!
https://ndb796.tistory.com/471 여기에 스크립트가 있긴 하다...
torch에서 제공해 주는 Datasets 종류는 다음과 같습니다.
- MNIST
- Fashion-MNIST
- KMNIST
- EMNIST
- COCO
- LSUN
- ImageFolder
- DatasetFolder
- Imagenet-12
- CIFAR
- STL10
- SVHN
- PhotoTour
- SBU
- Flickr
- VOC
- Cityscapes
TorchVision에서 다운로드 받기
dataset_train_MNIST = torchvision.datasets.MNIST('data/MNIST/', # 다운로드 경로 지정
train=True, # True를 지정하면 훈련 데이터로 다운로드
transform=transforms.ToTensor(), # 텐서로 변환
download=True,
)
train=True이면 학습용 데이터가, train=False이면 테스트용 데이터가 나온다.
len(dataset_train_MNIST)
dataset_train_MNIST.classes
출처: https://ndb796.tistory.com/471 [안경잡이개발자]
https://teddylee777.github.io/pytorch/pytorch-mnist-dataloader-loading하기
'MachineLearning' 카테고리의 다른 글
[DeepLearning] 역행렬 구하기, pseudo inverse 구하기 (0) | 2021.09.13 |
---|---|
[MachineLearning] Line, Line Segment, Ray (0) | 2021.09.07 |
[ML] batch (0) | 2021.08.24 |
[ML] regularization (0) | 2021.08.19 |
[MachineLearning] chain rule, backpropagation (0) | 2021.08.12 |