はじめに
この記事からこの記事までの5編で、銀河の形状分類をCNN(VGG16、ResNet)、ViTを使って行った。 今後エラーの分析を行うに際して、データセットから改めて再検討したいと思い、この記事で、銀河分類に使うデータセットについて考えてみたい。
自分が使用したデータセット
ここに書いたとおり、自分はGalaxy10 DECalsをデータセットとして使用した。このデータセットの特徴は、以下の通り。
- Galaxy10の元は、Galaxy Zoo (GZ) Data Release2であり、約27万枚からボランティアの投票で約22万枚を10の大分類に分類したもの。一部の画像については、DESI Legacy Imaging Surveys (DECals)の画像に置き換えられている。Galaxy10 DECalsは、GZ DR2、SDSSの代わりのDECals画像、およびDECalsキャンペーンab,cを組み合わせたもの。DECalsが持つ約44万の銀河から、約1.8万を選び、厳密なフィルタリングを用いたボランティアの投票により10の大分類に分類したもの。
- イメージデータは256x256x3channel。正確なデータ数は17,736。
- 10のクラスは、Disturbed/Merging/Round Smooth/In-between Round Smooth/Cigar/Barred Spiral/Tight Spiral/Loose Spiral/Edge-on without Bulge/Edge-on with Bulge。各々、1,081/1,853/2,645/2,027/334/2,043/1,829/2,628/1,423/1,873個の銀河。
Galaxy Morphological Classification with Efficent Vision Transformerのデータセット
Galaxy Morphological Classification with Efficent Vision Transformer が使っているデータセットについて、調べてみた。
- アブストラクトでこのGithubのページを紹介している。ここをみると、Datasetは、Galaxy Zoo 2 Project2(GZ2)を使っているようだ。それは、kaggleのページのもののようだ。
- 424x424x3channelのデータ。各channelはg/r/iフィルターのイメージ。
- 形状は、次の8種類(0-7の順に)。クラス名は順に、round elliptical/in-between elliptical/cigar-shaped elliptical/edge-on/barred spiral/unbarred spiral/irregular/merger。
- 155,951のイメージを訓練用:64%、validation用:16%、テスト用:20%に分けて使用。
- 224x224x3にcropし、flippingとrotatingのデータ拡張を実施。
Galaxy Morphology Classification with Deep Convolutional Neural Networksのデータセット
Galaxy Morphology Classification with Deep Convolutional Neural Networksが使っているデータセットについても調べた。
- 「2 DATASET」節で使用しているdatasetを説明している。Galaxy Zoo - The Glalaxy Challenge (kaggle)のデータを使っている。
- 61,578のJPG(424x424x3)カラー画像。
- 銀河形状は、$f_{smooth}$、$f_{completely_round}$、$f_{in-between}$、$f_{cigar-shaped}$、$f_{features/disk}$、$f_{edge-on,yes}$、$f_{edge-on,no}$、$f_{spiral,yes}$の値によって、5つのクラスに分類(0-4の順に)。クラス名は順に、Completely round smooth/In-between smooth/Cigar-shaped smooth/Edge-on/Spiral。それぞれ、8,434/8,069/578/3,903/7,806個のデータ。(Table 1に記載)
- 全体で28,790のイメージデータを訓練用:テスト用=9:1(25,911、2,879に分けた)。
評価
以上の3つのデータセットの比較を下表でまとめる。
データセット名 | Galaxy10 DECals | Galaxy Zoo 2: Images | Galaxy Zoo - The Galaxy Challenge |
---|---|---|---|
データ数 | 17,736 | 155,951 | 61,578 |
分類数 | 10 | 8 | 5 |
画像サイズ | 256x256x3 | 424x424x3 | 424x424x3 |
自分が使用したデータセットは、悪くないが、銀河の数が他と比べて少ない。
今後、Galaxy Zoo2: Imagesを使ってみたい。