銀河形状分類のデータセットについて

はじめに

この記事からこの記事までの5編で、銀河の形状分類をCNN(VGG16、ResNet)、ViTを使って行った。 今後エラーの分析を行うに際して、データセットから改めて再検討したいと思い、この記事で、銀河分類に使うデータセットについて考えてみたい。

自分が使用したデータセット

ここに書いたとおり、自分はGalaxy10 DECalsをデータセットとして使用した。このデータセットの特徴は、以下の通り。

  • Galaxy10の元は、Galaxy Zoo (GZ) Data Release2であり、約27万枚からボランティアの投票で約22万枚を10の大分類に分類したもの。一部の画像については、DESI Legacy Imaging Surveys (DECals)の画像に置き換えられている。Galaxy10 DECalsは、GZ DR2、SDSSの代わりのDECals画像、およびDECalsキャンペーンab,cを組み合わせたもの。DECalsが持つ約44万の銀河から、約1.8万を選び、厳密なフィルタリングを用いたボランティアの投票により10の大分類に分類したもの。
  • イメージデータは256x256x3channel。正確なデータ数は17,736。
  • 10のクラスは、Disturbed/Merging/Round Smooth/In-between Round Smooth/Cigar/Barred Spiral/Tight Spiral/Loose Spiral/Edge-on without Bulge/Edge-on with Bulge。各々、1,081/1,853/2,645/2,027/334/2,043/1,829/2,628/1,423/1,873個の銀河。

Galaxy Morphological Classification with Efficent Vision Transformerのデータセット

Galaxy Morphological Classification with Efficent Vision Transformer が使っているデータセットについて、調べてみた。

  • アブストラクトでこのGithubのページを紹介している。ここをみると、Datasetは、Galaxy Zoo 2 Project2(GZ2)を使っているようだ。それは、kaggleのページのもののようだ。
  • 424x424x3channelのデータ。各channelはg/r/iフィルターのイメージ。
  • 形状は、次の8種類(0-7の順に)。クラス名は順に、round elliptical/in-between elliptical/cigar-shaped elliptical/edge-on/barred spiral/unbarred spiral/irregular/merger。
  • 155,951のイメージを訓練用:64%、validation用:16%、テスト用:20%に分けて使用。
  • 224x224x3にcropし、flippingとrotatingのデータ拡張を実施。

Galaxy Morphology Classification with Deep Convolutional Neural Networksのデータセット

Galaxy Morphology Classification with Deep Convolutional Neural Networksが使っているデータセットについても調べた。

  • 「2 DATASET」節で使用しているdatasetを説明している。Galaxy Zoo - The Glalaxy Challenge (kaggle)のデータを使っている。
  • 61,578のJPG(424x424x3)カラー画像。
  • 銀河形状は、$f_{smooth}$、$f_{completely_round}$、$f_{in-between}$、$f_{cigar-shaped}$、$f_{features/disk}$、$f_{edge-on,yes}$、$f_{edge-on,no}$、$f_{spiral,yes}$の値によって、5つのクラスに分類(0-4の順に)。クラス名は順に、Completely round smooth/In-between smooth/Cigar-shaped smooth/Edge-on/Spiral。それぞれ、8,434/8,069/578/3,903/7,806個のデータ。(Table 1に記載)
  • 全体で28,790のイメージデータを訓練用:テスト用=9:1(25,911、2,879に分けた)。

評価

以上の3つのデータセットの比較を下表でまとめる。

データセット名 Galaxy10 DECals Galaxy Zoo 2: Images Galaxy Zoo - The Galaxy Challenge
データ数 17,736 155,951 61,578
分類数 10 8 5
画像サイズ 256x256x3 424x424x3 424x424x3

自分が使用したデータセットは、悪くないが、銀河の数が他と比べて少ない。

今後、Galaxy Zoo2: Imagesを使ってみたい。