2. 云南大学中国西南天文研究所, 云南 昆明 650500
2. South-Western Institute for Astronomy Research, Yunnan University, Kunming 650500, China
云南大学双一流重点建设项目多通道测光巡天望远镜目前已在云南天文台丽江观测站开工建设,预计2020年底建设完成,望远镜建成后将进行一年的调试与先导巡天,正式巡天将于2022年开始,为期10年。在正式巡天的第1年(2022年),望远镜主要利用ugi和vrz两组滤光片对北半球可观测天区进行多通道多历元测光巡天,巡天面积如图 1。
|
| 图 1 多通道多历元测光巡天天区示意图。本图采用赤道坐标系,红线和绿线分别表示银道面和黄道面位置 Fig. 1 The survey area of Mephisto-W survey in equatorial coordinates. Red and green lines mark the positions of the Galactic and Ecliptic planes, respectively |
建成后的多通道测光巡天望远镜将是国际上首个较大通光口径、较大视场的多通道高精度测光巡天光学望远镜,主镜1.6 m,系统焦比4.5,可达到3.14平方度的视场。光学系统采用加改正镜的RC(Ritchey-Chretien)系统,在焦面上放置由3个立方棱镜组成的分色系统和3台CCD相机,总像素超过10亿,像质优于0.6″(80%能量)。通过这一设计,多通道测光巡天望远镜可以在3个光学波段对同一天区进行高精度的成像观测,捕捉天体的实时颜色信息,不仅能显著提高巡天效率和颜色定标精度,更重要的是能提供天体的实时颜色信息,为天体分类和后续观测以及分光证认提供依据。多通道测光巡天望远镜将在时域天文学和星系宇宙学、银河系考古学与近场宇宙学、恒星物理、太阳系普查等多个研究方向发挥重要作用。
多通道多历元测光巡天将探测百亿颗恒星、数十亿星系、数百万类星体,获取它们高精度的多波段星等和颜色,以及它们的位置、星等、颜色变化信息,为细致描绘银河系结构、深刻理解星系形成和演化理论、精确限制宇宙学模型、深入探究暗物质暗能量本质提供重大契机。多通道多历元测光巡天的科学目标要求观测极限星等尽可能深,单次曝光r波段极限星等大于22等,叠加星等大于23等,且观测次数尽可能多,全年大部分天区达到4次观测。本文基于丽江站天文台址监测系统2019全年的观测数据,利用机器学习方法模拟丽江站的台址条件模型,估算在不同曝光时间下,多通道多历元测光巡天一整年对天区的可观测次数与期望极限星等,给出巡天的最佳曝光时间。
1 丽江观测站台址条件的随机森林模型丽江观测站是中国目前最好的光学天文观测台址之一,已建有2.4 m望远镜[1]等多台先进的光学望远镜。为了协助2.4 m望远镜和多通道测光巡天望远镜的运行,丽江站在两处高地各自安装了一组天文台址监测系统,2.4 m望远镜旁的监测系统为ASMS-A,多通道测光巡天望远镜旁的监测系统为ASMS-B[2-4],其中ASMS-B在2018年底投入使用。天文台址监测系统主要包括4个子系统:气象站、全天信息采集系统、视宁度系统和视频监控系统,这些设备记录的云量、温度、风速、视宁度和天光背景数据可以为望远镜巡天估算和环境评价提供参考。但由于天气状况与仪器故障等问题,ASMS-B采集的数据不连续,丢失了很长一段时间的观测数据,ASMS-A与ASMS-B之间直线距离仅百米,因此,本文基于ASMS-B采集的数据并以ASMS-A数据为补充建立完整的丽江观测站全年的台址条件模型。
本文利用随机森林回归方法(Random Forest Repressor)建立丽江观测站2022年台址模型。随机森林是机器学习中一种重要的算法,它采用集成学习方法进行分类和回归,使用平均数提高预测准确性并控制过度拟合。在训练阶段,随机森林使用自助采样法从输入训练数据集中采集多个不同的子训练数据集,依次训练多个不同的决策树;在预测阶段,随机森林将内部多个决策树的预测结果取平均得到最终结果[5]。本文使用Python程序包sklearn[6]从天文台址监测系统采集的2019年观测数据中随机挑选75%的数据作为训练样本,剩余25%作为测试样本。
大气视宁度是大气湍流造成的星像随机扩散现象,影响采集的天体图像质量。大气视宁度与台址的大气温度、风速和地形等有关,是现代天文选址的重要指标之一[7]。视宁度与昼夜温度、风速等有关,随时间有两个较为明显的变化关系:(1)在一年中随月份和季节的变化,这部分变化可以用积日数作为自变量;(2)在一天中随气温等因素的变化,这部分可以用本地平太阳时作为自变量。所以,在模型训练时需要将时间序列数据整理成积日值和本地时两部分的形式。天文台址监测系统的观测数据中,气象站采集的信息如温度和风速的采集时间与其他系统的时间并不同步,因此,本文采用随机森林回归方法,先对温度和风速分别建立以时间(积日值和本地时组成)为特征变量的随机森林回归模型,从而得到在视宁度、云量和背景天光观测时间点上的温度和风速数据;再以积日值、本地时、风速和温度作为4个特征变量,结合视宁度数据,由随机森林回归方法建立一个特征变量与视宁度的关系模型,基于该模型可以预测丽江观测站全年任意时间的视宁度。测试样本的比较结果(图 2(a))显示,视宁度模型训练得分为0.89,差值弥散为0.016。
|
| 图 2 测试样本的视宁度、云量和背景天光观测值与随机森林模型给出的模拟结果比较。图中红线为y=x线 Fig. 2 Comparisons between the seeing, cloud and sky brightness values from the test samples and those from the Random Forest models. Red lines are the y=x curves |
云量是决定望远镜是否开机工作的重要气象数据。在天文台址监测系统的观测数据中,云量值由整数0~10表示,其中,云量数值为10时全天空有云,云量数值为0时全天空无云。云量的变化也与温度和风速相关。云量随时间的变化可以看作随年月季节的长期变化以及一天内的短期变化两部分,所以,云量模型训练与视宁度类似,也是积日值、本地时、风速和温度4个特征变量。对测试样本的比较结果(图 2(b))显示,云量模型训练得分为0.967,差值弥散为0.645。
天光背景是天文观测条件的一个重要指标,它制约着望远镜的观测极限星等[8]。天光背景随时间的变化与当天月相(用积日数做自变量)以及太阳、月亮高度等因素有关(用本地时作为自变量),所以,对天光背景采用积日值、本地时和云量3个特征变量。对测试样本的比较结果(图 2(c))显示,天光背景模型训练得分为0.999,差值弥散为0.103。
由此获得了丽江观测站全年视宁度、云量和天光背景的变化模型。图 3给出了积日数从66.5 d到69.5 d的视宁度、云量和天光背景的观测数据和模型数据变化图。如图 3,2019年的视宁度、云量和天光背景的观测数据(红色点)有很大一部分缺失,随机森林模型给出预测数据(蓝色点)完整描述了这些量的变化情况,在有观测数据的时段,模型的预测结果与观测数据非常吻合。随机森林模型与原始观测数据高度一致,合理地弥补了缺失的观测数据信息。
|
| 图 3 积日数为66.5到69.5天的丽江观测站天文台址监测系统(图中红色叉号)以及随机森林模型给出的(图中蓝点)(a)视宁度、(b)云量和(c)天光背景变化比较图 Fig. 3 Comparisons between variations of (a) seeing, (b) cloud and (c) sky brightness from the ASMS observations (red crosses) and those from the Random Forest models (blue dots) during days of the year between 66.5 and 69.5 |
基于上述随机森林模型,可以估算丽江观测站全年的视宁度、云量和天光背景的分布情况。模型结果显示,全年台址的可观测时间(视宁度小于2″,云量小于等于3,太阳高度角低于-12°)为1 867 h。全年可观测时间内,视宁度中值为1.06″、小于1″的时间占39.47%;云量值为0的时间占66.45%;天光背景中值为21.30等(v波段)、大于20等的观测时长达到69.76%。
2 多通道多历元测光巡天的曝光时间优化 2.1 天区观测次数与极限星等估算为获取天体精确的自行、三角视差等数据并从数据中寻找变源,获取天体的实时颜色变化信息,需要对观测天区进行多次时域观测,观测次数越多越好。为了探测更暗的天体,达到更深的探测体积,需要对观测天区进行深度曝光,达到更深的极限星等。这两个目标对曝光时间的要求相互矛盾,更多的观测次数要求曝光时间越短越好,而更深的极限星等则要求曝光时间越长越好。此外,在可观测时间内,望远镜除了曝光以外,还需要从一个天区移到另一个天区观测,如果曝光时间过短,望远镜在天区移动上花费更多的时间。
首先估算在不同的曝光时间下,多通道多历元测光巡天对整个W天区的观测次数。台址条件模型给出全年可观测时间为ttotal=1 867 h,巡天天区数为nfield=13 742。目前W巡天的观测模式对每个天区进行两次曝光,两次曝光之间望远镜中心指向进行微小的摆动以覆盖CCD芯片之间的空隙。单个天区的观测时间主要分为4部分:(1)曝光总时长2texposure;(2)两次曝光之间的望远镜摆动以及稳定所需的时间tdizzer;(3)望远镜在两个天区之间转换以及稳定所需的时间ttransform;(4)CCD相机曝光后的读出时间。设望远镜的转动速度能达到2°/s,转动加速度能达到1°/s2,望远镜可以在5 s内沿赤经和赤纬方向分别转动6°,因此,设望远镜从一个天区到另一个天区的平均移动时间为5 s。两次曝光之间望远镜的摆动非常微小,一般小于0.6°,可以忽略不计,望远镜转动后的稳定时间是10 s。因此望远镜每次更换观测天区并稳定需要的时间是ttransform=15 s,两次曝光之间的摆动及稳定时间为tdizzer=10 s。CCD相机采用e2v 290芯片,读出时间可以控制在10 s内,由于CCD读出可以与望远镜的运动过程同步,故不占用额外时间。由此可以估算总曝光时长分别在2 × 10 s、2 × 15 s、2 × 20 s、2 × 25 s、2 × 30 s、2 × 35 s、2 × 40 s、2 × 45 s、2 × 50 s、2 × 55 s、2 × 60 s的情况下,全年对每个天区的平均观测次数N为
| $ N = \frac{{{t_{{\rm{total }}}}}}{{2{n_{{\rm{field }}}}\left( {2{t_{{\rm{exposure }}}} + {t_{{\rm{dizer }}}} + {t_{{\rm{transform }}}}} \right)}}. $ | (1) |
曝光时长占比η是指望远镜用来曝光的时间在总观测时间中所占的比重,标志着巡天的时间利用率:
| $ \eta = \frac{{2{t_{{\rm{exposure }}}}}}{{2{t_{{\rm{exposure }}}} + {t_{{\rm{dizzer }}}} + {t_{{\rm{transform }}}}}}. $ | (2) |
一个好的曝光模式应该有较高的曝光时长占比, 即望远镜应该有更多的观测时间,则η应尽量趋近于1,如果偏小,说明望远镜的很多时间浪费在转动和稳定上。
望远镜的噪声来源主要有目标源噪声、天光背景、CCD读出噪声以及暗流噪声。曝光时间一定时,结合望远镜的通光效率、CCD的性能以及丽江观测站的台址信息,可以估算巡天的极限星等。本文分别计算了曝光时间为2 × 10 s、2 × 15 s、2 × 20 s、2 × 25 s、2 × 30 s、2 × 35 s、2 × 40 s、2 × 45 s、2 × 50 s、2 × 55 s、2 × 60 s,信噪比为5时不同滤光片的极限星等。信噪比计算如下:
| $ {R_{{\rm{SN}}}} = \frac{f}{n} = \frac{F}{{\sqrt {F + B + R + D} }}, $ | (3) |
其中,f为目标源在CCD上产生的电子数;n为总噪声电子数;F为目标源的信号;B为天光背景噪声;R为CCD读出噪声;D为CCD暗流噪声。结合单次曝光极限星等与全年天区曝光次数,可以估算巡天天区的全年叠加星等、叠加信噪比:
| $ {R_{{\rm{coadded }}}} = {R_{{\rm{SN}}}}\sqrt N . $ | (4) |
本文总观测次数N保留一位小数,对于小数部分,给部分天区分配额外的一次观测,即该部分天区的观测次数变成N的整数部分+ 1,这部分天区的数量占总天区数量的比例与小数值相等,而剩余天区观测次数变成N的整数部分。将未额外增加观测次数的天区的叠加星等和拥有一次额外观测次数的天区的叠加星等进行加权平均,从而得到全部天区最终的平均叠加星等。
2.2 结果与讨论根据2.1节,对上述11组曝光模式由(1)式求得不同曝光模式的观测次数,由(2)式求得不同曝光模式的曝光时长占比。在每一次观测曝光两次、信噪比阈值为5的情况下,通过(3)式分别估算11组曝光模式的各个波段的极限星等,最后利用(4)式计算得到不同波段的全年叠加星等。经过计算,多通道多历元测光巡天11组曝光模式下每组滤波片可观测次数、曝光时长占比、6个波段的单次曝光极限星等和全年叠加星等结果如表 1。
| Exposure time/s | Average obser-vations of all sky | Effective exposure time in percent | Limiting magnitudes in uvgriz bands/mag | Coadded magnitudes in uvgriz bands/mag |
| 2 × 10 | 5.4 | 0.44 | 20.94, 20.97, 22.01, 21.83, 21.50, 20.60 | 21.90, 21.93, 22.97, 22.78, 22.44, 21.55 |
| 2 × 15 | 4.5 | 0.55 | 21.34, 21.37, 22.37, 22.16, 21.80, 20.92 | 22.19, 22.21, 23.20, 22.99, 22.62, 21.76 |
| 2 × 20 | 3.8 | 0.62 | 21.63, 21.67, 22.60, 22.37, 21.99, 21.14 | 22.38, 22.40, 23.34, 23.11, 22.73, 21.88 |
| 2 × 25 | 3.3 | 0.67 | 21.84, 21.86, 22.78, 22.54, 22.14, 21.30 | 22.51, 22.52, 23.44, 23.19, 22.80, 21.95 |
| 2 × 30 | 2.9 | 0.71 | 22.01, 22.02, 22.92, 22.66, 22.26, 21.42 | 22.61, 22.62, 23.51, 23.25, 22.84, 22.01 |
| 2 × 35 | 2.6 | 0.74 | 22.15, 22.16, 23.03, 22.77, 22.36, 21.53 | 22.68, 22.69, 23.55, 23.28, 22.87, 22.05 |
| 2 × 40 | 2.3 | 0.76 | 22.27, 22.28, 23.13, 22.86, 22.44, 21.62 | 22.74, 22.75, 23.59, 23.32, 22.90, 22.08 |
| 2 × 45 | 2.1 | 0.78 | 22.37, 22.38, 23.21, 22.93, 22.52, 21.69 | 22.80, 22.80, 23.63, 23.35, 22.93, 22.11 |
| 2 × 50 | 2.0 | 0.80 | 22.47, 22.47, 23.28, 23.00, 22.58, 21.76 | 22.84, 22.85, 23.66, 23.37, 22.95, 22.13 |
| 2 × 55 | 1.8 | 0.82 | 22.55, 22.55, 23.35, 23.06, 22.64, 21.82 | 22.87, 22.87, 23.66, 23.38, 22.95, 22.14 |
| 2 × 60 | 1.7 | 0.83 | 22.62, 22.62, 23.41, 23.12, 22.69, 21.88 | 22.89, 22.89, 23.67, 23.38, 22.95, 22.14 |
根据表 1,在不同的曝光时间下,2022年多通道多历元测光巡天平均可观测次数最多可达到5.4次,对应单次曝光时长最短的方案为2 × 10 s;最少为1.7次,对应单次曝光时长最短的方案为2 × 60 s。当单次曝光时长大于2 × 25 s时,巡天天区平均可观测次数低于3次。考虑诸如变星证认等科研工作,每年一到两次的观测显然不能满足测光巡天的科学目标要求。而对于曝光时间较短的方案,即2 × 10 s、2 × 15 s、2 × 20 s、2 × 25 s 4种方案,其中2 × 10 s方案无论是单次曝光极限星等还是全年叠加星等,均明显低于另外3种方案,无法满足测光巡天科学目标的要求。2 × 25 s方案能达到4次观测的天区仅约有30%,也不是很好的选择。
另外的两种观测方案中,2 × 15 s和2 × 20 s对应的全年可观测次数分别为4.5和3.8次,其中,2 × 20 s的单次曝光极限星等和全年叠加星等略深。此外,2 × 15 s的曝光时长占比η仅为0.55,也就是说望眼镜将近一半的时间花费在转动和稳定上。对于2 × 20 s,η可达到0.62,相对2 × 15 s有较大提升,因此,2 × 20 s方案更优。
综上所述,2 × 20 s的曝光时间为多通道多历元测光巡天的最佳观测方案。在此曝光模式下,一整年的时间内多通道测光巡天望远镜可分别在两组滤光片平均各观测3.8次,r波段的单次曝光极限星等达到22.37等,约有80%的天区可达到4次观测,对应r波段全年叠加星等达到23.15等,剩余约20%的天区全年可观测3次,对应r波段全年叠加星等达到22.99等。
3 总结为了寻找多通道多历元测光巡天的最佳曝光模式,以尽可能同时达到较深的极限星等和较多的观测次数,基于2019年丽江站天文台址监测系统的大气视宁度、云量和天光背景观测数据,用随机森林回归方法建立了台址的条件模型。基于模型的预测结果估算了在不同曝光模式下,多通道多历元测光巡天一整年对巡天天区的平均观测次数、单次曝光极限星等以及全年叠加星等,结果显示,符合多通道多历元测光巡天科学目标的最佳曝光模式为2 × 20 s,在这一曝光模式下,多通道多历元测光巡天可在一年中对北天区26 000平方度分别在两组滤光片组合下平均观测3.8次,即80%的观测天区能达到4次观测,20%的天区能达到3次观测,全年叠加星等达22.38等(u波段)、22.40等(v波段)、23.34等(g波段)、23.11等(r波段)、22.73等(i波段)、21.88等(z波段)。
在利用机器学习方法建立丽江站台址条件模型过程中,由于观测数据的限制,本文只采用了2019年一年的数据,实际上天文观测站的台址条件还存在更长的时间变化趋势,本文没有考虑。未来计划收集丽江观测站过去10年的气象数据,研究丽江观测站台址条件的长时间变化趋势。
| [1] | WANG C J, BAI J M, FAN Y F, et al. Lijiang 2.4-meter Telescope and its instruments[J]. Research in Astronomy and Astrophysics, 2019, 19(10): 149. DOI: 10.1088/1674-4527/19/10/149 |
| [2] | XIN Y X, BAI J M, LUN B L, et al. Astronomical Site Monitoring System at Lijiang Observatory[J]. Research in Astronomy and Astrophysics, 2020, 20: 149. DOI: 10.1088/1674-4527/20/9/149 |
| [3] |
辛玉新, 王传军, 范玉峰, 等. 丽江站台址信息监测系统[J]. 天文学进展, 2017, 35(3): 367–380 XIN Y X, WANG C J, FAN Y F, et al. Astronomical site monitoring system of Lijiang Observatory[J]. Progress in Astronomy, 2017, 35(3): 367–380. DOI: 10.3969/j.issn.1000-8349.2017.03.06 |
| [4] |
辛玉新, 范玉峰, 伦宝利, 等. 长期视宁度监测DIMM系统设计方案[J]. 天文研究与技术——国家天文台台刊, 2012, 9(4): 62–69 XIN Y X, FAN Y F, LUN B L, et al. A design of a DIMM system for long-term seeing measurement[J]. Astronomical Research & Technology——Publications of National Astronomical Observatories of China, 2012, 9(4): 62–69. |
| [5] | BREIMAN L. Random forests[J]. Machine Learning, 2001, 45: 5–32. DOI: 10.1023/A:1010933404324 |
| [6] | PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn:machine learning in Python[J]. Journal of Machine Learning Research, 2011, 12(85): 2825–2830. |
| [7] |
刘子忠, 栾蒂, 于建明, 等. 高美古全夜视宁度的变化[J]. 云南天文台台刊, 1999(1): 42–50 LIU Z Z, LUAN D, YU J M, et al. The seeing variation in night at the Gaomeigu Station[J]. Publications of the Yunnan Observatory, 1999(1): 42–50. |
| [8] |
胡平, 李锐, 王娜, 等. 南山站的光学观测环境监测与分析[J]. 天文研究与技术, 2017, 14(4): 495–501 HU P, LI R, WANG N, et al. Monitor and analysis on optical observing conditions at Nanshan Observatory[J]. Astronomical Research & Technology, 2017, 14(4): 495–501. |



