睡眠分期對臨床疾病診斷以及睡眠質量評估至關重要。現有睡眠分期方法大多通過單通道或單模態信號,使用單分支深層卷積網絡進行特征提取,這不僅阻礙了睡眠相關多樣性特征的捕獲,增加了計算代價,而且對睡眠分期的準確率也有一定的影響。為解決這一問題,本文提出一種端到端的用于睡眠精準分期的多模態生理時頻特征提取網絡(MTFF-Net)。首先,利用短時傅里葉變換(STFT)將包含腦電(EEG)、心電(ECG)、眼電(EOG)、肌電(EMG)的多模態生理信號轉換為二維時頻特征圖;然后,使用多尺度EEG緊湊卷積網絡(Ms-EEGNet)與雙向門控循環(Bi-GRU)網絡相結合的時頻特征提取網絡,捕獲與睡眠特征波形相關的多尺度頻譜特征以及與睡眠階段轉換相關的時序特征。根據美國睡眠醫學學會(AASM)EEG睡眠分期判據,該模型在科英布拉大學系統與機器人研究所第三組子睡眠數據集(ISRUC-S3)上的五分類任務中取得了84.3%的準確率,其宏觀F1分數(m-F1)的值為83.1%,科恩卡帕(Cohen's Kappa)系數為79.8%。實驗結果表明,本文所提模型實現了更高的分類準確率,推進了深度學習算法在輔助臨床決策中的應用。
引用本文: 胡凱蕾, 陳景霞, 張鵬偉, 雪雯, 謝佳. 用于睡眠精準分期的多模態生理時頻特征提取網絡. 生物醫學工程學雜志, 2024, 41(1): 26-33. doi: 10.7507/1001-5515.202306010 復制
0 引言
睡眠,是晝夜節律的一部分,是人類生活中不可或缺的一部分。睡眠分期,是按照一定的標準對人在睡眠過程中所經歷的階段進行劃分。健康者在睡眠過程中會經歷若干個睡眠階段的周期性循環過程;而存在睡眠問題的患者,其睡眠結構往往呈現出周期性混亂。因此,對睡眠階段進行評估并開展與睡眠周期相關的研究,對人類身體健康以及臨床疾病診斷具有重要意義。
多導睡眠圖(polysomnography,PSG)又稱睡眠腦電(electroencephalogram,EEG)圖,是通過在身體不同部位設置傳感器以獲取人體睡眠周期中不同階段的多種生物電信號,其中包括EEG、眼電(electrooculogram,EOG)、心電(electrocardiogram,ECG)、肌電(electromyography,EMG) 等信號。早期的睡眠分期標準,是由美國的瑞奇恰芬(Rechtschaffen)和凱勒斯(Kales)在1968年提出并制定的《人類睡眠階段標準化術語、技術及劃分系統手冊》,也稱為R&K標準,其將睡眠過程分為清醒期(wake,W)、非快速眼動期(no rapid eye movement,NREM)、快速眼動期 (rapid eye movement,REM)三個階段。其中,NREM階段被細分為1期(stage 1,S1)、2期(stage 2,S2)、3期(stage 3,S3)、4期(stage 4,S4)四個階段[1]。后來,美國睡眠醫學學會(American academy of sleep medicine,AASM)在此基礎上提出了AASM判據[2],通過將S3和S4階段進行融合,將睡眠過程分為W、NREM 1期(N1)、NREM 2期(N2)、NREM 3期(N3)、REM共五個階段。早期的睡眠分期是由睡眠專家將PSG數據劃分為一個個時長為30 s的片段,通過觀察每個片段時域信號的形態,并結合相鄰時段信息,根據經驗來判斷每個片段屬于哪一個睡眠階段。這個過程不僅費時,且分類結果容易受到專家主觀性的影響。為了提高分類效率,眾多研究者開始利用機器學習和深度學習算法來開發自動睡眠分期模型。
傳統機器學習方法,在很大程度上依賴于先驗知識和人工提取的特征,再使用機器學習算法進行特征選擇以及特征分類。這類型的研究一般通過從時域、頻域或時頻域中選擇和提取各種特征,再將其輸入到用于分類的傳統機器學習模型中[3-8],例如樸素貝葉斯[3]、支持向量機(support vector machine,SVM)[4]、隨機森林(random forest,RF)[5]等。例如,Seifpour等[6]通過一種名為局部極值統計行為(statistical behavior of local extrema,SBLE)的時域特征,將每個EEG片段分解為6個子頻帶,從每個子頻帶中計算SBLE特征,并通過特征選擇算法選取最優特征集,再使用SVM進行分類。
與傳統機器學習方法相比,深度學習算法可從數據的多樣性狀態中自動學習深層復雜特征[9-18],將其應用于睡眠分期領域時,大多數研究選擇使用單通道EEG信號或單模態信號作為輸入。例如,Li等[9]將單通道EEG信號通過時頻分析構造EEG信號頻譜圖,使用多層卷積神經網絡和兩層雙向長短期記憶網絡(bi-directional long short-term memory,Bi-LSTM)學習睡眠特征。Fan等[10]僅使用EOG信號預測睡眠分期,通過雙尺度卷積神經網絡提取原始EOG信號的顯著特征。此外,為揭示生理信號的復雜物理特征,驗證多模態數據對提高睡眠分期性能的有效性,Pei等[11]使用EEG、ECG、EMG、EOG等多模態生理信號,通過卷積神經網絡以及門控循環單元(gated recurrent units,GRU)獲取多模態信號中的深層特征。Jia等[12]提出一種自適應學習方法,將EEG、EOG、EMG以及ECG信號作為輸入,構建大腦連接功能圖,并從中獲取深層時空特征。在此基礎上,Jia等[13]對多模態生理信號構建了基于腦區功能連接和基于物理距離的兩種大腦視圖,提取睡眠深層特征,豐富了多模態數據的表現形式。Li等[14]在此基礎上,構建了時頻圖和大腦功能連接圖兩種視圖,捕獲多模態生理信號的時域、頻域、空域特征,提高了睡眠分期的整體性能。
然而,隨著層數的增加,單一尺度的深層網絡并不一定能夠獲取更豐富的深層信息,而且模型在計算過程中很容易發生梯度爆炸。為獲取多尺度全局信息,Supratak等[15]提出了著名的深度睡眠網絡(deep sleep network,DeepSleepNet)模型,該模型由具有不同尺度的雙分支一維卷積網絡和Bi-LSTM網絡構成。Huang等[16]在此基礎上,添加了基于擠壓激勵網絡(squeeze-and-excitation networks,SENet)的注意力模塊以融合獲取到的特征。Wang等[17]也提出一種多尺度雙注意力網絡,應用多尺度卷積神經網絡以及注意力機制捕捉EEG信號中的顯著波形特征。
為了克服單模態數據特征不夠豐富,以及單一尺度深度網絡在特征提取上的局限性,本文提出一種用于睡眠精準分期的多模態生理時頻特征提取網絡(multi-modal physiological time-frequency feature extraction network,MTFF-Net),將包含EEG、EOG、EMG、ECG的多模態PSG信號作為輸入,利用短時傅里葉變換(short-time Fourier transform,STFT)將多模態一維生理信號轉換為二維時頻特征圖像,并通過多尺度EEG緊湊卷積網絡(multi-scale EEG compact convolution network,Ms-EEGNet)學習與睡眠特征波相關的頻譜特征,通過雙向GRU(bi-directional GRU,Bi-GRU)網絡學習與睡眠階段轉換相關的深層時序特征,進而獲取到更豐富的睡眠相關時頻特征,以提高睡眠分期的精確度。
1 睡眠分期模型
本文所提模型的總體結構如圖1所示。首先,原始多模態PSG信號通過時頻分析方法轉換為二維時頻圖;然后,將時頻圖通過Ms-EEGNet和Bi-GRU網絡,學習與睡眠相關的深層時頻特征,并將獲取到的特征經過展平(flatten)層進行降維;最終,通過歸一化指數函數(softmax)層對獲取到的特征進行睡眠分期。

1.1 短時傅里葉變換
根據AASM判據,本文將原始多模態PSG信號劃分成長度為30 s的片段,簡稱輪次(epoch),用 表示每個epoch,其中1≤i≤N,N為序列長度,C為通道個數,L為單個epoch的長度。由于EEG數據具有非平穩性、非線性等特征,本文使用短時傅里葉變換將
轉換為包含時頻域信息的時頻圖,作為特征提取網絡的輸入。與傅里葉變換相比,短時傅里葉變換更能體現出信號頻率分量隨時間的變化情況[18]。
1.2 多尺度頻域特征提取
EEG緊湊卷積網絡(EEG compact convolution network,EEGNet)[19]引入橫向卷積(depthwise convolution,depthwiseConv)和可分離卷積(separable convolution,separableConv),取代了傳統的方形卷積,這一操作大大減少了參數量,降低了計算代價。文獻[20]使用多分支EEGNet結構,通過有效獲取原始EEG數據的空間和時間特征,提高了模型的泛化能力。受文獻[20]啟發,本文提出采用Ms-EEGNet獲取時頻圖所包含的深層頻域特征。
Ms-EEGNet基本結構如圖2所示。其中,單分支EEGNet由標準時間卷積、橫向卷積、可分離卷積三部分所構成。對于Ms-EEGNet網絡的三個分支,本文通過為每個分支設置不同的濾波器(filter)個數以及卷積核大小(kernel_size)來實現獲取多尺度特征的目的。首先,在標準時間卷積塊中,為每個分支分別設計4個大小為1 × 16、8個大小為1 × 32以及16個大小為1 × 64的filter,分別輸出4個、8個和16個包含了不同頻率信息的特征圖;接下來,在橫向卷積塊中,使用kernel_size為10 × 1、層數為2的橫向卷積總結每一個通道的特征映射;其中,10為通道數。這一操作不僅減少了訓練參數的數量,并能有效地提取特定頻率的相關性特征。然而,由于橫向卷積未能有效利用不同通道在相同空間位置上的特征信息。因此,在可分離卷積塊中,使用16個kernel_size為1 × 16的橫向卷積對每個特征圖在時間維度上單獨進行處理,再使用逐點卷積將上一層獲取到的特征圖在深度方向進行加權組合,獲取更適用于睡眠分期任務的特征圖;最后,將獲取到的特征圖進行連接(concat)。Ms-EEGNet網絡描述如式(1)~式(4)所示:

![]() |
![]() |
![]() |
![]() |
其中,f1(·)、f2(·)、f3(·)分別代表Ms-EEGNet的三個分支,Zi是使用短時傅里葉變換獲取到的時頻圖,F1 、F2 、F3分別代表每個分支獲取到的頻譜特征,代表連接操作,FTF是獲取到的多尺度頻譜特征。
1.3 深層時序特征提取
為了從Ms-EEGNet獲取的深層特征中,進一步挖掘相鄰epoch之間的時序相關性,本文針對每個epoch,首先將上一層獲取的頻譜特征與其相鄰epoch的頻譜特征相連接;然后,通過Bi-GRU網絡提取其深層時序特征。Bi-GRU網絡將GRU中的神經元分為前向層和后向層[21],這一操作不僅能從不同方向處理長距離時間序列,還能更好地挖掘睡眠階段轉換規則信息[22]。每個GRU前向傳播描述如式(5)~式(8)所示:
![]() |
![]() |
![]() |
![]() |
其中,zt更新門,rt重置門,“”表示兩個數值相乘,“
”表示矩陣之間的卷積運算,
是當前時刻的候選隱層狀態,ht是候選向量,ht ? 1是上一時刻隱層狀態,FTFt是當前時刻的輸入信息,σ (·)是S型生長曲線(sigmoid)激活函數,tanh(·)是tanh函數,Wz、Wr、W為超參數。
2 數據集與實驗設置
2.1 數據集
本文使用科英布拉大學系統與機器人研究所(institute of systems and robotics of the university of Coimbra,ISR-UC)與科英布拉大學醫院睡眠醫學中心(sleep medicine center of the hospital of Coimbra university,CHUC)共同采集并公開的ISR-UC第三組(ISR-UC subgroup 3,ISRUC-S3)睡眠數據集,對所提方法進行實驗驗證。該數據集收集了來自10名健康受試者整夜的PSG記錄,受試者包括9名男性和1名女性,其年齡在30~58歲之間。每名受試者的數據包含了6個EEG通道、3個EMG通道、1個ECG通道和2個EOG通道[23]的信號,所有信號以200 Hz的頻率進行采樣,并采用AASM標準,劃分為五個階段(W、N1、N2、N3、REM)。本文選擇了EEG信號采集的C3-A2、C4-A1、F3-A2、F4-A1、O1-A2、O2-A1通道,EOG信號采集的左側眼電糾正(left ocular correction,LOC)—A2和右側眼電糾正(right ocular correction,ROC)—A1通道,頦EMG(chin-EMG)通道和一個ECG通道的信號。首先將信號從200 Hz降采樣到100 Hz,并將數據劃分為每30 s一個的epoch。在使用Ms-EEGNet提取深層頻譜特征后,將每個epoch的特征與相鄰兩個epoch特征進行連接[14],從而得到8 549個epoch樣本,各個睡眠階段的樣本數量及占比如表1所示,具體數據描述參考文獻[23]。

2.2 實驗環境與設置
本文在硬件設置為圖形處理單元RTX 3 090(NVIDIA Inc,美國)和128 GB內存支持下,在計算機編程軟件Python3.6.0(python software foundation,美國)和符號數字系統Tensorflow-gpu 1.15.0(Google Inc,美國)框架下進行實驗。為了驗證模型的性能和泛化能力,本文采用留一交叉驗證(leave-one-subject-out)法進行獨立于受試者的實驗,共進行10折交叉驗證,每一折選取其中一個受試者的所有數據作為測試集,其余受試者的所有數據作為訓練集,以確保每個受試者的數據都被測試過,同時每一折的訓練集和測試集不會出現同一受試者的數據。將每一折測試集上的性能進行平均,作為模型的最終性能。實驗中設置每一折的訓練次數為200,批大小為16,學習率為2 × 10?5,優化器選擇自適應矩估計(adaptive moment estimation,Adam)算法。
2.3 評價指標
本文使用準確率(accuracy,Acc)、科恩卡帕(Cohen’s Kappa,Kappa)系數、宏觀F1得分(macro-F1,m-F1)、精度(precision,PR)、召回率(recall,RE)作為模型性能評價指標。F1值作為單個類別的評價指標。
3 實驗結果與分析
3.1 實驗結果
本文所提模型在ISRUC-S3數據集上的混淆矩陣如表2所示。

從表2可以看出,模型在W、N2、N3、REM階段都取得了不錯的分類性能,但對N1階段分類表現較差。這是因為N1階段處于清醒與睡眠的過渡時期,數據占比較少,且特征波形不明顯。
睡眠專家進行人工判定的睡眠圖與本文所提模型進行判定的睡眠圖部分對比結果如圖3所示,紅色為模型預測結果,灰色為人工判定結果。從圖3中可知,本文所提模型預測結果整體上與睡眠專家人工判定結果重合,僅在部分睡眠轉換階段,判定結果與睡眠專家不同,這是由于在睡眠階段轉換時期,其特征波形比較混亂,這也為本文在后續開展研究過程中提供了方向。

3.2 模型有效性驗證
3.2.1 多分支結構的有效性驗證
為驗證本文所提Ms-EEGNet模型結構的有效性,設計了如下兩種方法進行對比實驗:
(1)單分支+Bi-GRU:使用多模態數據,通過單分支EEGNet與Bi-GRU網絡獲取時頻圖特征。其中,在EEGNet的標準時間卷積部分,參數值設置為:filter = 16,kernel_size = 1 × 32。
(2) 雙分支+Bi-GRU:使用多模態數據,通過雙分支EEGNet與Bi-GRU網絡獲取時頻圖特征。其中,在每個分支EEGNet的標準時間卷積部分,參數值分別設置為:① filter = 4,kernel_size = 1 × 16;② filter = 32,kernel_size = 1 × 64。
(3) Ms-EEGNet+Bi-GRU(即本文所提模型):使用多模態數據,通過三分支EEGNet與Bi-GRU網絡獲取時頻圖特征。其中,在每個分支EEGNet的標準時間卷積部分,參數值分別設置為:① filter = 4,kernel_size = 1 × 16;② filter = 16,kernel_size = 1 × 32 ;③ filter = 32,kernel_size = 1 × 64。
多分支結構有效性驗證結果如表3所示,粗體為最優結果,帶下劃線為次優結果。由表3可知,本文所提Ms-EEGNet模型的性能最優,分析其原因是由于多分支結構可以從不同尺度捕獲與睡眠特征波形相關的全局頻譜特征,從而提高睡眠分期的準確性。

3.2.2 時域特征提取網絡的有效性驗證
為驗證本文所使用的單層Bi-GRU網絡對時域特征提取的有效性,分別采用LSTM、Bi-LSTM、GRU、時序卷積網絡(temporal convolutional network,TCN)以及雙層Bi-GRU網絡等不同的時序特征提取方法,結合Ms-EEGNet,在數據集ISRUC-S3上進行對比實驗,結果如圖4所示。

從圖4中可知,單層Bi-GRU網絡的性能最優,且Bi-LSTM與Bi-GRU網絡的分類性能優于GRU和LSTM,分析其原因可能是因為雙向循環神經網絡所設置的前向層和后向層,能有效地捕捉了睡眠階段之間的轉換規則,更適用于睡眠分期等時序分類任務;GRU網絡性能優于LSTM網絡,可能是由于GRU的參數量相對較少,模型更容易收斂;然而,增加Bi-GRU網絡的層數,模型性能并未得到改善,可能是由于模型出現過擬合,導致無法提取更具判別性的深層特征;TCN的分類性能較低,可能是由于睡眠階段轉換發生在相鄰epoch之間,而TCN的卷積操作無法從連續序列中學習到這種長期依賴關系。因此,單層Bi-GRU網絡更適合從相鄰的多個epoch序列中提取睡眠階段轉換的時序信息。
3.2.3 模型消融實驗
為驗證使用多模態數據以及本文所提模型各模塊的有效性,基于本文所提方法(即MTFF-Net),設計了如下兩種變體模型進行消融實驗。具體細節如下:
(1) 變體一:使用多模態數據,僅通過Ms-EEGNet對時頻圖像進行頻域特征提取, 驗證提取時域特征對睡眠分期性能的影響。
(2) 變體二:使用單模態EEG數據,通過Ms-EEGNet與Bi-GRU網絡,驗證使用多模態數據的有效性。
(3)本文所提方法:使用多模態數據,通過結合了Ms-EEGNet以及Bi-GRU網絡提取時頻圖像的深層時頻特征。
消融實驗結果如表4所示,其中粗體為最優結果。變體一僅使用Ms-EEGNet對時頻圖進行特征提取,其準確率達到83.8%,這表明使用本文所提的多尺度網絡結構,有助于獲取更豐富的睡眠頻域特征,但變體一未對相鄰epoch之間的時間相關性進行深層分析。因此,獲取各epoch之間的時序信息對睡眠分期至關重要;變體二使用EEG數據進行時頻特征提取,其準確率為83.3%,是由于不同模態信息對睡眠分期的貢獻不同,多模態數據具有更豐富且互補的特征;本文所提基于多模態數據的多尺度時頻特征提取網絡,取得了最優分類性能,是因為多模態數據結合了不同生理信號的信息,多尺度特征提取網絡獲取到更豐富的深層頻譜特征,結合循環卷積網絡可獲取到睡眠深層時序特征。

3.3 與現有最優模型比較
將本文所提模型與目前其他主流模型[4, 7, 12-15],在ISRUC-S3數據集上的分類性能進行比較,結果如表5所示;其中,粗體為最優結果,帶下劃線為次優結果。相較于機器學習方法,本文方法在不依賴于先驗知識的情況下,表現出更強的學習能力。相較于現有最優的深度學習方法,本文所提模型分類準確率達到84.3%,比次優模型多視圖融合睡眠分期網絡(multi-view fusion sleep stage classification network,MVF-SleepNet)有所提高;且m-F1和Kappa均比次優模型提高;而在W及N1階段同樣比次優模型均有提高。對比發現,本文所提模型表現出了更優的分類性能。

4 總結
為充分獲取多模態PSG數據的深層時頻域特征,本文提出了一種用于睡眠精準分期的多模態生理時頻特征提取網絡MTFF-Net,利用Ms-EEGNet提取多尺度頻譜特征,利用Bi-GRU網絡提取深層時序特征。通過對實驗結果進行分析,并與現有最優方法在公開數據集ISRUC-S3上的分類性能進行對比,證明了本文方法在睡眠分期任務上的合理性和優越性。然而,本文方法在訓練過程中使用了100%帶標簽的數據,但在實際臨床診斷中,很難預先獲取患者的數據以及對應的標簽。因此,在后續研究中,將通過遷移學習等方法,進一步挖掘多模態數據的有效性,提高模型的泛化能力,構建更適合臨床診斷的睡眠階段分類方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:胡凱蕾主要負責數據處理、模型設計與優化、論文撰寫;陳景霞負責實驗指導、論文審閱與修訂;張鵬偉、謝佳負責模型優化的指導;雪雯負責圖表繪制。
0 引言
睡眠,是晝夜節律的一部分,是人類生活中不可或缺的一部分。睡眠分期,是按照一定的標準對人在睡眠過程中所經歷的階段進行劃分。健康者在睡眠過程中會經歷若干個睡眠階段的周期性循環過程;而存在睡眠問題的患者,其睡眠結構往往呈現出周期性混亂。因此,對睡眠階段進行評估并開展與睡眠周期相關的研究,對人類身體健康以及臨床疾病診斷具有重要意義。
多導睡眠圖(polysomnography,PSG)又稱睡眠腦電(electroencephalogram,EEG)圖,是通過在身體不同部位設置傳感器以獲取人體睡眠周期中不同階段的多種生物電信號,其中包括EEG、眼電(electrooculogram,EOG)、心電(electrocardiogram,ECG)、肌電(electromyography,EMG) 等信號。早期的睡眠分期標準,是由美國的瑞奇恰芬(Rechtschaffen)和凱勒斯(Kales)在1968年提出并制定的《人類睡眠階段標準化術語、技術及劃分系統手冊》,也稱為R&K標準,其將睡眠過程分為清醒期(wake,W)、非快速眼動期(no rapid eye movement,NREM)、快速眼動期 (rapid eye movement,REM)三個階段。其中,NREM階段被細分為1期(stage 1,S1)、2期(stage 2,S2)、3期(stage 3,S3)、4期(stage 4,S4)四個階段[1]。后來,美國睡眠醫學學會(American academy of sleep medicine,AASM)在此基礎上提出了AASM判據[2],通過將S3和S4階段進行融合,將睡眠過程分為W、NREM 1期(N1)、NREM 2期(N2)、NREM 3期(N3)、REM共五個階段。早期的睡眠分期是由睡眠專家將PSG數據劃分為一個個時長為30 s的片段,通過觀察每個片段時域信號的形態,并結合相鄰時段信息,根據經驗來判斷每個片段屬于哪一個睡眠階段。這個過程不僅費時,且分類結果容易受到專家主觀性的影響。為了提高分類效率,眾多研究者開始利用機器學習和深度學習算法來開發自動睡眠分期模型。
傳統機器學習方法,在很大程度上依賴于先驗知識和人工提取的特征,再使用機器學習算法進行特征選擇以及特征分類。這類型的研究一般通過從時域、頻域或時頻域中選擇和提取各種特征,再將其輸入到用于分類的傳統機器學習模型中[3-8],例如樸素貝葉斯[3]、支持向量機(support vector machine,SVM)[4]、隨機森林(random forest,RF)[5]等。例如,Seifpour等[6]通過一種名為局部極值統計行為(statistical behavior of local extrema,SBLE)的時域特征,將每個EEG片段分解為6個子頻帶,從每個子頻帶中計算SBLE特征,并通過特征選擇算法選取最優特征集,再使用SVM進行分類。
與傳統機器學習方法相比,深度學習算法可從數據的多樣性狀態中自動學習深層復雜特征[9-18],將其應用于睡眠分期領域時,大多數研究選擇使用單通道EEG信號或單模態信號作為輸入。例如,Li等[9]將單通道EEG信號通過時頻分析構造EEG信號頻譜圖,使用多層卷積神經網絡和兩層雙向長短期記憶網絡(bi-directional long short-term memory,Bi-LSTM)學習睡眠特征。Fan等[10]僅使用EOG信號預測睡眠分期,通過雙尺度卷積神經網絡提取原始EOG信號的顯著特征。此外,為揭示生理信號的復雜物理特征,驗證多模態數據對提高睡眠分期性能的有效性,Pei等[11]使用EEG、ECG、EMG、EOG等多模態生理信號,通過卷積神經網絡以及門控循環單元(gated recurrent units,GRU)獲取多模態信號中的深層特征。Jia等[12]提出一種自適應學習方法,將EEG、EOG、EMG以及ECG信號作為輸入,構建大腦連接功能圖,并從中獲取深層時空特征。在此基礎上,Jia等[13]對多模態生理信號構建了基于腦區功能連接和基于物理距離的兩種大腦視圖,提取睡眠深層特征,豐富了多模態數據的表現形式。Li等[14]在此基礎上,構建了時頻圖和大腦功能連接圖兩種視圖,捕獲多模態生理信號的時域、頻域、空域特征,提高了睡眠分期的整體性能。
然而,隨著層數的增加,單一尺度的深層網絡并不一定能夠獲取更豐富的深層信息,而且模型在計算過程中很容易發生梯度爆炸。為獲取多尺度全局信息,Supratak等[15]提出了著名的深度睡眠網絡(deep sleep network,DeepSleepNet)模型,該模型由具有不同尺度的雙分支一維卷積網絡和Bi-LSTM網絡構成。Huang等[16]在此基礎上,添加了基于擠壓激勵網絡(squeeze-and-excitation networks,SENet)的注意力模塊以融合獲取到的特征。Wang等[17]也提出一種多尺度雙注意力網絡,應用多尺度卷積神經網絡以及注意力機制捕捉EEG信號中的顯著波形特征。
為了克服單模態數據特征不夠豐富,以及單一尺度深度網絡在特征提取上的局限性,本文提出一種用于睡眠精準分期的多模態生理時頻特征提取網絡(multi-modal physiological time-frequency feature extraction network,MTFF-Net),將包含EEG、EOG、EMG、ECG的多模態PSG信號作為輸入,利用短時傅里葉變換(short-time Fourier transform,STFT)將多模態一維生理信號轉換為二維時頻特征圖像,并通過多尺度EEG緊湊卷積網絡(multi-scale EEG compact convolution network,Ms-EEGNet)學習與睡眠特征波相關的頻譜特征,通過雙向GRU(bi-directional GRU,Bi-GRU)網絡學習與睡眠階段轉換相關的深層時序特征,進而獲取到更豐富的睡眠相關時頻特征,以提高睡眠分期的精確度。
1 睡眠分期模型
本文所提模型的總體結構如圖1所示。首先,原始多模態PSG信號通過時頻分析方法轉換為二維時頻圖;然后,將時頻圖通過Ms-EEGNet和Bi-GRU網絡,學習與睡眠相關的深層時頻特征,并將獲取到的特征經過展平(flatten)層進行降維;最終,通過歸一化指數函數(softmax)層對獲取到的特征進行睡眠分期。

1.1 短時傅里葉變換
根據AASM判據,本文將原始多模態PSG信號劃分成長度為30 s的片段,簡稱輪次(epoch),用 表示每個epoch,其中1≤i≤N,N為序列長度,C為通道個數,L為單個epoch的長度。由于EEG數據具有非平穩性、非線性等特征,本文使用短時傅里葉變換將
轉換為包含時頻域信息的時頻圖,作為特征提取網絡的輸入。與傅里葉變換相比,短時傅里葉變換更能體現出信號頻率分量隨時間的變化情況[18]。
1.2 多尺度頻域特征提取
EEG緊湊卷積網絡(EEG compact convolution network,EEGNet)[19]引入橫向卷積(depthwise convolution,depthwiseConv)和可分離卷積(separable convolution,separableConv),取代了傳統的方形卷積,這一操作大大減少了參數量,降低了計算代價。文獻[20]使用多分支EEGNet結構,通過有效獲取原始EEG數據的空間和時間特征,提高了模型的泛化能力。受文獻[20]啟發,本文提出采用Ms-EEGNet獲取時頻圖所包含的深層頻域特征。
Ms-EEGNet基本結構如圖2所示。其中,單分支EEGNet由標準時間卷積、橫向卷積、可分離卷積三部分所構成。對于Ms-EEGNet網絡的三個分支,本文通過為每個分支設置不同的濾波器(filter)個數以及卷積核大小(kernel_size)來實現獲取多尺度特征的目的。首先,在標準時間卷積塊中,為每個分支分別設計4個大小為1 × 16、8個大小為1 × 32以及16個大小為1 × 64的filter,分別輸出4個、8個和16個包含了不同頻率信息的特征圖;接下來,在橫向卷積塊中,使用kernel_size為10 × 1、層數為2的橫向卷積總結每一個通道的特征映射;其中,10為通道數。這一操作不僅減少了訓練參數的數量,并能有效地提取特定頻率的相關性特征。然而,由于橫向卷積未能有效利用不同通道在相同空間位置上的特征信息。因此,在可分離卷積塊中,使用16個kernel_size為1 × 16的橫向卷積對每個特征圖在時間維度上單獨進行處理,再使用逐點卷積將上一層獲取到的特征圖在深度方向進行加權組合,獲取更適用于睡眠分期任務的特征圖;最后,將獲取到的特征圖進行連接(concat)。Ms-EEGNet網絡描述如式(1)~式(4)所示:

![]() |
![]() |
![]() |
![]() |
其中,f1(·)、f2(·)、f3(·)分別代表Ms-EEGNet的三個分支,Zi是使用短時傅里葉變換獲取到的時頻圖,F1 、F2 、F3分別代表每個分支獲取到的頻譜特征,代表連接操作,FTF是獲取到的多尺度頻譜特征。
1.3 深層時序特征提取
為了從Ms-EEGNet獲取的深層特征中,進一步挖掘相鄰epoch之間的時序相關性,本文針對每個epoch,首先將上一層獲取的頻譜特征與其相鄰epoch的頻譜特征相連接;然后,通過Bi-GRU網絡提取其深層時序特征。Bi-GRU網絡將GRU中的神經元分為前向層和后向層[21],這一操作不僅能從不同方向處理長距離時間序列,還能更好地挖掘睡眠階段轉換規則信息[22]。每個GRU前向傳播描述如式(5)~式(8)所示:
![]() |
![]() |
![]() |
![]() |
其中,zt更新門,rt重置門,“”表示兩個數值相乘,“
”表示矩陣之間的卷積運算,
是當前時刻的候選隱層狀態,ht是候選向量,ht ? 1是上一時刻隱層狀態,FTFt是當前時刻的輸入信息,σ (·)是S型生長曲線(sigmoid)激活函數,tanh(·)是tanh函數,Wz、Wr、W為超參數。
2 數據集與實驗設置
2.1 數據集
本文使用科英布拉大學系統與機器人研究所(institute of systems and robotics of the university of Coimbra,ISR-UC)與科英布拉大學醫院睡眠醫學中心(sleep medicine center of the hospital of Coimbra university,CHUC)共同采集并公開的ISR-UC第三組(ISR-UC subgroup 3,ISRUC-S3)睡眠數據集,對所提方法進行實驗驗證。該數據集收集了來自10名健康受試者整夜的PSG記錄,受試者包括9名男性和1名女性,其年齡在30~58歲之間。每名受試者的數據包含了6個EEG通道、3個EMG通道、1個ECG通道和2個EOG通道[23]的信號,所有信號以200 Hz的頻率進行采樣,并采用AASM標準,劃分為五個階段(W、N1、N2、N3、REM)。本文選擇了EEG信號采集的C3-A2、C4-A1、F3-A2、F4-A1、O1-A2、O2-A1通道,EOG信號采集的左側眼電糾正(left ocular correction,LOC)—A2和右側眼電糾正(right ocular correction,ROC)—A1通道,頦EMG(chin-EMG)通道和一個ECG通道的信號。首先將信號從200 Hz降采樣到100 Hz,并將數據劃分為每30 s一個的epoch。在使用Ms-EEGNet提取深層頻譜特征后,將每個epoch的特征與相鄰兩個epoch特征進行連接[14],從而得到8 549個epoch樣本,各個睡眠階段的樣本數量及占比如表1所示,具體數據描述參考文獻[23]。

2.2 實驗環境與設置
本文在硬件設置為圖形處理單元RTX 3 090(NVIDIA Inc,美國)和128 GB內存支持下,在計算機編程軟件Python3.6.0(python software foundation,美國)和符號數字系統Tensorflow-gpu 1.15.0(Google Inc,美國)框架下進行實驗。為了驗證模型的性能和泛化能力,本文采用留一交叉驗證(leave-one-subject-out)法進行獨立于受試者的實驗,共進行10折交叉驗證,每一折選取其中一個受試者的所有數據作為測試集,其余受試者的所有數據作為訓練集,以確保每個受試者的數據都被測試過,同時每一折的訓練集和測試集不會出現同一受試者的數據。將每一折測試集上的性能進行平均,作為模型的最終性能。實驗中設置每一折的訓練次數為200,批大小為16,學習率為2 × 10?5,優化器選擇自適應矩估計(adaptive moment estimation,Adam)算法。
2.3 評價指標
本文使用準確率(accuracy,Acc)、科恩卡帕(Cohen’s Kappa,Kappa)系數、宏觀F1得分(macro-F1,m-F1)、精度(precision,PR)、召回率(recall,RE)作為模型性能評價指標。F1值作為單個類別的評價指標。
3 實驗結果與分析
3.1 實驗結果
本文所提模型在ISRUC-S3數據集上的混淆矩陣如表2所示。

從表2可以看出,模型在W、N2、N3、REM階段都取得了不錯的分類性能,但對N1階段分類表現較差。這是因為N1階段處于清醒與睡眠的過渡時期,數據占比較少,且特征波形不明顯。
睡眠專家進行人工判定的睡眠圖與本文所提模型進行判定的睡眠圖部分對比結果如圖3所示,紅色為模型預測結果,灰色為人工判定結果。從圖3中可知,本文所提模型預測結果整體上與睡眠專家人工判定結果重合,僅在部分睡眠轉換階段,判定結果與睡眠專家不同,這是由于在睡眠階段轉換時期,其特征波形比較混亂,這也為本文在后續開展研究過程中提供了方向。

3.2 模型有效性驗證
3.2.1 多分支結構的有效性驗證
為驗證本文所提Ms-EEGNet模型結構的有效性,設計了如下兩種方法進行對比實驗:
(1)單分支+Bi-GRU:使用多模態數據,通過單分支EEGNet與Bi-GRU網絡獲取時頻圖特征。其中,在EEGNet的標準時間卷積部分,參數值設置為:filter = 16,kernel_size = 1 × 32。
(2) 雙分支+Bi-GRU:使用多模態數據,通過雙分支EEGNet與Bi-GRU網絡獲取時頻圖特征。其中,在每個分支EEGNet的標準時間卷積部分,參數值分別設置為:① filter = 4,kernel_size = 1 × 16;② filter = 32,kernel_size = 1 × 64。
(3) Ms-EEGNet+Bi-GRU(即本文所提模型):使用多模態數據,通過三分支EEGNet與Bi-GRU網絡獲取時頻圖特征。其中,在每個分支EEGNet的標準時間卷積部分,參數值分別設置為:① filter = 4,kernel_size = 1 × 16;② filter = 16,kernel_size = 1 × 32 ;③ filter = 32,kernel_size = 1 × 64。
多分支結構有效性驗證結果如表3所示,粗體為最優結果,帶下劃線為次優結果。由表3可知,本文所提Ms-EEGNet模型的性能最優,分析其原因是由于多分支結構可以從不同尺度捕獲與睡眠特征波形相關的全局頻譜特征,從而提高睡眠分期的準確性。

3.2.2 時域特征提取網絡的有效性驗證
為驗證本文所使用的單層Bi-GRU網絡對時域特征提取的有效性,分別采用LSTM、Bi-LSTM、GRU、時序卷積網絡(temporal convolutional network,TCN)以及雙層Bi-GRU網絡等不同的時序特征提取方法,結合Ms-EEGNet,在數據集ISRUC-S3上進行對比實驗,結果如圖4所示。

從圖4中可知,單層Bi-GRU網絡的性能最優,且Bi-LSTM與Bi-GRU網絡的分類性能優于GRU和LSTM,分析其原因可能是因為雙向循環神經網絡所設置的前向層和后向層,能有效地捕捉了睡眠階段之間的轉換規則,更適用于睡眠分期等時序分類任務;GRU網絡性能優于LSTM網絡,可能是由于GRU的參數量相對較少,模型更容易收斂;然而,增加Bi-GRU網絡的層數,模型性能并未得到改善,可能是由于模型出現過擬合,導致無法提取更具判別性的深層特征;TCN的分類性能較低,可能是由于睡眠階段轉換發生在相鄰epoch之間,而TCN的卷積操作無法從連續序列中學習到這種長期依賴關系。因此,單層Bi-GRU網絡更適合從相鄰的多個epoch序列中提取睡眠階段轉換的時序信息。
3.2.3 模型消融實驗
為驗證使用多模態數據以及本文所提模型各模塊的有效性,基于本文所提方法(即MTFF-Net),設計了如下兩種變體模型進行消融實驗。具體細節如下:
(1) 變體一:使用多模態數據,僅通過Ms-EEGNet對時頻圖像進行頻域特征提取, 驗證提取時域特征對睡眠分期性能的影響。
(2) 變體二:使用單模態EEG數據,通過Ms-EEGNet與Bi-GRU網絡,驗證使用多模態數據的有效性。
(3)本文所提方法:使用多模態數據,通過結合了Ms-EEGNet以及Bi-GRU網絡提取時頻圖像的深層時頻特征。
消融實驗結果如表4所示,其中粗體為最優結果。變體一僅使用Ms-EEGNet對時頻圖進行特征提取,其準確率達到83.8%,這表明使用本文所提的多尺度網絡結構,有助于獲取更豐富的睡眠頻域特征,但變體一未對相鄰epoch之間的時間相關性進行深層分析。因此,獲取各epoch之間的時序信息對睡眠分期至關重要;變體二使用EEG數據進行時頻特征提取,其準確率為83.3%,是由于不同模態信息對睡眠分期的貢獻不同,多模態數據具有更豐富且互補的特征;本文所提基于多模態數據的多尺度時頻特征提取網絡,取得了最優分類性能,是因為多模態數據結合了不同生理信號的信息,多尺度特征提取網絡獲取到更豐富的深層頻譜特征,結合循環卷積網絡可獲取到睡眠深層時序特征。

3.3 與現有最優模型比較
將本文所提模型與目前其他主流模型[4, 7, 12-15],在ISRUC-S3數據集上的分類性能進行比較,結果如表5所示;其中,粗體為最優結果,帶下劃線為次優結果。相較于機器學習方法,本文方法在不依賴于先驗知識的情況下,表現出更強的學習能力。相較于現有最優的深度學習方法,本文所提模型分類準確率達到84.3%,比次優模型多視圖融合睡眠分期網絡(multi-view fusion sleep stage classification network,MVF-SleepNet)有所提高;且m-F1和Kappa均比次優模型提高;而在W及N1階段同樣比次優模型均有提高。對比發現,本文所提模型表現出了更優的分類性能。

4 總結
為充分獲取多模態PSG數據的深層時頻域特征,本文提出了一種用于睡眠精準分期的多模態生理時頻特征提取網絡MTFF-Net,利用Ms-EEGNet提取多尺度頻譜特征,利用Bi-GRU網絡提取深層時序特征。通過對實驗結果進行分析,并與現有最優方法在公開數據集ISRUC-S3上的分類性能進行對比,證明了本文方法在睡眠分期任務上的合理性和優越性。然而,本文方法在訓練過程中使用了100%帶標簽的數據,但在實際臨床診斷中,很難預先獲取患者的數據以及對應的標簽。因此,在后續研究中,將通過遷移學習等方法,進一步挖掘多模態數據的有效性,提高模型的泛化能力,構建更適合臨床診斷的睡眠階段分類方法。
重要聲明
利益沖突聲明:本文全體作者均聲明不存在利益沖突。
作者貢獻聲明:胡凱蕾主要負責數據處理、模型設計與優化、論文撰寫;陳景霞負責實驗指導、論文審閱與修訂;張鵬偉、謝佳負責模型優化的指導;雪雯負責圖表繪制。