近年來,已有研究證明基于語音數據可實現帕金森病(PD)的診斷,但是目前相關研究主要集中在特征提取及分類器設計等方面,對于樣本優選方面考慮不足。本課題組前期研究結果表明,樣本優選可有效改進分類準確性,但是樣本和語音的相關關系至今還未能深入研究。因此,本文提出了基于相關特征加權和多核學習算法,同時對語音段和特征進行優選,用于發現語音段和特征的協同效應,從而達到提升 PD 分類準確性的目的。實驗結果表明,本文算法針對受試者的分類準確率達到了 82.5%,較已有文獻算法提高了 30.5%。此外,本文算法還挖掘出了語音段和特征的協同效應,對語音標記物提取有一定參考價值。
引用本文: 張小恒, 王力銳, 曹垚, 王品, 張成, 楊劉洋, 李勇明, 張艷玲, 承歐梅. 混合語音段特征雙邊式優選算法用于帕金森病分類研究. 生物醫學工程學雜志, 2017, 34(6): 942-948. doi: 10.7507/1001-5515.201704061 復制
引言
帕金森病(Parkinson’s disease,PD)是一種常見的神經系統退行性疾病,又稱巴金森氏癥或柏金遜癥,多在 60 歲以后發病。在 PD 患者中,有 50%~80% 的病例起病隱襲,早期難以察覺而常被忽視,因此容易造成漏診。該病一旦生成將對患者生活造成極大影響,且無法治愈和逆轉[1]。在發病早期,患者主要表現為功能障礙,如運動遲緩、肌僵直、手指震顫、語言障礙和發音困難等,并伴有大腦語言功能區病變[2-4]。研究表明,通過提取 PD 患者語音特征并采用模式識別分類的方式,可以檢測患者語言功能性障礙并能對其進行分類診斷[5]。因此,語音分析是實現 PD 無創診斷的有效方式。
Little 等[6-7]最早基于機器學習對受試者語音信號分析,實現了 PD 分類,并提供了一個數據庫。Sakar 等[8]提供了另一個帕金森語音數據庫。大部分國內外相關研究都是基于這兩個數據庫展開的。目前,特征參數提取的主要類型有基音類型(pitch type)、能量類型(energy type)、語速類型(speed type)和語義類型(content type)[6-10]。特征選擇或變換的方法主要有:主成分分析(principal component analysis,PCA)[11-12]、神經網絡方法(neural network)[13-14]、串行搜索法[11-12]、基于進化計算法[14]和熵信息法[15]。分類器的方法主要有:支持向量機(support vector machine,SVM)[7-8, 14]、K 最近鄰網絡(K-nearest neighbor,KNN)[7-8]、隨機森林(random forest,RF)[7]和決策樹[16]等。
上述研究均通過基于語音數據的機器學習實現了 PD 分類,并取得了一定的分類準確性,但絕大多數并沒有考慮樣本優選。根據模式識別理論可知,樣本優選可以改善樣本結構特性,從而提高對分類器的訓練效果,改善分類準確性[17]。本課題組前期研究將樣本優選用于 PD 分類,取得了明顯的改進效果[18]。但是,該項工作仍然沒有考慮語音段和語音特征之間的關系,沒有在樣本優選的同時考慮特征的優選,限制了準確性的進一步提高,也無法實現對語音段和語音特征之間的關系研究。基于此,本文設計了一種基于相關特征選擇(Relief)加權的 PD 分類算法[19]。該算法同時優選語音段和特征,用于挖掘語音段與特征之間的協同效應,有助于獲取更高效特征,從而明顯改進 PD 的分類準確性。
1 基于混合語音段特征雙邊式優選的 PD 分類算法
1.1 方法總體簡述
本文算法流程簡圖如圖 1 所示。首先,進行語音特征集變換,將同一受試者中所有語音段樣本所對應的特征向量擴展成一個特征矩陣(混合特征,特征圖)(M × N,M 為語音段數,N 為特征數),形成受試者的待選混合特征圖;然后采用留一法(leave-one-out,LOO)將樣本集劃分為訓練樣本集和測試樣本集;接著基于訓練樣本集,采用 Relief 算法計算混合特征的權重;基于其權重,構造閾值,進行特征選擇,從而得到優選后的混合特征子集;之后,基于混合特征子集,獲得重構后的訓練集與測試集;最后設計多核 SVM 分類器[20],對重構后的訓練集與測試集分別訓練、測試,得到分類結果。

由于本文算法中混合特征來源于不同測試語音段的原有特征,因此本文特征選擇本質上是對語音段及語音特征的同時優選,這樣做的結果有利于發現兩者之間的相互關系,從而挖掘出更優質的特征。針對優選后的混合特征,本文算法采用多核 SVM 分類器進行分類。相較于單核 SVM 分類器,該分類器更有助于應對復雜的數據分布。為了便于描述,本文算法記為基于語音段特征雙邊式優選的 PD 分類算法(F&S_FS_for_PD)。可以看出,目前多數相關算法均主要關注于語音特征選擇,因此可以看成是本文算法的特例,記為:F_FS_for_PD。作者前期改進算法專注于樣本優選,也可以看成是本文算法的特例,記為:S_FS_for_PD。
1.2 算法實現與分析
1.2.1 主體算法流程
首先進行數據說明:樣本數據集陣列
,其中樣本向量
,
,標簽向量
,樣本總數為 H,每個樣本的特征數(向量分量數)為 N,全體樣本劃分為 M 個受試者(subject),即每個受試者包含的樣本數為:H1 = H/M;
本文算法主體算法的步驟如下:
步驟 1:語音特征集變換。變換后語音特征集為
,其中
,僅進行樣本優選此步驟可以跳過;
步驟 2:將變換后的數據集 S′ 按留一法劃分為訓練集
及相應標簽,
和測試集
及相應標簽
;
步驟 3:零均值(z-score)標準化訓練集生成新集合
,并采用 Relief 算法計算權重值
;
步驟 4:按權重值從大到小對特征依次進行排序,將優選后剩下的特征數作為門限對訓練集及測試集進行特征優選;
步驟 5:構造多核 SVM 模型進行訓練及測試;
步驟 6:按留一法計算準確率、靈敏度和特異度。
1.2.2 混合語音特征權重子模塊
基于 Relief 算法的混合語音特征權重計算子模塊的算法描述如下:
步驟 1:初始化權重向量
,并依次選擇一個樣本,其向量表達為
,
;
步驟 2:從與
同類的樣本中選擇最近的 R 個近鄰,構造矩陣
,從與
異類的樣本中選擇 R 個近鄰,構造矩陣
;
步驟 3:根據式 Wj = Wj – a + b 更新特征權重向量分量,其中樣本與同類近鄰相應分量的距離累計量
,樣本與異類近鄰相應分量的距離累計量
;
步驟 4:遍歷所有樣本累計計算得到最終的權重向量。
1.2.3 多核學習子模塊
多核學習子模塊的算法流程如下:
步驟 1:構造子核函數
和
,表達式如下:
,
;
步驟 2:基于子函數構造多核核函數:
,滿足條件
,
;
步驟 3:基于訓練數據集 xm 及相應標簽
,采用梯度下降法對權重 dm 進行迭代尋優。
2 實驗結果與分析
2.1 實驗條件
本文選用 Sakar 等[8]于 2013 年創建的較新的 PD 數據集,并基于其訓練數據中的 40 個受試者(每個受試者有 26 個訓練樣本,每個樣本由 26 維特征參數構成特征向量)進行留一法交叉驗證,即分類是基于受試者的留一法進行的,記為受試者留一法(leave-one-subject-out,LOSO)。該驗證法下,訓練集和測試集來自于不同的受試者。此類驗證方法不同于以往相關研究常采用的樣本留一法和 K 階交叉檢驗法(k-fold cross validation),不會出現訓練集與測試集的樣本來自同一受試者的情況,從而保證分類準確率不會虛高,符合實際診斷情況。此外,本文算法的性能評估準則參見文獻[18]。
2.2 特征不變時語音段優選結果與分析
2.2.1 分類準確率分析
如表 1 所示,語音特征固定不變,采用 Relief 算法計算訓練集樣本權重并按降序排序,取前 N 個樣本作為優選后的樣本序列,生成新的訓練集和測試集并重新訓練測試;計算優選后語音樣本數 N 與分類準確率、敏感度、特異度的對應關系。分類器使用多核 SVM。通過優化獲得多核 SVM 的權重系數為:d1 = 0.6,d2 = 0.4。如表 1 所示,顯示了語音樣本優選后的分類準確性高于 60% 的情況。

如表 1 所示,通過不同語音段組合,可以獲得較高分類準確率,表 1 中大多數結果要優于文獻[7]的結果。此外,不同語音段組合的分類準確性不同,這一規律表明語音段樣本優選對 PD 分類非常重要。
2.2.2 語音段的權重分布
如圖 2 所示,不同語音段的權重分布有所不同。其中,橫坐標為語音段序號,縱坐標為該語音段的權重值。如圖 2 所示,權重最大的樣本是第 6 個樣本,其所對應的測試語音是數字“3”。表 1 中優選后語音段數為 1 時準確率達到最高,其所對應也是第 6 個樣本即數字“3”,表明了利用該樣本進行分類的準確性能達到最優。第 18 個樣本權重為第二大。根據數據集說明可見,該樣本是土耳其詞匯(數據集中未標明詞匯的具體內容)。這說明,適當選擇詞匯作為測試樣本也有利于區分正常人和 PD 患者。

2.2.3 語音段優選前后對比分析
為了驗證語音段優選的有效性,本組實驗對語音段樣本優選前后的可分度進行了比較分析,如圖 3 所示,訓練樣本集包含有 M 個健康對照樣本(normal control,NC)及 N 個 PD 樣本。該圖隨機選取了 26 個特征中的兩個特征組成二維向量用于度量樣本的可分性,橫坐標表示特征 1 的值,縱坐標表示特征 2 的值,兩個特征的值均為歸一化值。如圖 3 所示,優選前的原始語音段樣本數為 26,優選規則按照取最大語音段權重值前 15 個進行優選生成優選后的語音段樣本。

取 NC 樣本的兩個特征 ai1,ai2 及 PD 樣本對應的兩個特征 bi1,bi2,計算其距離可分度值如下:
![]() |
其中,
,
,通過式(1)計算可得,優選前距離可分度為 0.048 2,優選后距離可分度為 0.056 0,性能提升了 16.2%,可見語音段優選是有效的。
2.3 特征語音段同時優選結果與分析
2.3.1 分類器優選效果對比分析
合并 26 個語音段的 26 個語音特征,形成 676 個待選混合特征,組成待選混合特征集。采用梯度下降法優化獲得多核 SVM 的權重系數,分別為:d1 = 0.8,d2 = 0.2。
如圖 4 所示為采用 Relief 算法優選后混合特征與分類準確率的關系圖。混合特征按權重大小排序后,取前 N 個特征來進行分類識別,得到對應的分類準確率。橫坐標為優選后混合特征數目,縱坐標為分類準確率。圖片中箭頭處表明最優分類準確率及對應的優選后特征語音段數(混合特征數)。

如圖 4 所示,當混合特征達到 20 左右以后,分類準確率迅速上升到 70% 以上。圖中箭頭所指,當 N = 363 時,分類準確率達到最大,為 82.5%。設比例系數 K = N/特征總數,當 K = 1/2,準確率為 80%;K = 1/4,準確率 80%;K = 1/6,準確率為 70%;K = 1/8,準確率 65%。混合特征與分類準確率關系比較明確,但大多數情況下,分類準確率變化都比較平穩。
2.3.2 語音段與特征分布特性分析
如圖 5 所示為混合特征權重圖。各特征權重值為所有受試者采用留一法交叉驗證后,所有受試者特征權重值線性疊加所得。橫坐標為特征序號,縱坐標為語音段樣本序號。

如圖 5 所示,權重值大的色塊的分布區域相對較集中且數量較少,絕大部分色塊的權重值較小。可以發現,基于同樣的特征和不同語音段,權重差別較大,這說明不考慮語音段樣本的差別而去單獨考察特征的重要性具有一定的局限性。以 a,b 兩處色塊區域為例,其所處的語音段序號為 7 和 17,具體含義為數字“4”的發音和一個短句子(數據集中未標明具體內容),而所對應的特征序號為 1~5,具體特征為連續周期相對差[Jitter (local)]、連續周期絕對差[Jitter(local,absolute)]、周期相對平均擾動[Jitter (rap)]、五點周期擾動商[Jitter(ppq5)]、連續周期平均絕對差[Jitter (ddp)],即全部都是頻率微擾(Jitter)的絕對值或相對值。說明對于第 7 個和第 17 個語音段而言,頻率微擾的相關特征非常有效,結合這些特征與上述兩個語音段,可以有效鑒別 PD 患者,這說明它們之間具有很明顯的協同效應。
2.3.3 分類準確率分析
如表 2 所示為本文算法的分類對比結果。本文處理的數據集來自文獻[8],因此本文算法與該文獻的算法進行比較很有意義。此外,許多相關研究文獻都采用了基于線性和徑向基核函數 SVM 分類算法,因此本文也將其作為被比較算法加以對比。為了更深入驗證本文算法有效性,將語音特征固定,同時考察本文算法的簡化版,記為 S_FS_for_PD 算法。本文算法完整版為基于語音段特征雙邊式優選的 PD 分類算法,記為 F&S_FS_for_PD 算法。
如表 2 所示,相較于 SVM 方法,本文算法取得了較為明顯的改進效果。在準確率上,本文算法從 67.5% 提高到 82.5%,改進了 15%;在靈敏度上,本文算法仍然保持了現有方法的最高水平 80%;在特異度上,本文算法從 65% 提高到 85%,改進了 20%。相較于文獻[8]的準確率結果,本文算法從 52% 提高到 82.5%,改進了 30.5%。比較本文算法的兩個版本(S_FS_for_PD 和 F&S_FS_for_PD)可以發現,語音段和語音特征同時優選更有利于挖掘高質量特征,從而實現更好的分類準確率。相較于前者,在準確率上,后者從 70% 提高到 82.5%,改進了 12.5%;在靈敏度上,后者從 75% 提高到 80%,改進了 5%;在特異度上,后者從 65% 提高到 85%,改進了 20%。

3 結論
基于語音數據實現 PD 診斷是有效的,但目前絕大多數相關研究沒有考慮樣本優選。作者前期研究結果表明,樣本優選能帶來明顯的改進效果,但未考慮與特征同時優化。基于此,本文進一步提出了對語音段和特征同時優選,結合多核學習以發現語音段和特征的協同效應,用于提取更高效特征,從而提升 PD 分類準確性。實驗結果表明,本文算法取得了明顯的改進效果,分類準確率、靈敏度及特異度均有明顯提高。此外,本文算法還可以定量評估不同語音段和語音特征的協同效應,對于研究語音段特征與 PD 的關系及語音標記物提取有一定的參考價值。
引言
帕金森病(Parkinson’s disease,PD)是一種常見的神經系統退行性疾病,又稱巴金森氏癥或柏金遜癥,多在 60 歲以后發病。在 PD 患者中,有 50%~80% 的病例起病隱襲,早期難以察覺而常被忽視,因此容易造成漏診。該病一旦生成將對患者生活造成極大影響,且無法治愈和逆轉[1]。在發病早期,患者主要表現為功能障礙,如運動遲緩、肌僵直、手指震顫、語言障礙和發音困難等,并伴有大腦語言功能區病變[2-4]。研究表明,通過提取 PD 患者語音特征并采用模式識別分類的方式,可以檢測患者語言功能性障礙并能對其進行分類診斷[5]。因此,語音分析是實現 PD 無創診斷的有效方式。
Little 等[6-7]最早基于機器學習對受試者語音信號分析,實現了 PD 分類,并提供了一個數據庫。Sakar 等[8]提供了另一個帕金森語音數據庫。大部分國內外相關研究都是基于這兩個數據庫展開的。目前,特征參數提取的主要類型有基音類型(pitch type)、能量類型(energy type)、語速類型(speed type)和語義類型(content type)[6-10]。特征選擇或變換的方法主要有:主成分分析(principal component analysis,PCA)[11-12]、神經網絡方法(neural network)[13-14]、串行搜索法[11-12]、基于進化計算法[14]和熵信息法[15]。分類器的方法主要有:支持向量機(support vector machine,SVM)[7-8, 14]、K 最近鄰網絡(K-nearest neighbor,KNN)[7-8]、隨機森林(random forest,RF)[7]和決策樹[16]等。
上述研究均通過基于語音數據的機器學習實現了 PD 分類,并取得了一定的分類準確性,但絕大多數并沒有考慮樣本優選。根據模式識別理論可知,樣本優選可以改善樣本結構特性,從而提高對分類器的訓練效果,改善分類準確性[17]。本課題組前期研究將樣本優選用于 PD 分類,取得了明顯的改進效果[18]。但是,該項工作仍然沒有考慮語音段和語音特征之間的關系,沒有在樣本優選的同時考慮特征的優選,限制了準確性的進一步提高,也無法實現對語音段和語音特征之間的關系研究。基于此,本文設計了一種基于相關特征選擇(Relief)加權的 PD 分類算法[19]。該算法同時優選語音段和特征,用于挖掘語音段與特征之間的協同效應,有助于獲取更高效特征,從而明顯改進 PD 的分類準確性。
1 基于混合語音段特征雙邊式優選的 PD 分類算法
1.1 方法總體簡述
本文算法流程簡圖如圖 1 所示。首先,進行語音特征集變換,將同一受試者中所有語音段樣本所對應的特征向量擴展成一個特征矩陣(混合特征,特征圖)(M × N,M 為語音段數,N 為特征數),形成受試者的待選混合特征圖;然后采用留一法(leave-one-out,LOO)將樣本集劃分為訓練樣本集和測試樣本集;接著基于訓練樣本集,采用 Relief 算法計算混合特征的權重;基于其權重,構造閾值,進行特征選擇,從而得到優選后的混合特征子集;之后,基于混合特征子集,獲得重構后的訓練集與測試集;最后設計多核 SVM 分類器[20],對重構后的訓練集與測試集分別訓練、測試,得到分類結果。

由于本文算法中混合特征來源于不同測試語音段的原有特征,因此本文特征選擇本質上是對語音段及語音特征的同時優選,這樣做的結果有利于發現兩者之間的相互關系,從而挖掘出更優質的特征。針對優選后的混合特征,本文算法采用多核 SVM 分類器進行分類。相較于單核 SVM 分類器,該分類器更有助于應對復雜的數據分布。為了便于描述,本文算法記為基于語音段特征雙邊式優選的 PD 分類算法(F&S_FS_for_PD)。可以看出,目前多數相關算法均主要關注于語音特征選擇,因此可以看成是本文算法的特例,記為:F_FS_for_PD。作者前期改進算法專注于樣本優選,也可以看成是本文算法的特例,記為:S_FS_for_PD。
1.2 算法實現與分析
1.2.1 主體算法流程
首先進行數據說明:樣本數據集陣列
,其中樣本向量
,
,標簽向量
,樣本總數為 H,每個樣本的特征數(向量分量數)為 N,全體樣本劃分為 M 個受試者(subject),即每個受試者包含的樣本數為:H1 = H/M;
本文算法主體算法的步驟如下:
步驟 1:語音特征集變換。變換后語音特征集為
,其中
,僅進行樣本優選此步驟可以跳過;
步驟 2:將變換后的數據集 S′ 按留一法劃分為訓練集
及相應標簽,
和測試集
及相應標簽
;
步驟 3:零均值(z-score)標準化訓練集生成新集合
,并采用 Relief 算法計算權重值
;
步驟 4:按權重值從大到小對特征依次進行排序,將優選后剩下的特征數作為門限對訓練集及測試集進行特征優選;
步驟 5:構造多核 SVM 模型進行訓練及測試;
步驟 6:按留一法計算準確率、靈敏度和特異度。
1.2.2 混合語音特征權重子模塊
基于 Relief 算法的混合語音特征權重計算子模塊的算法描述如下:
步驟 1:初始化權重向量
,并依次選擇一個樣本,其向量表達為
,
;
步驟 2:從與
同類的樣本中選擇最近的 R 個近鄰,構造矩陣
,從與
異類的樣本中選擇 R 個近鄰,構造矩陣
;
步驟 3:根據式 Wj = Wj – a + b 更新特征權重向量分量,其中樣本與同類近鄰相應分量的距離累計量
,樣本與異類近鄰相應分量的距離累計量
;
步驟 4:遍歷所有樣本累計計算得到最終的權重向量。
1.2.3 多核學習子模塊
多核學習子模塊的算法流程如下:
步驟 1:構造子核函數
和
,表達式如下:
,
;
步驟 2:基于子函數構造多核核函數:
,滿足條件
,
;
步驟 3:基于訓練數據集 xm 及相應標簽
,采用梯度下降法對權重 dm 進行迭代尋優。
2 實驗結果與分析
2.1 實驗條件
本文選用 Sakar 等[8]于 2013 年創建的較新的 PD 數據集,并基于其訓練數據中的 40 個受試者(每個受試者有 26 個訓練樣本,每個樣本由 26 維特征參數構成特征向量)進行留一法交叉驗證,即分類是基于受試者的留一法進行的,記為受試者留一法(leave-one-subject-out,LOSO)。該驗證法下,訓練集和測試集來自于不同的受試者。此類驗證方法不同于以往相關研究常采用的樣本留一法和 K 階交叉檢驗法(k-fold cross validation),不會出現訓練集與測試集的樣本來自同一受試者的情況,從而保證分類準確率不會虛高,符合實際診斷情況。此外,本文算法的性能評估準則參見文獻[18]。
2.2 特征不變時語音段優選結果與分析
2.2.1 分類準確率分析
如表 1 所示,語音特征固定不變,采用 Relief 算法計算訓練集樣本權重并按降序排序,取前 N 個樣本作為優選后的樣本序列,生成新的訓練集和測試集并重新訓練測試;計算優選后語音樣本數 N 與分類準確率、敏感度、特異度的對應關系。分類器使用多核 SVM。通過優化獲得多核 SVM 的權重系數為:d1 = 0.6,d2 = 0.4。如表 1 所示,顯示了語音樣本優選后的分類準確性高于 60% 的情況。

如表 1 所示,通過不同語音段組合,可以獲得較高分類準確率,表 1 中大多數結果要優于文獻[7]的結果。此外,不同語音段組合的分類準確性不同,這一規律表明語音段樣本優選對 PD 分類非常重要。
2.2.2 語音段的權重分布
如圖 2 所示,不同語音段的權重分布有所不同。其中,橫坐標為語音段序號,縱坐標為該語音段的權重值。如圖 2 所示,權重最大的樣本是第 6 個樣本,其所對應的測試語音是數字“3”。表 1 中優選后語音段數為 1 時準確率達到最高,其所對應也是第 6 個樣本即數字“3”,表明了利用該樣本進行分類的準確性能達到最優。第 18 個樣本權重為第二大。根據數據集說明可見,該樣本是土耳其詞匯(數據集中未標明詞匯的具體內容)。這說明,適當選擇詞匯作為測試樣本也有利于區分正常人和 PD 患者。

2.2.3 語音段優選前后對比分析
為了驗證語音段優選的有效性,本組實驗對語音段樣本優選前后的可分度進行了比較分析,如圖 3 所示,訓練樣本集包含有 M 個健康對照樣本(normal control,NC)及 N 個 PD 樣本。該圖隨機選取了 26 個特征中的兩個特征組成二維向量用于度量樣本的可分性,橫坐標表示特征 1 的值,縱坐標表示特征 2 的值,兩個特征的值均為歸一化值。如圖 3 所示,優選前的原始語音段樣本數為 26,優選規則按照取最大語音段權重值前 15 個進行優選生成優選后的語音段樣本。

取 NC 樣本的兩個特征 ai1,ai2 及 PD 樣本對應的兩個特征 bi1,bi2,計算其距離可分度值如下:
![]() |
其中,
,
,通過式(1)計算可得,優選前距離可分度為 0.048 2,優選后距離可分度為 0.056 0,性能提升了 16.2%,可見語音段優選是有效的。
2.3 特征語音段同時優選結果與分析
2.3.1 分類器優選效果對比分析
合并 26 個語音段的 26 個語音特征,形成 676 個待選混合特征,組成待選混合特征集。采用梯度下降法優化獲得多核 SVM 的權重系數,分別為:d1 = 0.8,d2 = 0.2。
如圖 4 所示為采用 Relief 算法優選后混合特征與分類準確率的關系圖。混合特征按權重大小排序后,取前 N 個特征來進行分類識別,得到對應的分類準確率。橫坐標為優選后混合特征數目,縱坐標為分類準確率。圖片中箭頭處表明最優分類準確率及對應的優選后特征語音段數(混合特征數)。

如圖 4 所示,當混合特征達到 20 左右以后,分類準確率迅速上升到 70% 以上。圖中箭頭所指,當 N = 363 時,分類準確率達到最大,為 82.5%。設比例系數 K = N/特征總數,當 K = 1/2,準確率為 80%;K = 1/4,準確率 80%;K = 1/6,準確率為 70%;K = 1/8,準確率 65%。混合特征與分類準確率關系比較明確,但大多數情況下,分類準確率變化都比較平穩。
2.3.2 語音段與特征分布特性分析
如圖 5 所示為混合特征權重圖。各特征權重值為所有受試者采用留一法交叉驗證后,所有受試者特征權重值線性疊加所得。橫坐標為特征序號,縱坐標為語音段樣本序號。

如圖 5 所示,權重值大的色塊的分布區域相對較集中且數量較少,絕大部分色塊的權重值較小。可以發現,基于同樣的特征和不同語音段,權重差別較大,這說明不考慮語音段樣本的差別而去單獨考察特征的重要性具有一定的局限性。以 a,b 兩處色塊區域為例,其所處的語音段序號為 7 和 17,具體含義為數字“4”的發音和一個短句子(數據集中未標明具體內容),而所對應的特征序號為 1~5,具體特征為連續周期相對差[Jitter (local)]、連續周期絕對差[Jitter(local,absolute)]、周期相對平均擾動[Jitter (rap)]、五點周期擾動商[Jitter(ppq5)]、連續周期平均絕對差[Jitter (ddp)],即全部都是頻率微擾(Jitter)的絕對值或相對值。說明對于第 7 個和第 17 個語音段而言,頻率微擾的相關特征非常有效,結合這些特征與上述兩個語音段,可以有效鑒別 PD 患者,這說明它們之間具有很明顯的協同效應。
2.3.3 分類準確率分析
如表 2 所示為本文算法的分類對比結果。本文處理的數據集來自文獻[8],因此本文算法與該文獻的算法進行比較很有意義。此外,許多相關研究文獻都采用了基于線性和徑向基核函數 SVM 分類算法,因此本文也將其作為被比較算法加以對比。為了更深入驗證本文算法有效性,將語音特征固定,同時考察本文算法的簡化版,記為 S_FS_for_PD 算法。本文算法完整版為基于語音段特征雙邊式優選的 PD 分類算法,記為 F&S_FS_for_PD 算法。
如表 2 所示,相較于 SVM 方法,本文算法取得了較為明顯的改進效果。在準確率上,本文算法從 67.5% 提高到 82.5%,改進了 15%;在靈敏度上,本文算法仍然保持了現有方法的最高水平 80%;在特異度上,本文算法從 65% 提高到 85%,改進了 20%。相較于文獻[8]的準確率結果,本文算法從 52% 提高到 82.5%,改進了 30.5%。比較本文算法的兩個版本(S_FS_for_PD 和 F&S_FS_for_PD)可以發現,語音段和語音特征同時優選更有利于挖掘高質量特征,從而實現更好的分類準確率。相較于前者,在準確率上,后者從 70% 提高到 82.5%,改進了 12.5%;在靈敏度上,后者從 75% 提高到 80%,改進了 5%;在特異度上,后者從 65% 提高到 85%,改進了 20%。

3 結論
基于語音數據實現 PD 診斷是有效的,但目前絕大多數相關研究沒有考慮樣本優選。作者前期研究結果表明,樣本優選能帶來明顯的改進效果,但未考慮與特征同時優化。基于此,本文進一步提出了對語音段和特征同時優選,結合多核學習以發現語音段和特征的協同效應,用于提取更高效特征,從而提升 PD 分類準確性。實驗結果表明,本文算法取得了明顯的改進效果,分類準確率、靈敏度及特異度均有明顯提高。此外,本文算法還可以定量評估不同語音段和語音特征的協同效應,對于研究語音段特征與 PD 的關系及語音標記物提取有一定的參考價值。