“統計大講堂”第146講回顧—“數據科學專題”3:大維數據譜聚類算法的性能與復雜度權衡

3月24日下午,“統計大講堂”系列講座第146講舉行。本次講座采取在線會議及直播的方式,邀請加州大學伯克利分校博士后廖振宇作題為“大維數據譜聚類算法的性能與復雜度權衡”的報告。講座由師資博士后王睿老師主持,統計學院王星、許王莉等教師與眾多學生參與本次講座。

王睿首先介紹了報告人的相關信息。廖振宇是加州大學伯克利分校的博士后,合作導師是Michael Mahoney,即將入職華中科技大學任副教授。廖振宇的研究興趣包括機器學習、信號處理、隨機矩陣理論和高維統計。廖振宇于2019年獲得巴黎薩克雷大學的ED STIC Ph.D. Student Award,于2016年獲得 Supélec Foundation Ph.D. Fellowship;在IEEE Transactions on Signal Processing,The Annals of Applied Probability等學術期刊與ICLR, NeurIPS, ICML等學術會議上發表學術論文10余篇;擔任加拿大自然科學和工程研究理事會外部評審專家以及JMLR, IEEE TPAMI, IEEE TSP, NeurIPS, ICML, ICLR, AAAI等期刊和會議的審稿人。

廖振宇首先介紹了研究的背景、問題和目標。在大數據時代,數據的數目和維度都非常大,帶來了計算層面的挑戰。一般解決思路是把機器學習的模型或算法進行某種程度的壓縮。此時,關于算法性能與計算、儲存復雜度的平衡關系的問題自然產生。那么一個重要的課題是:如何從理論上來刻畫并理解算法性能和復雜度的平衡問題,如何給出最優設計,以及這個設計應該如何依賴于數據。在本項工作中,廖振宇針對基于核方法的無監督譜聚類算法研究了以上問題。

廖振宇首先回顧了基于核方法的譜聚類?;诤朔椒ǖ淖V聚類分兩個步驟:首先構建核矩陣并提取特征值和特征向量,然后通過特征向量實現高維數據的低維表示,并針對低維表示用EM或k-means方法進行聚類。他還分兩部分詳細介紹了研究結果:在第一部分,考慮了對格萊姆矩陣做均勻稀疏化,給出了相應的極限譜測度和特征向量的收斂性與相變現象;在第二部分,進一步考慮了對格萊姆矩陣進行非線性的稀疏化、量化、二值化等非均勻處理,同樣給出了極限譜測度和特征向量的收斂性與相變現象。

最后,廖振宇總結:本次報告嘗試理解機器學習算法的性能和計算復雜度之間均衡的關系,詳細研究了經過壓縮的譜聚類算法的性能。他們的理論工作表明,非均勻的壓縮方式比均勻的稀疏化處理方式具有更好的算法性能,并且其效果可以量化比較。此外,要特別注意在做非均勻的壓縮時,有可能得到完全不帶任何統計信息的特征向量,因此存在完全摧毀算法的風險。

在提問交流環節,廖振宇耐心解答了同學們的提問,進一步解釋了在計算過程等方面的問題。

本次講座介紹了大維數據譜聚類算法的性能與復雜度權衡,并就其中的方法思路和實際應用作了進一步闡釋。此后“統計大講堂”系列將陸續推出更多精彩講座,敬請關注。

文字 / 訓練營營員  梁楚儀

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://image99.pinlue.com/thumb/img_jpg/fZqpmG3OyfI9gPYCibzvCUZ6w4ENJpfOrDS17DVKTeFMiajDzJQbDV3IZY3dZoialAicQTMKc90DaZnUjf0TX5F1yw/0.jpeg
分享
評論
首頁
在线毛片片免费观看_免费一看一级毛片_亚洲五月综合自拍区_亚洲avav天堂av在线网 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>