Skip navigation

DSpace

機構典藏 DSpace 系統致力於保存各式數位資料(如:文字、圖片、PDF)並使其易於取用。

點此認識 DSpace
DSpace logo
English
中文
  • 瀏覽論文
    • 校院系所
    • 出版年
    • 作者
    • 標題
    • 關鍵字
  • 搜尋 TDR
  • 授權 Q&A
    • 我的頁面
    • 接受 E-mail 通知
    • 編輯個人資料
  1. NTU Theses and Dissertations Repository
  2. 電機資訊學院
  3. 電信工程學研究所
請用此 Handle URI 來引用此文件: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/70293
標題: 統計觀點下的叢集偵測問題
Community Detection: A Statistical Approach
作者: Chung-Yi Lin
林宗毅
指導教授: 王奕翔
關鍵字: 分類,叢集偵測,隨機區塊模型,超圖,極小化極大錯誤率,瑞尼發散項,二步驟演算法,區塊個數估計,圖拉普拉斯矩陣,克-史門檻,頻譜演算法,
clustering,community detection,stochastic block model,hypergraph,minimax risk,Renyi divergence,two-step algorithms,block-number estimation,graph Laplacian,Kesten-Stigum threshold,spectral algorithms,
出版年 : 2018
學位: 碩士
摘要: 此論文旨在探究隨機區塊模型 (SBM) 中的叢集偵測問題。上半部討論叢集偵測問題從一般圖至超圖中的延伸。我們提出一更一般化之超圖生成模型 (d-hSBM),且完成其中漸進極小化極大錯誤率之刻畫。上界部分,於數量級為 3 時首先由最大似然估計元達成;其後,我們提出一有效率之二步驟演算法,並證明其可於任意數量級之隨機超圖模型中,有此極小化極大最佳錯誤率之表現。下界部分之匹配,則是經由指認一包含最主要錯誤事件之子參數空間所達成。此論文之下半部份考慮如何估計叢集個數此一分群問題中之子問題。作為一初步理論嘗試,我們證明了最大似然估計元之統計一致性;所得之上界結果也間接暗示了此叢集個數估計問題允許一數量級上更稀疏之隨機圖。此外,我們亦提出一基於頻譜間隔之 EigenGap 演算法,並展示其統計一致性。於生成資料點與實際資料集上的實驗結果在在印證了我們的理論發現。
The problem of community detection in the Stochastic Block Model SBM is considered. The first half of this thesis is devoted to the community detection problem extended from graphs to hypergraphs. We propose a more general hypergraph generative model termed d-hSBM, and characterize the asymptotic misclassification ratio in the minimax sense under it. Achievability part is settled first information-theoretically with the Maximum Likelihood Estimator (MLE) under 3-hSBM and then computation-efficientlly with a two-step algorithm for any order d-hSBM. The converse lower bound is set by finding a smaller parameter space which contains the most dominant error events. The second half of this thesis considers the problem of estimating the number of communities itself apart from the clustering task. As an attempt to characterize the fundamental limit in such formulation, we demonstrate that the MLE, which is optimal under a Bayesian perspective, is consistent, whose form might further endorse a sparser connectivity level. In addition, an efficient spectral method EigenGap is proposed along with a theoretical guarantee. Experimental results on both synthetic data and real-world data consolidate our theoretical finding.
URI: http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/70293
DOI: 10.6342/NTU201803335
全文授權: 有償授權
顯示於系所單位:電信工程學研究所

文件中的檔案:
檔案 大小格式 
ntu-107-1.pdf
  目前未授權公開取用
2.04 MBAdobe PDF
顯示文件完整紀錄


系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。

社群連結
聯絡資訊
10617臺北市大安區羅斯福路四段1號
No.1 Sec.4, Roosevelt Rd., Taipei, Taiwan, R.O.C. 106
Tel: (02)33662353
Email: ntuetds@ntu.edu.tw
意見箱
相關連結
館藏目錄
國內圖書館整合查詢 MetaCat
臺大學術典藏 NTU Scholars
臺大圖書館數位典藏館
本站聲明
© NTU Library All Rights Reserved