請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6860完整後設資料紀錄
| DC 欄位 | 值 | 語言 |
|---|---|---|
| dc.contributor.advisor | 盧信銘(Hsin-Min Lu) | |
| dc.contributor.author | Chu-Hsiang Wei | en |
| dc.contributor.author | 魏取向 | zh_TW |
| dc.date.accessioned | 2021-05-17T09:19:43Z | - |
| dc.date.available | 2012-10-12 | |
| dc.date.available | 2021-05-17T09:19:43Z | - |
| dc.date.copyright | 2012-10-12 | |
| dc.date.issued | 2012 | |
| dc.date.submitted | 2012-09-20 | |
| dc.identifier.citation | 1. Bergsma, Shane, Lin, Dekang and Goebel, Randy,“Glen, Glenda or Glendale: Unsupervised and Semi-supervised Learning of English Noun Gender”, CoNLL, 2009.
2. Bloomfield, Leonard, “ Language”, Holt, Reinhart & Winston, New York, 1933. 3. Cassidy, Kimberly Wright; Kelly, Michael H.; Sharoni, Lee'at J., “Inferring Gender From Name Phonology”, Journal of Experimental Psychology: General Vol. 128. No.3. 362-381, 1999. 4. Chang, G.-M., “A social analysis of person naming in Taiwan for the past century”, Master thesis. Taipei: Tam-Kang University, 2003. 5. Fryer, Roland G. Jr. and Levitt, Steven D., “The Causes and Consequences of Distinctively Black Names”, Quarterly Journal of Economics Volume119, Issue3, Pp. 767-805, 2004. 6. Gallagher, A.C., Chen, Tsuhan, “Estimating Age, Gender, and Identity using First Name Priors” Computer Vision and Pattern Recognition. CVPR 2008. IEEE Conference, 2008. 7. Hassan, Adb-el-Jawad, “A Linguistic and Sociocultural Study of Personal names in Jordan.”, Anthropological Linguistics 28:80-92, 1986. 8. Hsu, Y.-S., “A sociolinguistic study on the cultural values reflected in Chinese men's and women's given names in Taiwan”, Master thesis, Taipei: Fu-Jen Catholic University, 1990. 9. Joachims, T., “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, Proceedings of the European Conference on Machine Learning Springer, 1998. 10. Kilarski, Marcin, “On grammatical gender as an arbitrary and redundant category”, In Douglas Kilbee, editor, History of Linguistics 2005: Selected papers from the 10th International Conference on the History of Language Sciences (ICHOLS X), pages 24–36. John Benjamins, Amsterdam, 2007. 11. Rossi, A. S., “Naming Children in Middle-Class Families.” , American Sociological Review 30: 499-513, 1965. 12. Sung, Margaret, M. Y., “Chinese Personal Naming.”, Journal of the Chinese Language Teachers Association 16(2):67-90, 1981. 13. Nastase, Vivi and Popescu, Marius, “What’s in a name? In some languages, grammatical gender”, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 1368–1377, 2009. 14. 五筆教學研究組,《五筆•拼音速查字典︰部首檢字版》,機械工業出版社,出版日期:2011年1月1日。 15. 中華民國內政部,《全國姓名分析》,內政部出版,出版日期:2010年10月 16. 朱保安,《说文•女部:字所反映的女性社会地位的演变》,殷都学刊2004年第3期,2004。 17. 李鐵筆,《命名一書通》,益群出版社,2009年12月1日。 18. 倪耿,《中國文字之結構模式及其分析》,交通大學碩士論文,1972。 19. 張泰昌,《圖解當代漢字與鄭碼輸入法》知識產權出版社,出版日期:2006年02月01日。 20. 楊嘉敏,《部首輕鬆學:第六單元:認識女部》,人間福報,發行日期:2008年6月3日。 21. 太易資訊,《大易輸入法》,參考網址:www.dayi.com/DAYI_AREA/Default.htm,查考日期:2011年12月。 22. 行易有限公司,《嘸蝦米輸入法》,參考網址:boshiamy.com/,查考日期:2011年12月。 23. 朱邦復,《倉頡輸入法與中文字形產生器》,參考網址:http://cbflabs.com/book/gif_cg/gif_cg/,查考日期:2011年12月。 24. 馬來西亞倉頡之友,《第五代倉頡通用版原始碼表(UTF-8)》,參考網址:http://www.chinesecj.com/newsoftware/download.php?download=http://www.chinesecj.com/download/cj5-21000.zip,最後更新日期:2006年10月19日;查考日期:2011年12月。 25. 蘇文彬,《PChome商店街:年底店家數成長至1萬家》,參考網址:http://www.ithome.com.tw/itadm/article.php?c=63838,發表日期:2010年10月11日;查考日期:2011年6月 | |
| dc.identifier.uri | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/6860 | - |
| dc.description.abstract | 日常生活中,對於素昧平生的人們,第一印象往往來自他的名字,我們常試著從名字中推敲他的性別、與其他人的關係(如是否與認識的人是兄弟)甚至樣貌。一般來說,性別是最顯而易見也最無爭議的。我們甚至可以推論,中文人名中本身就蘊含著性別資訊,而這些資訊往往能提供我們重要的人際線索。
本研究以倉頡碼對中文人名進行編碼,並配合性別資料藉由支援向量機學習中文字的性別特徵,進而達到以中文人名預測性別。在本研究中,我們比較了K-最鄰近法與支援向量機的結果,並且對倉頡編碼採用不同的組合模式,企圖找出預測中文人名性別最精確的方法。 由於中文人名中存在著兩性皆可使用的名稱,所以性別預測難以達到100%的準確率。在本實驗中發現以支援向量機搭配倉頡四連詞(4-grams)的準確率最高,達到最高可能預測結果的93.59%。另外我們透過問卷比較人類判斷性別與系統判斷性別的差異,在統計檢定下為不顯著,代表系統處理中文人名的性別判斷與人類判斷無異。此外我們以模型對其他不同的資料集作測試,如臉書的好友名稱、英文譯名等,一樣展現出超過85%的準確率。在本實驗的最後,我們將模型套用在台灣商家與台灣個股的名稱中,檢視不同類型的商店或類股是否會有不同的性別比例,從實驗結果中也發現的確存在這樣的差異。 本研究從中文人名的性別預測延伸到商家名稱等非人名的中文字,而發現以倉頡碼拆解中文字的確可以達到以字型表示文字某些特性,進而增加中文自然語言處理的可能性。除了利用本實驗的結果建立自動化大量人名性別判定的系統外,也可以在文件探勘時使用性別屬性而提供文章不同的特徵,可能可以提升文件分類、分群或觀點分析的準確率。另外最重要的是,本實驗代表著可以以倉頡碼描述中文文字性別傾向,因而開啟後續研究以倉頡碼描述中文其他屬性的大門。 | zh_TW |
| dc.description.abstract | In daily life, when we meet people we don't know, our first impressions usually come from their names: we often try to guess their gender, relationship with others (e.g. whether he is a brother of someone we know), or even appearance. Generally speaking, the gender characteristic in the name is the most obvious. We can even infer that a Chinese name contains gender information, and such information usually provides us with important clues concerning interpersonal relationships.
This paper uses CangJie code to represent Chinese names, and uses SVM (support vector machine) to learn the gender characteristics. In this paper, we compared the results of K-NN and adopted different combination modes to the CangJie coding in the SVM to find out the best method to predict of gender of a person through their Chinese name. Because some Chinese names can be used in both genders, it is difficult to achieve the 100% accuracy when predicting the genders. We found that the highest accuracy of gender prediction is about 93.59% (by SVM with Cangjie 4-grams). On the other hand, we compare the gender prediction accuracy by humans and the systems through a questionnaire, and found that there is no significant statistical difference, which means there is no difference in the prediction of the gender of Chinese names between humans and our system. In addition, we applied the model to different data sets, such as Facebook friends’ names, English names (translated in Chinese), and the accuracy also exceeds 85%. Finally, we applied the model to local shop names and stock names in Taiwan, finding the shop type or sector whether can have the different gender proportion, from the experimental result also found there indeed has such difference. We found that the prediction of the gender of Chinese name can be extended to the name of shops and the non-name Chinese characters, and found that the Cangjie code could possibly express the structure of the Chinese character, thus increasing the potential of Chinese natural language processing. The results of the experiment not only institutes the framework for a massive automatic name-sex prediction system, but can also be applied to text mining by provide more features of the articles and increase the accuracy of document classification, clustering, or viewpoint analysis. Moreover, the most importantly, Cangjie code can describe the gender characteristic of a Chinese character, thus opening the gates for future research on using Cangjie code to extract more attributes from Chinese characters. | en |
| dc.description.provenance | Made available in DSpace on 2021-05-17T09:19:43Z (GMT). No. of bitstreams: 1 ntu-101-R99725042-1.pdf: 1316031 bytes, checksum: 563ace8e89907ed9f757d8d3b417992d (MD5) Previous issue date: 2012 | en |
| dc.description.tableofcontents | 致謝 i
中文摘要 ii Abstract iv 目錄 vi 圖目錄 x 表目錄 xi 第一章 緒論 1 1.1 研究背景與動機 1 1.2 研究目的 2 1.3 研究架構 3 第二章 文獻探討 5 2.1 人名最簡單的分類機制 5 2.1.1 只能針對訓練過的名字做分類 5 2.1.2 許多名子男女皆可用,致使正確性無法提升 6 2.2 人名特性的相關研究 6 2.2.1 英文人名中的屬性 7 2.2.2 中文人名的特性 7 2.3 中文的筆劃結構與型碼輸入法 13 2.3.1 中文文字的組成與型碼輸入法 13 2.3.2 倉頡輸入法 14 2.3.3 鄭碼輸入法 16 2.3.4 五筆輸入法 16 2.3.5 大易輸入法 17 2.3.6 嘸蝦米輸入法 17 2.3.7 型碼輸入法總整理 18 2.4 分類與預測工具 19 2.4.1 簡單貝氏分類(Naive Bayes Classifier) 19 2.4.2 決策樹(Decision tree) 19 2.4.3 K-最鄰近分類(K-Nearest Neighbor, K-NN) 20 2.4.4 類神經網路(Neural Network) 21 2.4.5 支援向量機(Support Vector Machine, SVM) 22 2.5 小結 23 第三章 性別預測系統之設計 24 3.1 基準線系統設計 24 3.1.1 設定相似度公式 24 3.1.2 K值的設定 25 3.2 以倉頡表達中文特徵 26 3.2.1 字碼對照表 26 3.2.2 中文字以倉頡編碼(Uni-gram) 27 3.2.3 中文字以倉頡編碼(bi-gram以上) 28 3.2.4 結合uni-gram、bi-grams與tri-grams的方法 28 3.3 支援向量機系統設計 29 第四章 資料處理與實驗結果 33 4.1 資料蒐集 33 4.1.1 資料清洗 33 4.1.2 資料儲存 35 4.1.3 資料概觀 36 4.2 中文人名的性別預測 38 4.2.1 基準線實驗 38 4.2.2 使用支援向量機對人名進行預測 40 第五章 系統與人工判斷性別的比較 44 5.1 問卷設計與實驗準備 44 5.1.1 問卷內容 44 5.1.2 問卷發放 45 5.2 問卷資料產生與實驗目的 45 5.2.1 明顯性別傾向人名實驗 45 5.2.2 混淆性別傾向人名實驗 46 5.2.3 隨機挑選人名實驗 47 5.2.4 系統產生人名實驗 49 5.3 實驗結果與討論 51 5.3.1 明顯性別傾向人名實驗結果 51 5.3.2 混淆性別傾向人名實驗結果 52 5.3.3 隨機挑選人名實驗結果 53 5.3.4 系統產生人名實驗結果 54 第六章 以真實名稱判定性別傾向 56 6.1 資料蒐集與實驗目的 56 6.1.1 臉書使用者的人名與性別關係實驗 56 6.1.2 英文譯名與性別關係實驗 57 6.1.3 網路拍買男女服裝與店家名稱性別傾向實驗 57 6.1.4 台灣商家名稱的男女性別傾向實驗 57 6.1.5 台灣個股股名稱的男女性別傾向實驗 59 6.2 實驗結果與討論 59 6.2.1 臉書使用者的人名與性別關係實驗結果 59 6.2.2 英文譯名與性別的關係實驗結果 61 6.2.3網路拍買男女服裝與店家名稱性別傾向實驗結果 63 6.2.4 台灣商家名稱的男女性別傾向實驗結果 64 6.2.5 台灣各類股名稱的男女性別傾向實驗結果 67 第七章 結論與建議 72 7.1 實驗結論與建議 72 7.1.1 考量選擇性注意問題 73 7.1.2 考慮字的位置 73 7.1.3 考慮以倉頡詳碼對文字編碼 73 7.1.4 結合不同的預測方法提升準確度 74 7.2 研究貢獻 74 7.2.1 建立全自動的性別判斷系統 74 7.2.2 建立競爭智慧系統 75 7.2.3 協助文件探勘的後續研究 75 7.2.4 提供其他對於文字結構的研究參考 76 7.3 研究限制 76 7.4 未來研究方向 77 參考文獻 78 附錄 81 | |
| dc.language.iso | zh-TW | |
| dc.title | 應用倉頡編碼特徵於中文人名性別預測之研究 | zh_TW |
| dc.title | Predicting Genders of Chinese Names Using Sub-Character Features: An Experiment Using CangJie Codes | en |
| dc.type | Thesis | |
| dc.date.schoolyear | 101-1 | |
| dc.description.degree | 碩士 | |
| dc.contributor.oralexamcommittee | 李瑞庭(Anthony J.T. Lee),魏志平(Chih-Ping Wei),陳建錦(Chien-Chin Chen) | |
| dc.subject.keyword | 文件探勘,中文人名,性別預測,支援向量機,中文字子結構,倉頡編碼, | zh_TW |
| dc.subject.keyword | text mining,Chinese name,gender prediction,support vector machine,Chinese sub-character,Cangjie coding, | en |
| dc.relation.page | 3 | |
| dc.rights.note | 同意授權(全球公開) | |
| dc.date.accepted | 2012-09-21 | |
| dc.contributor.author-college | 管理學院 | zh_TW |
| dc.contributor.author-dept | 資訊管理學研究所 | zh_TW |
| 顯示於系所單位: | 資訊管理學系 | |
文件中的檔案:
| 檔案 | 大小 | 格式 | |
|---|---|---|---|
| ntu-101-1.pdf | 1.29 MB | Adobe PDF | 檢視/開啟 |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。
