XOPSのアドオンに出現する単語を頻度順に並べてみました。
頻度リスト: result.tsv
3907件のMIFファイルおよび2126件のMSGファイル
生のデータの中には完全一致する二つ以上のファイルが含まれているので、これらの重複をなくした。
この結果、MIFファイルが3022件、MSGファイルが1445件となった。
使用したツール: FileMany
自分のアドオン管理が雑なので、日本のxopsplayerの作品と韓国のxopsplayerの作品が混ざってしまっている。 ここでは日本語テキストを対象にしているので、文字コードがShiftJISもしくはCP932のファイルを抽出した。
この結果、ファイル数は以下のようになった。
MIF | MSG | |
---|---|---|
ShiftJIS | 865 | 570 |
CP932 | 12 | 3 |
使用したコード: pickup_by_encoding.py
MIFファイルから93841文字、MSGファイルから128053文字のテキストを取得した。
使用したコード: concat_text.py
Kagomeを使用して形態素解析を行った。
使用したコード: morph_analysis.go
使用したコード: count_words.py
正規表現を使用して半角および全角の記号を取り除いた。 これだけでは取り除けないものもあったので、最終的には目視で、
- アルファベット一文字
- 記号
を取り除いた。
最近のアドオンは解析対象に含まれていない可能性があります。
データが少ないので頻度の低い単語についてはあまり当てにならないと思います。 上位1000語くらいなら参考になるでしょうか......。