Skip to content
This repository was archived by the owner on Dec 24, 2020. It is now read-only.

maeda6uiui/XOPSWordFrequencyList

Repository files navigation

XOPSWordFrequencyList

XOPSのアドオンに出現する単語を頻度順に並べてみました。

頻度リスト: result.tsv

処理の手順

生のデータ

3907件のMIFファイルおよび2126件のMSGファイル

完全一致するファイルを取り除く

生のデータの中には完全一致する二つ以上のファイルが含まれているので、これらの重複をなくした。

この結果、MIFファイルが3022件、MSGファイルが1445件となった。

使用したツール: FileMany

文字コードによるフィルタリング

自分のアドオン管理が雑なので、日本のxopsplayerの作品と韓国のxopsplayerの作品が混ざってしまっている。 ここでは日本語テキストを対象にしているので、文字コードがShiftJISもしくはCP932のファイルを抽出した。

この結果、ファイル数は以下のようになった。

MIF MSG
ShiftJIS 865 570
CP932 12 3

使用したコード: pickup_by_encoding.py

テキストの取得

MIFファイルから93841文字、MSGファイルから128053文字のテキストを取得した。

使用したコード: concat_text.py

形態素解析

Kagomeを使用して形態素解析を行った。

使用したコード: morph_analysis.go

単語の出現回数のカウント

使用したコード: count_words.py

結果から記号を取り除く

正規表現を使用して半角および全角の記号を取り除いた。 これだけでは取り除けないものもあったので、最終的には目視で、

  • アルファベット一文字
  • 記号

を取り除いた。

作者のコメント

最近のアドオンは解析対象に含まれていない可能性があります。

データが少ないので頻度の低い単語についてはあまり当てにならないと思います。 上位1000語くらいなら参考になるでしょうか......。

About

XOPSのアドオンで多用される単語のリスト

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published