GitHubのREADMEによく使われる英単語を集計して効率的にドキュメントを読むのに必要な英語力をつける
はずだったんですが、失敗しました。
はじまり
READMEを読みながらライブラリの使い方を探っていたりすると、意味を知らない英単語に出くわすことがある。
プログラミングに集中するためにも英語はスラスラ読みたい。とくにREADMEぐらいは。
それには英語の学習が必要なんだけど、READMEでよく使われている英単語を調べてそれを上から順に覚えると効率が良いのではと考えました。
作ったもの
GitHubスター数ランキングの上位N件のリポジトリからREADMEをもってきて、そこで使われている英単語の出現回数を集計してくれるプログラムです。
結果
上位1000リポジトリのREADMEを集計した全結果をGistに貼りました。
スター数ランキングトップ1000リポジトリのREADME頻出英単語 · GitHub
また、結果の雰囲気を見てもらうため頻出英単語トップ20を以下に貼ります。
# | 英単語 | 出現数 |
---|---|---|
1 | the | 49458 |
2 | to | 33463 |
3 | and | 27561 |
4 | a | 27336 |
5 | for | 20314 |
6 | of | 18335 |
7 | in | 16349 |
8 | is | 15101 |
9 | you | 13960 |
10 | with | 10987 |
11 | on | 8299 |
12 | that | 7871 |
13 | or | 7870 |
14 | your | 7669 |
15 | this | 7649 |
16 | can | 7348 |
17 | it | 6998 |
18 | be | 6865 |
19 | if | 6810 |
20 | an | 5943 |
見てもらうと分かる通り、上位は中学英語で習うような単語やオープンソースのプロダクト名などが占めています。
(あとうまく抽出できていないノイズのようなワード)
頻出する英単語は、さすがにこれは分かるなーというものが多く、当初思い描いたいたような上から順に覚えればハッピーみたいな目論見は外れました。
全体で6万件ちかくある結果の中から自分が知らない単語を探しだして学習するぐらいであれば、ふつうに英単語帳で勉強したほうがよさそうです。
本当はREADME固有の英単語出現傾向みたいなものが分かるかと期待していたんですが、雑な集計方法ではそれもうまく読み取れませんでした。
ただ、gulpよりwebpackのほうが出現回数が多いことや、オープンソースプロダクトとして出現する回数が最も多いのはReact(プロダクトを指して使われていない場合もありそうなので確かではないけど)だということが分かったのは「へぇー」といった感じでした。
英単語というよりもトレンドを把握するツールとして使ったほうが有用かもしれません。
おわりに
ふつうに市販の単語帳で勉強します 😭