「Twitter利用状況調査」に関する一考察 - アクチュアリー試験数学の研究

今日は、アクチュアリー（試験）を直接取り扱うものではないですが、アンケート結果の見方を考えるという意味ではアクチュアリーの業務にも関連する内容だと考えます。
また、アクチュアリー試験受験者の皆様にもご満足いただけるよう、正規近似による区間推定や、ベイズ推定の簡単な練習も含んでいます。

なお、以下株式会社富士通総研が株式会社ライフメディアのiＭiネットを使ったアンケート結果を取り上げますが、上記のとおりアンケート結果に対するリテラシーの涵養を意図しており、
富士通総研、ライフメディア両社及びアンケートの回答者を含むiＭiネットの利用者の皆様を批判する意図ではまったくない
ことを念のため申し添えます。

富士通総研が「Twitter（ツイッター）利用状況調査」（以下「本調査」）を行い、「Twitterの利用率は8.2%」その他の調査結果を出しています。
http://jp.fujitsu.com/group/fri/report/cyber/research/twitter/
これを題材に考えてみたいと思います。

（１）母集団の考察

本調査はiＭiネット
http://www.imi.ne.jp/imi/
の利用者を対象としたインターネット調査だそうです。
少なくともインターネットを全く利用しない方をその対象に含めることは不可能なわけですから、そのことが利用率を変動させる可能性があることことは明らかだと考えられます。（インターネットを利用*1しないとTwitterは利用できないので）

さらに言うと、iＭiネットとは、

アンケート回答や様々なアクションに対して、現金等に交換できるiＭiポイントなどの謝礼をプレゼントしている
（ http://www.imi.ne.jp/imi/cgi/cap.cgi?1+imi_index.tpl ）

であり、iＭiネットに登録するにはわざわざ個人情報（氏名・郵便番号等）を明かして登録するという手間が必要ですし、その後（謝礼が受け取れるとはいえ）「アンケート回答や様々なアクション」を起こすのにも当然手間がかかります。
つまり、
（インターネットの利用→）iＭiネットに登録→「アンケート回答」
という時点で既に母集団に（日本の居住者全体とは異なる）一定の傾向が生じているとも考えられます。
本文中によると
「都道府県・性・年代の構成を国勢調査と準拠させて割り付ける『iMiネット国勢比率型調査パック』」
を利用したとあり、都道府県・性・年代については調整がとれている模様ですが、上記の傾向について調整することは不可能です。

なお、都道府県・氏名・性・年齢についてもあくまで自己申告であり、本人確認等がなされているわけではないことにも留意する必要があると考えられます。
（実際とは違う内容の届出はiＭiネットのメンバー規約
http://www.imi.ne.jp/imi/cgi/cap.cgi?1+nyuukai01.tpl
第１０条第３号により除名対象です。
また、実際とは違う内容の届出を勧めているわけでも、現実の会員に実際とは違う内容の届出を行っている方の存在が確認できたわけでもないことを念のために申し添えます。）

（２）統計的な考察

次に母集団の傾向についてはとりあえず考えないとして、純粋に統計的に考察してみたいと思います。

（ａ）全体の利用者

今回のTwitter利用率は8.2%で回答数は5,451人です。
回答者の母集団（5,451人）の人数が十分多いとして、中心極限定理が適用できたとすると、利用率 $P$ は、
$N\left(0.082,\frac{0.082(1-0.082)}{5,451}\right)$
$=N\left(0.082,1.38 \times 10^{-5}\right)$
$=N\left(0.082,0.0037^2\right)$
（ただし $N(\mu,\sigma^2)$ は、平均 $\mu$ 、標準偏差 $\sigma>0$ の正規分布（ガンマ分布））
で近似できることになります。
ここで、
確率変数 $X$ が $N(\mu,\sigma^2)$ に従うとき、 $\mu-1.96\sigma \le X \le \mu+1.96\sigma$ となる確率が95％なので、
利用率は95％の確率で(8.2%-1.96*0.037%,8.2%+1.96*0.037%)つまり、
(7.47%,8.93%)の範囲内
にあることになります。（これを「95％信頼区間」といいます）

（ｂ）40代の鳩山由紀夫首相のフォロー率

次に

有名人のフォロー率は他の年代よりも40代が高く、鳩山由紀夫首相をフォローしている率は40代では30.6%（中略）となっている。

という文章を考えてみましょう。
40代の利用者は85人とあるので、母集団は85人です。ここで上と同じ正規近似を使うかどうかは議論があるところですが、一応正規近似を使うとすると
$=N\left(0.306,\frac{0.306(1-0.306)}{85}\right)$
$=N\left(0.306,0.050^2\right)$
つまり上記（ａ）と同様に95％信頼区間を求めると
（20.8%,40.4%）
となります。
なお、
ＣＡＳＩＯの高精度計算サイト
http://keisan.casio.jp/has10/SpecExec.cgi?path=07000000%2e%93%9d%8cv%8a%d6%90%94%2f01001000%2e%90%b3%8bK%95%aa%95z%2f11003200%2e%90%b3%8bK%95%aa%95z%81i%83O%83%89%83t%81j%2fdefault%2exml
を利用してグラフを書いてみました。
http://f.hatena.ne.jp/actuary_math/20100302201540

（ｃ）60代の利用状況

最後に60代の利用状況について考えてみます。
60代では利用すると回答した人は20人です。
ここでは利用端末が「パソコン・携帯の両方」である比率（以下「利用率」）を考えてみます。
比率が5.0％なのでそのような答えをした人は「１人」ということになります。
こうなるとさすがに正規近似というのは無理があり、ここでは「ベイズ推計」というアプローチで考えてみます。
つまり、利用率について事前情報がない（事前分布が $(0,1)$ の一様分布）とすると、
20人中１人が「パソコン・携帯の両方」と答えたことによる事後分布は
$B(2,20)$ というベータ分布になります。
（確率密度関数は[tex:\frac{1}{420}p(1-p)^{19} \, (095％信頼区間を求めると
（1.1%,23.8%）
となります。

（３）まとめ

以上のことから、
（ａ）インターネットの利用者それも特定のサイトの利用者を対象とした調査であることから、既に母集団に（日本の居住者全体とは異なる）一定の傾向が生じていると考えられる。
（ｂ）それを考慮しない場合でも、全体の利用率はともかく、年代別の利用状況その他については回答数が信頼性に影響を与えている。
このことから、一般的に
（ｃ）アンケート結果をみる際にはその母集団の特性や調査のサンプル数等について考慮されることが望ましいのではないか
と考えられます。

*1:なお携帯端末によるアクセスもインターネットの利用であることを念のために申し添えます。