ノート:標準偏差

ページのコンテンツが他言語でサポートされていません。


  • よく知らないんですが、基データが正規分布に従っていることが前提、というのは本当ですか?その辺り書いておいたほうがよいかと思ったんですが。

—以上の署名の無いコメントは、Momongaノート履歴)さんが 2004年2月12日 (木) 07:27 (UTC) に投稿したものです(白駒による付記)。[返信]

標本数が有限[編集]

えっとー、「標本数が有限」という言葉を使用されていますが、文面通り捉えますと必ずしもそのようなことはありません。 判っておられると思いますが、母集団のサンプルを全て集めれた場合(即ち、標本平均=母集団平均の場合)には、この記事で言うところの標本分散を使用しても構わないためこの記述は必要かと思われます(例えばA動物園の猿の体重を調べたく、10匹しか居ない場合でその体重が全て量れた場合)。(また、母集団平均が予め判っている場合にも標本分散を使用するため、この記述はも要るかとは思っては居たのですが) 最尤推定する場合は標本分散を使用します(但しこちらは、滅多に使用しない)が、カテゴリーが初等数学であり、あまり込み入ったことは書くべきでないため、最尤推定の単語は敢えて入れていません(他にも補足すべき数学的表現等もあるのですが、初学者を考え小難しいことは控えていたのですが)。

母集団平均が判ったかどうかという意味で書かれたならば、標本数が有限という言葉の使用ではなく、別の表現が宜しいかと思われます。別の意図があるならば、その旨を加筆して頂けませんか(別の意図があるかもしれませんので、私はこのままにしております)。--2005年5月20日 (金) 220.6.194.31

220.6.194.31 さん、ノートへ記述くださいましてありがとうございます。要約欄の「母集団平均が判っているときと判っていないときの式」をごちゃまぜにしているとのご指摘にかかわらず片方しかのせてないと判断してもうひとつの式を復帰記述しました。といっても私の読み取り不足でしょうが、式を両方併記するのが主眼で、式以外の文章は付け足しです。別に意図はありませんので、そこは220.6.194.31 さんをはじめ書き直せる力量のある方におまかせします。(なお一つの項目立てとすべく編集を加えました。)--Mint22 2005年5月20日 (金) 23:45 (UTC)[返信]

xxと誤解されることが多いという記述[編集]

「なお二乗平均平方根 (RMS) と同じものであると誤解される事が多いが、両者は異なるものである。」と本文にありますが、自分は誤解したことがないのですが、この記述を見てかえって混同しそうになりました。この記述はもう少し目立たない場所(もうすこし後ろなど)ではいけませんか? --210.189.148.62 2009年5月13日 (水) 08:19 (UTC)[返信]

位置を動かすというのはこの場合あまり意味がないのではないですか?本当に誤解している人がいるなら注意喚起は目立つところにあってこそその役を果たすと思います。
ただ現在の記述が悪目立ちしている上に、不必要な強調まで施されているのは是正したほうがよいでしょう。個人的には場所を動かさずに表現を変更して「ほかに統計量や確率変数のばらつきを表す指標として二乗平均平方根 (RMS) というものがある。」ってな具合にしたらいいんじゃないかと思います。yhr 2009年5月13日 (水) 13:14 (UTC)[返信]
私は最初の210.189.148.62です。
「悪目立ちしている」というのが言いたかったのです。Yhrさんの提案通り修正します。--222.225.64.112 2009年5月20日 (水) 14:07 (UTC)[返信]
すみません。提案通りに編集しようとして気が変わりました。そもそもRMSは平均の一種であって、ばらつきを表す指標であると書くのはおかしいです。表現を直して強調ははずしましたが、Yhrさんの提案とは違う文章になりました。--222.225.64.112 2009年5月20日 (水) 14:20 (UTC)[返信]

2011年2月13日20:10版のノート[編集]

この版に関するノートである。

元の版で「標本分散は、母集団の分散よりも常に小さくなるという性質がある」ということが繰り返し出てくるので残しておいた。多分こだわりのある記述なのだろうと考えたからである。ただ、正確には標本分散の期待値が常に小さくなるのだから、個々の測定ごとの標本分散に関して、この記述は正しいとは思わない。それで「常に」の語を「概ね」と代えた。

「平方根をとることにより、もとの測定量と同一の単位となる。」という文は削った。これが議論の元になった過去があるようなので、ここに私の見解を記しておく。間違いがあれば適当に訂正お願いしたい。

標準偏差の定義から考えて、明らかに元の測定量と単位が違う。元の測定量の単位を[Value]と書き、測定サンプル数の単位を [Quantity]と書くことにすると、分散の単位[σ2]はこうなる。

分散の平方根が標準偏差なのだから、標準偏差の単位[σ]はこうなる。

このことは、例えば分散を足していくときに明らかに違いが出てくる。一日平均N個の隕石があって、それが分散σ 2 で正規分布しているとき、一週間で隕石は何個くらい落ちてくるだろう、というような場合である。答えは7Nとなるし、分散は7σ 2なる。だから、観測結果の約68%は

の範囲に落ちてくるといえる。この第2項は、標準偏差の単位が元の測定量と同じとすると、7N と単位が合わない。--Bo-ci-an 2011年2月13日 (日) 20:28 (UTC)[返信]

後で引用するので、式に番号をつけました。--Bo-ci-an 2011年2月14日 (月) 20:38 (UTC)[返信]

お疲れさまです。統計はド素人ですが…前半は同意で、後半は疑問です。「議論の元になった」というのは履歴をご覧になってのことと推測しますが、内容について議論があったのではなく、荒らし対策として一様に差し戻しが行われたということのようです。◆専門書ほど単位を無視するようで、文献を見付けるのが大変ですが、例えば林周二『統計学講義』には「標準偏差は平均値と単位が同じ」旨が書かれています。杉田暉道他『統計学入門』では、体重身長等の身近な例を用い、標準偏差にも kg や cm などの単位を付しています。同様の例は多数の学習参考書、大学入試問題にも見られます。◆上記の議論ですが、平均値を人数や個数で割って求めるからといって単位を kg/人 などとはしないように、分散も kg2/人 とはしないのが一般的ではないでしょうか。en:Dimensionless quantity にも次のように書かれています。for instance, the number of people N in a room is a dimensionless quantity --白駒 2011年2月14日 (月) 03:14 (UTC)[返信]
前者に関してですが、「概ね小さい」というあいまいな表現ではなく、「標本分散が常に母分散より小さいのではなく標本分散の期待値が母分散より小さいのである」と正確に理解されているのでしたら、その通りに書き直された方がよいと思います。
後者に関しては白駒さんに同意です。「測定サンプル数の単位を [Quantity]と書く」という記述を見るに、Bo-ci-anさんは、平均や分散を計算する際に行う割り算の除数の単位まで考えてしまっているようですが、白駒さんの説明にあるように平均値を計算する際の除数は単位のない無次元量(というより単なる実数)と考えるべきです。
そもそも除数の方まで単位を考えるのであれば「平均値」自体が測定量とは違う単位を持つことになりますが、それはおかしいと思いませんか?
以上の点について御理解いただけましたら、ぜひご自分の手で(場合によっては御自分で納得のいくような補足説明なり脚注なりを付け加えた上で)記述を復帰していただきたいと思います。--Loasa 2011年2月14日 (月) 10:38 (UTC)[返信]
まず「概ね小さい」方から。Loasaさんのおっしゃることはその通りです。これは純粋に数学の話題なのですから、式をそのまま書き下して「標本分散の期待値が小さい」と書くべきでしょう。しかし、どなたがこれを書かれたのか確認していませんが、想像するに、日常的に出会う話題としてこの話を提供したかったのではないでしょうか。「君は標本分散を計算するだろう。これは母分散より小さいことが多いんだよ」というウンチクですね。仕事や学校で標本分散を計算する機会はあっても、標本分散の期待値を計算することはまずありません。これが標本分散の期待値に直してしまっては、身近な話題として読んでもらおうという編集者の方の意図を台無しにしてしまうような気がしたのです。それでこのように直しました。私の編集意図としては、期待値が違うということは不偏推定量でない、と書いたので、それで十分です。どなたかが、標本分散の期待値という記述に直すのは、黙ってみているつもりですが、私は自ら直したくはありません。
次に単位の話です。ビックネームのお二人にコメントをいただくようであれば、これは私がしくじったと考える方がよさそうです。それは冗談としても、いずれ「単位が同じ」と書き加える方が絶対にいらっしゃるでしょうから、Loasaさんのお勧めの通りに、私が書き加えることにします。1日か2日間をあけます。実際のところ、私が今手元にもっている統計の教科書にも、単位を同じにするために分散の平方根をとり、これを標準偏差という、という趣旨のことが明確に書いてあります。
ただし、隕石の例は私自身が作った例ですが、同じような考え方は、工学など統計理論を実際に使用するテーマの教科書では良く出てきます。ところが式(1)のように書かれると、一見、単位のちがうもの(例えば、kgとm)を足しているようなとても奇妙な印象を私は受けるのです。第2項の7はこの場合日数ですが、その平方根が式に入っているからです。平均が個数を表し、,分散標準偏差が個数を表すとすると明らかに単位が違うものを足しています。この種の式を単位の観点から理解するとすれば、標準偏差の単位が「ヶ/√日」と理解するしかない、というのが上のノートの趣旨です。
一方、式(1)をストレートに散文的に書くとすれば、「7日間で、平均7Nヶ、標準偏差√7σの分布に従って隕石が落ちてくる」となるはずで、すると平均や標準偏差の単位っていったいなんなの、とますます不思議になってきます。平均Nに日数7をかけて、単位が[ヶ・日]になるはずのところが、また平均になるからです。Loasaさん流にNは無次元量と考えても、やっぱり話が合わないでしょう?統計の教科書に「単位が同じ」と書いてあるものばかりではないのは、実はこういう事情があって、あえて書いていない場合があるのではないかとも思われたのです。それで、ウィキペディアでもわざわざ書かないほうがいいのではないか、というのが私が件の文章を削った理由です。ノートにはそこまで書いておけばよかったかもしれません。
ただ、私自身はこんなパラノイアな話にこだわる意図はありません。また「単位が同じ」をなくすとかえって奇異にうつるようですので、それも私の望むところではありません。とはいえ、いい加減な編集をして泡くって直したみたいに見えるのはいやなので、少し時間をとっておちついて直すことにします。悪しからず。--Bo-ci-an 2011年2月14日 (月) 20:38 (UTC)[返信]
単語を間違えて書きましたので、修正。--Bo-ci-an 2011年2月14日 (月) 20:48 (UTC)[返信]
失礼。また修正。--Bo-ci-an 2011年2月14日 (月) 20:50 (UTC)[返信]
どうもです。えーと、wiki なんですから、気が付いた人が書くってことでいいんではないか、と思います。Bo-ci-an さんは別に記事に嘘を書いたってわけではないので、Loasa さんの言い方は少しキツイ気がしました。嘘を書き逃げする人もいる一方、きちんと意図をノートに書いて頂けるのはとても有難いことですので、それを萎縮させるような言動は控えて欲しいです。私は別にキツくないつもりですが、キツかったらごめん。 Bo-ci-an さんは何かの義務感に駆られる必要は全くないし、誰も書かなければそのうち私が書きますので、どうぞお気楽に。--白駒 2011年2月15日 (火) 00:00 (UTC)[返信]
言葉足らずで申し訳ないです。私がBi-ci-anさんに「御自分で書いてください」と書いたのは、「不適切な編集をした人が責任持って書き直すように」という意味ではなく、「理解できたのなら自分で理解できた内容をしっかりと書いていただいた方が執筆者にとっても利用者にとっても有用である」と考えるからです。
不適切な編集をした執筆者が正しい理解に基づいて書き直すならば、自分の理解を深めるよい機会となるでしょう。つまり学習における復習ノートのようなものです。
そして、そういう方が記事を書く際に「自分の思い込みが間違いであることがわかったので、同じように間違って思い込んでいるかもしれない利用者が読んだときに間違いに気がつくような記述にしよう」と考えて記事を書いていただければ、そんな間違いをする人がいるとは夢にも思わなかった編集者が書くよりも、必ずや良い記事を書いていただけるであろう、と考えるからです。
もちろん間違いのレベルはさまざまですから、最初からロクな基礎知識もない人にまでそんなことを期待すると、不必要に初歩的なレベルの解説まで冗長に書かれかねないという恐れはあります。しかしBi-ci-anさんの勘違いは、数学屋の私には想定しなかったことですが、工学系の方は結構やりがちな勘違いではないかと思われます。つまりBi-ci-anさんが「自分と同じ勘違いをしないように」という観点で記事を書けば、それはWikipediaの記事として適切なレベルのものになるであろうと考えられるわけです。
ま、Wikipediaは教育の場ではないのだからそこまで配慮する必要はない、と言えばそれまでです。しかし私自身もWikipediaの記事を書く上で、論文や教科書などを読み直し、自分の勘違いや理解があいまいだった点がはっきりし、理解が深まったことは幾度もあります。いわば自己学習の場としても大いに有用になっております。よく言われることですが、他人に教えるもしくは解説を書いてみる、と言う行為は自分の理解を深める上で大いに有効です。
ノートにも履歴にも何も書かずに間違いを書くような人がいれば、私もさっさと自分で修正します(履歴に理由は書きますが)。Bi-ci-anさんのように自分の理解をノートにきちんと書き、なおかつ他人の説明を受け入れられるような方だからこそ、私は自分で書くことをお勧めするわけです。
言葉足らず(もいいところでした(^^ゞ)であった点、および、説明がなければきつく感じられるような表現であったことは確かですね。この点についてはお詫びいたします。--Loasa 2011年2月15日 (火) 07:20 (UTC)[返信]
なお、隕石の例でのBo-ci-anさんの疑問について。私が見たところでは、いろいろなレベルでの概念をごっちゃにしているように思われ、それが誤解のもとだと考えられます。それについて説明したいところですが、私も実務レベルでの統計学には不慣れなので、自分にもBo-ci-anさんにも納得の行く説明を考えるのには時間がかかりそうです。解説についてはもう少しお待ちください。--Loasa 2011年2月15日 (火) 07:45 (UTC)[返信]
白駒さんもLoasaさんもフォローしていただきありがとうございました。文字だけでコミュニケーションするのは難しいことであるのは、皆さん実感されていることだと思います。私も多少の経験のあるウィキペディアンですから、Loasaさんのコメントにショックを受けているというようなことはありませんので、白駒さんも、Loasaさんも、気になされませんよう。私のノートも読みようによっては、挑戦的に見えるかもしれません。また、白駒さんのお勧めではありますが、「単位が同じ」という内容を自分で書き加えました。べつにふてくされているわけではありません。多くの教科書に書いてあることは私も承知していますし、せっかく手をつけた編集ですから、自分ですわりのいいようにつけ加えたかったのです。もちろん、言うまでも無いことですが、どなたかが改訂されるのは自由です。正直言って、まだ全体的にしまらない感じがしているのです。
次に、隕石の例でいろいろな概念をごっちゃにしているというご指摘ですが、あるいはそうなのかもしれません。なるほど、隕石の例で言えば、日数はすなわちデータの数ですから、無次元とみなしてもよさそうです。無次元なら √7 も次元なしで話は合います。「7日間の平均は7N である」であるという言い方も、単位があわなくなることがないですし、きっとそういうことですね。記事に書くには独自研究っぽいのでやめますが。どうやら私がお騒がせしてしまったようです。ご容赦。--Bo-ci-an 2011年2月15日 (火) 19:49 (UTC)[返信]

不偏標準偏差[編集]

不偏標準偏差の定義を探していてここにたどり着きました。 正しい定義はまだ分からないままなんですが、少なくともUにも平方根がついていないとおかしくないですか?
それにしても、不偏標準偏差って、不偏分散の平方根が不偏標準偏差と書いてあるサイトが複数あったりと、あまり重要視されていない気がするのですが、なぜなのでしょうか。個人的には不偏分散と同程度に重要な値と思うのですが。--T-yabu 2011年4月10日 (日) 00:21 (UTC)[返信]

U の件は typo でしょうね。他にもいろいろ手を入れたいのですが、時間がないものでとりあえず最低限の修正のみしておきました。「不偏標準偏差」とは、普通に考えれば標準偏差の不偏推定量のことでしょうが、不偏分散の正の平方根としている文献がごく少数ながらあります。数学辞典や統計学辞典などの辞典類では「不偏標準偏差」という語は載っていませんので、少なくとも広く用いられる語ではないのでしょう。不偏分散ほどに用いられないのは、標準偏差の厳密な不偏推定量が計算しにくいからではないかと思います。--白駒 2011年4月12日 (火) 22:03 (UTC)[返信]
私が不偏標準偏差云々を書き加えた張本人です。しばらく編集できる環境に無かったので、ご質問やご修正をされていたことは知っていましたがそのままにしていました。あしからず。Dが標準偏差の不偏推定値であることについては参考図書を挙げました。この参考図書には、確率変数が正規分布に従う場合に標準偏差の不偏推定値がどうなるか示してあります。ここに書き写しても良かったのですが、とても長くなるのでやめました。この教科書では「不偏標準偏差」という言葉を紹介していますが、単語を紹介する一箇所だけに登場するだけで、他の部分では「標準偏差の不偏推定値」という言い方をしています。また、なぜあまり用いられないか、ということですが、白駒さんの書かれたとおり計算しにくいのと、もうひとつは、確率変数の分布によって不偏推定量が違うので気軽に使えないからではないでしょうか。--Bo-ci-an 2011年5月2日 (月) 14:16 (UTC)[返信]

全然意味が分かりません。 内容が専門的すぎて論文みたいです。 これでは百科事典とは言えないと思います。 もっとだれが見ても理解できるような ものにしてください。 --マー伯爵11世会話2016年5月14日 (土) 21:39 (UTC)[返信]