2015-01-01から1年間の記事一覧
plyr がもてはやされるが,いかがなものか。 「plyrパッケージ徹底入門」で紹介された用例について,検証してみよう。http://www.slideshare.net/teramonagi/tokyo-r30-20130420 「データを分割し,分析し,結果を再結合して出力する」とはいうが,結果の出…
最高気温について 2 日目以降に前日との差をとって,それと 2 日目以降の客数について回帰分析してみる。 データは,図のようになる。 両者の相関は 0.8001206 んんっ。前より高いし,ますます特定の相関係数を設定してデータを作ったのかと疑いの目でwww 単…
向後先生のアイスクリームデータhttp://kogolab.chillout.jp/elearn/icecream/chap4/sec1.htmlは,土日を除く平日の 20 日分。気温と客数の相関係数は 0.8703519。 なんか,事前に相関係数=0.987 を指定して,二変数正規乱数を発生させてデータを作ったっぽ…
「グー」「チョキ」「パー」の「じゃんけん」により多数決をする。一番多くの人が出した手が勝つ。「一度で」勝つ手が決まるような人数の組み合わせは何通りあるか。例えば、4 人の場合は 12 通り。3 種の人数は以下の 4 通り× 3。4 0 03 0 13 1 02 1 1ブル…
> https://twitter.com/KuboBook/status/660779858327269377/photo/1 「アイスクリームの販売数~気温」といった Y ~ X といった線形回帰・線形相関等が調べられていますが,X と Y が時系列データである場合,これは「見せかけの回帰」(spurious regression)…
以下の文字列を出力するプログラムを書けとbPP00$zzzuuuVVUUUQQ11000vvvWWWVVVRRR22211wwXXXWWWSSS333222xxYYYXXTTT444333yyyZZZYYUUU555444zzzaaZZZVV66555000bbaaaWW7766111cccbbbXXX8887722dddcccYYY999888333eeeddZZZAAA999444ffeeeaaaBBBAAA555ggfffbbC…
東北大学の乾・岡崎研究室で公開されている言語処理100本ノック(2015年版)http://www.cl.ecei.tohoku.ac.jp/nlp100/ を、R言語で解く。同趣旨のページ https://rpubs.com/yamano357/85313 では, library(dplyr)library(stringr)library(stringi)なんかを…
東北大学の乾・岡崎研究室で公開されている言語処理100本ノック(2015年版)http://www.cl.ecei.tohoku.ac.jp/nlp100/ を、R言語で解く。同趣旨のページ https://rpubs.com/yamano357/84965 では, library(dplyr)library(stringr)library(stringi)なんかを…
> 一般的な心理学実験よりもサンプル数を多くすることを奨励する。なぜなら、サンプル数が多いほど記述的統計の安定性が増し、標本誤差の問題が相対的に低くなるためである これは,訳の問題なんだろうけど,「サンプルスウ」という用語を使っているだけで,…
ニュースなどで,マイナンバーの例として 123456789012 なんてのが示されるが,そんなマイナンバーはない。 > func(123456789012)[1] "NG" > func(12345678901)[1] 8> func(123456789018)[1] "OK"先頭 11 桁が 12345678901 ならば,最終桁は 8 でなければな…
以下の関数は,12 桁のマイナンバーを与えると誤入力の有無を通知する。11桁を入力するとチェックディジットを返す。 func = function(n) { s = as.character(n) n = nchar(s) if (n < 11 || n > 12) return("Error") s = as.numeric(unlist(strsplit(s, "")…
装置がある。装置にはディスプレイがあり,そこには最初 1 と表示されている。ディスプレイの下には[+1]と[×2]という 2 つのボタンがある。それぞれ,ディスプレイに表示されている数に 1 を加える,2 倍する,という機能だ。ディスプレイある数を表示す…
実数 x,0.1 ≦ x ≦ 10 を,近似誤差が最も小さくなるような分数で表せ。ただし,分子,分母共に 6 桁以内の整数とする。たとえば,x = 1.618033963166706... の場合は,6765 / 4181 である。 変数名を長くしたので複雑そうに見えるが,実に簡単。for 文を使…
m より大きく,n より小さい数のうち,次の条件を満たす整数はいくつあるか条件:元の数を二進表記し,左右反転したものを十進に直したとき,元の数と同じになるなにもねえ,左右反転して十進に直すなんてしなくてよいよ。二進数が左右対称であるかどうかみ…
10 進数の自然数 n(1 ≦ n ≦ 1010)に対して,16 進数の A を n 個並べた数を F(n) と定義する。F(n) を 10 進数で表したものを 106 で割った余りを出力する。 例えば,F(10) を 10 進数で表すと 733007751850 で,この数を 106 で割った余りは 751850 であ…
> What is a bin in Statistics? http://www.statisticshowto.com/what-is-a-bin-in-statistics/>(Rのhist()のhelpでもふつうにbinという言葉が使われている) ランダムハウス英和大辞典によると,bin には, (仕切をした)穀物貯蔵庫,石炭置き場 という…
問題abCDEfghIjklmnOpQrstuvwxyzabcDEFghiJklmnoPqRstuvwxyzabcdEFGhijKlmnopQrStuvwxyzabcdeFGHijkLmnopqRsTuvwxyzabcdefGHIjklMnopqrStUvwxyzabcdefgHIJklmNopqrsTuVwxyzabcdefghIJKlmnOpqrstUvWxyzabcdefghiJKLmnoPqrstuVwXyzabcdefghijKLMnopQrstuvWxYza…
悪趣味ではあるが,今話題のあの図形を描いてみる http://nlab.itmedia.co.jp/nl/articles/1508/03/news114.html に,akihiro kubota(@hemokosa)さんが,ビジュアルデザインなどの分野に特化したプログラミング言語「Processing」を使って描いた例が載っ…
> 久保拓弥@KuboBook> R の cor.test() で Kendall の tau を評価してる最中なんだけど,同じ cor.test() の "pearson" に比べて数百-数千倍の計算時間が必要とされてる模様…4-5 分を費やして計算終了.とうぜんながら無相関仮説が棄却されました,とゆー結…
http://t.co/ld3MR7r2yi「for を捨てよ、foreach を書こう」だが,どういう場合に(何をどうやったら)効果的な時間短縮が得られるのか,実例を述べて欲しいなぁ1:n までの平方根を求める> n <- 10000foreach を使う> system.time(a <- foreach(i = 1:n, .co…
時系列データの解析についてのコメントが流行っているのか... 「R: 時系列データ間の関係を状態空間モデルでみる」「R: 時系列データ間の関係を状態空間モデルでみる(2)」 であるが... 状態空間モデルというのは,不勉強で知らなかったのだが,偏相関係数…
中澤さんの 「誤解を生むグラフ」に示されているデータ > cor(x) YEAR CUCI BEEFCC BEEFSPYEAR 1.0000000 0.9402893 0.7666001 0.7501338CUCI 0.9402893 1.0000000 0.5671291 0.5509674BEEFCC 0.7666001 0.5671291 1.0000000 0.9971032BEEFSP 0.7501338 0.55…
昔の英文ワープロ(monospace font で,単語間に空白を挿入して右端を揃える) 昔,FORTRAN で実機を使わずにプログラムしたことがあったなぁ~ func = function(s, w) { func2 = function(s) { n = length(s) len = sum(sapply(s, nchar)) spaces = w - len…
原文が英語というが,アルファベット出現頻度を頼りにするにはちょっと無理がある。どうせ,換字式だろうとたかをくくって,しらみつぶしに検索。 tbireazrag bs gur crbcyr, ol gur crbcyr, sbe gur crbcyr, funyy abg crevfu sebz gur rnegu ====== 以下の…
「データの不備を統計的に見抜く」において > 同様に、黒人についての係数の時系列プロットを見てみましょう。> 1964 年についてだけ、係数の誤差範囲が異常に広いです。 Estimate Std. Error z value Pr(>|z|)(Intercept) 0.10298445 0.2868289 0.35904485 …
=IF(I3<0.001, "c", (IF(AND(I3>0.001, I3<0.01), "b", (IF(AND(I3>0.01, I3<0.05), "a", ""))))) 0.001 のときなどはどうなるのかという突っ込みはおいておくとして,これは,はしからやっていけば,AND なんか書かなくてもよいし,余分な括弧もいらない。 …
> 箱ひげ図にノッチ(切れ目)を入れると、各群の中央値の95%信頼区間が表示されます。> そして、2つの群のノッチがオーバーラップしていなければ、それらの群の間に有意差があるとされます。 逆は真ならず 有意差があってもオーバーラップしていることもあ…
> R Recipe: aligned-plot-naive sumo.ly/865O 上下の図の「はば」をそろえるわざの紹介. R 作図でありがちなめんどう,ggplot2 だとわりと簡単に何とかなるみたい… pic.twitter.com/3UeF6qZrFu ggplot2 を使えば,下の図のように,横幅を揃えるのが簡単と…
> 「データ数」ってのはちょっと変で(データは複数形だから)「サンプル数」ってのが正しいのかと思ってた.なんでいけないのかね.自分は「データの数がさあ」とか普通に怒鳴ってるけど.統計学者というのはよくわからないことにこだわる人たちではある. …
pi を,試行回数 n = 10, 100, 1000, ..., 1000000 として,モンテカルロ法で求めよという単純な問題。 ずっと前にここにも書いたが,R では基本的にmean(1 >= colSums(matrix(runif(2*n)^2, 2)))*4の 1 行で書ける(複数の関数を使うが)junk = sapply(10^(…