Above & Beyond

日々のアウトプット記録

第75回R勉強会@東京(#TokyoR)

1/19(土)は「第75回R勉強会@東京(#TokyoR)」に参加してきました。

tokyor.connpass.com

f:id:kabukawa:20190114105107p:plain:w500

会場は アルトア株式会社 さん。とても明るくてきれいなスペースでした。

f:id:kabukawa:20190119140914j:plain:w600 f:id:kabukawa:20190119140940j:plain:w300f:id:kabukawa:20190119141423j:plain:w300

サッカーゲームが有るのがオシャレ(笑)


目次


Tokyo.Rとは

R言語の地域コミュニティ@東京です。

f:id:kabukawa:20190120100053j:plain

詳細は応用セッションの方で語られているので割愛。


何故参加したか

Rは以前仕事で使っていたので、知識をアップデートするために参加しました。 TokyoRの存在自体は知っていたのですが、非常に人気のある勉強会で公開されるとすぐに定員に達してなかなか参加できなかったので、参加できて良かったです。


初心者セッション

時間 発表者 タイトル
14:30~14:35 @TokyoRCommunity オープニング
14:40~15:05 @kotatyamtema 初心者セッション1 – R基礎〜データ読み込み –
15:05~15:30 @kilometer00 初心者セッション2 – Data Handling –
15:30~15:55 @koriakane 初心者セッション3~Plot & Visualization -

応用セッション

時間 発表者 タイトル
16:10~16:40 - 自己紹介タイム
16:45~17:15 @0_u0 アルゴリズムと前処理の話(仮題)
17:15~17:45 yusuke kaneko DID , Synthetic Control and CausalImpact
17:45~18:05 @y__mattu Tokyo.Rの2018年振り返りとこれから

協賛枠

時間 発表者
18:15~18:25 アルトア株式会社

LT

発表者 タイトル
@upura0 172+192+372=2019
@kur0cky_y Rでやってみたモダンな就活
@weda_654 パッケージ系のなにか
@Np_Ur_ RとKubernetes(変更の可能性あり)
@sakaue R Bootcamp 2114514
@koheiw7 テキスト分析シンポジウム「POLTEXT」のご案内

内容


初心者セッション1 – R基礎〜データ読み込み –

@kotatyamtema さん

インフルエンザに罹患したということでこのセッションはキャンセルされました。


初心者セッション2 – Data Pipeline –

@kilometer00 さん

speakerdeck.com

最初のセッションということで初心者セッションについての説明も少しあって、そのなかで印象的だったスライドを2枚貼っておきます。

f:id:kabukawa:20190120100359j:plain:w300 f:id:kabukawa:20190120100414j:plain:w300

内容メモ

データパイプライン
入力と出力の間にある処理

色々なパッケージを使って処理
スパゲティコードにならないようにしたい

コーディングスタイル
R coding  style guides

Common Nameに注意してコードを書こう
3日後の自分に向けて書く

RStudioおすすめ

vector
named list 名前付きでリストを作成できる
data.frameはnamed listの特殊形態
結果表示時に違いが出る
matrix 名前がない
data.frame 名前がある Variable, observation

Tidy data
一つのobservationには一つの意味を

縦横変換する関数 tidy.gazaer
nest
Horizontal
gather ↓↑spread⇔nest unnest
Vertical

pipe
便利

名詞に値
動詞に関数

関数は動詞

dplyr色々できるけど、5つの動詞に絞り込んでいるのが重要
選択肢を制限することでデータ解析のステップをシンプルに考えられる。

より多くの制約を課すことでより自由になる。

自分の頑張り次第で世界は広がる

RのStyle Guideのリンク

google.github.io

style.tidyverse.org

adv-r.had.co.nz

5つに絞り込まれた動詞

f:id:kabukawa:20190120101050j:plain


初心者セッション3 – Plot & Visualization –

@koriakane さん

speakerdeck.com

内容メモ

取り込み、加工はできるようになったので。
Rの可視化の話。

データを確認しておく
summery()で概要確認

可視化
plot()
hist()

plot() で散布図
x軸の値とy軸の値を引数に指定するといい感じに可視化してくれる。

色の変更
軸名変更
凡例(plot()関数の直後でlegend()関数で指定)
マーカーの指定定数は?plot()で確認できる

ggplot2
キャンバスを用意して重ね書きするイメージ。
カスタマイズ楽
それっぽく作りやすい

tidyverseの仲間なので列名に$を付ける必要はない

折れ線グラフ
散布図は簡単にかけるけど、折れ線グラフはつまづきやすい
色の指定方法などは散布図と一緒

plotで折れ線グラフを書く日はtypeにlを指定
日付を指定するには最初に軸を非表示にして表示後に日付変換してから軸をあとから書く

matplot()を使うと複数データを描画できる。

ggplot2
geom_lineを使う
tidyなデータを可視化するものなので加工が必要

単位の違うデータを追加する場合
scaleパッケージのrescale関数を使う

応用セッション1 –宇宙が生まれる前の話 –

@0_u0 さん

github.com

内容メモ

Rの古代史。
R1.00からの話

デモあり
日本語入力をすると落ちる

演算子は"%(好きな演算子の名前)%"として定義できる。

igjit.github.io

@0_u0 さんのブログエントリ

socinuit.hatenablog.com


応用セッション2 – DID , Synthetic Control and CausalImpact –

yusuke kaneko さん

www.slideshare.net

内容メモ

DID Diference in Deference
並行トレンドを仮定して推定

最低賃金を上げると雇用が減る
→データから検証する

並行するデータの選択が恣意的にならざるを得ない
元データの状態を排除できない

テロとGDPの関連
Synthetic Control
対象群の主観性を排除可能
推定値の信頼性
極度の活かし意外装置を排除できる
問題
対象群の数が多くないといけない
重みにおける制約
この問題を解決するために
CousalImpact

対照群が必要ない
データ取得の制約によって適切な対照群が得られないケースも有る
問題
構造変化のショックに弱い

応用セッション3 – Tokyo.Rの2018年振り返りとこれから –

@y__mattu さん

内容メモ

2018年 8回実施
70以上の発表
50以上の発表者

2018年に体制が変わったことの話
Rのカンファレンスでコミュニティの発表があるので、今回から入れてみた。
今の運営体制本格始動
RConsortium
有料化
など

人気イベントになったTokyoRの運営について
運営を創始者一人でやっていたので回らなくなってきた
→今の体制に2017年の冬に移行

Twitterアカウント作成
メールアドレス作成
初心者セッションは運営で回す
応用セッションは公募。いなければ直接依頼。
発表者は無料
次回開催日のアナウンス
無理に月1でやらなくても良い
テーマを決めてやってみる

R Consortium
RStudio社が支援
小さいカンファレンスを支援
規模と開催回数で支援金額が決まる
meetupで公開したら多めに支援。だけど他のサイトでも支援はしてくれる。

ATND→Connpass
ATNDは先着順だった。キャンセル率1,2割

勉強会早押しおじさん
無料だから登録する人
当日ドタキャン

抽選にする
有料にする

財政難
懇親会参加者からしか徴収しないためにこれにあまりお金を当てられない

ハドリー(Rの神)が東京に来ることになった。

発表を聞くだけの人も有料にする
paypalと連携できるConnpassに変更
受付で現金のやり取りをしなくて済む
参加者も運営もハッピー

銀行口座を作る
任意団体として口座を作る
団体規約などの書類が必要

団体規約

Rってなんですか?
プログラミング言語ってなんですか?
皆さん集まってなにをしているんですか?

普通の人はわからない
僕らはTokyo.Rで集まってなにをしているんですかね?

これからのTokyo.Rの話をしよう

今の体制を踏襲
発表者の募集はGoogleフォームで
参加者の募集はConnpassで
会場募集
企画者もやっていく
 初心者セッション
 Python特集
スピンオフ企画

これまでもこれからもTokyo.Rはゆるいコミュニティ

スポンサーセッション

www.altoa.co.jp


LT1 – 172+192+372=2019 –

@upura0 さん

speakerdeck.com

内容メモ

2019は素数か
primeパッケージで確認できる
素数ではない

20190119は素数か?
素数ではない

6通りの組の3つの素数の2乗の和で表せる最も小さい数字

@upura0 さんのブログエントリ

upura.hatenablog.com


LT2 – Rでやってみたモダンな就活 –

@kur0cky_y さん

[資料は公開されたら追記します]

内容メモ

就活を自動化したい

企業分析
自己分析
エントリー
ES

企業分析をする
クロールの話
風通しのいい会社は法律を守らない???

LT3 – Rオジサンに捧ぐ–

@weda_654 さん

plotnineですよ.ipynb · GitHub

内容メモ

Pythonの話

良くないところ
前処理、可視化が😺
Rとは違う

いいところ
APIなどがキレイで整備されている
R、tidyversありがとう

良くないところをどうするか?
慣れる
チートシート
作法などの輸入

plotnineパッケージを使うとRのggplot2と書き方が似ている
最高やんけ

LT4 – RとKubernetes

@Np_Ur_ さん

drive.google.com

内容メモ

本の紹介
「RとShinyで作るWebアプリケーション」

DockernizeされていればRアプリケーションを簡単に展開して動かせる
RアプリケーションをShinyでWeb API化してKubernetesにデプロイすると簡単に動かせてよいのでは?という話

RとShinyで作るWebアプリケーション

RとShinyで作るWebアプリケーション

  • 作者: 梅津雄一,中野貴広
  • 出版社/メーカー: シーアンドアール研究所
  • 発売日: 2018/11/07
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る


LT5 – R Bootcamp 2114514 –

@sakaue さん

[資料は公開されたら追記します]

内容メモ

RBootCampの紹介
分析を実際に手を動かして体験する
終わるまで帰れない

誰でも参加できる
残り4席
受講料 63000円

www.rbootcamp.org


LT6 – テキスト分析シンポジウム「POLTEXT」のご案内 –

@koheiw7 さん

[資料は公開されたら追記します]

内容メモ

POLTEXT
Political Text

テキスト分析で政治の研究をする

9月14,15で早稲田大学でカンファレンスをやる

quanteda.org


まとめ

少し時間は長かったですが、とても濃い内容で、有意義な時間を過ごすことが出来ました。 途中で自己紹介タイムが有ったのですが、参加者の属性も多様で、Rって結構色々なところで使われているんだなというのを実感できて良かったです。 Pythonに押され気味という感じもありますが、こうして土曜日にもかかわらず沢山の人が参加(しかも有料)する勉強会が開かれていること、そしてその発表内容も情熱というかR愛が伝わってくるものばかりで、圧倒されました。 なにより、発表者はもちろん、参加者の皆さんもとても楽しそうに聞き入っていて、良いなぁと思いました。 このあたりは運営のスタッフの方の力も大いにあると思います。 楽しいイベントをありがとうございました。

参加できてよかったと思います。 できれば次回も参加できると良いなぁ。。。