statepipyの日記

興味のある分野(統計、疫学、機械学習、品質管理、手料理)と、PCスキルの維持を目的に書き続けます!

2021-08-01から1ヶ月間の記事一覧

UCLA の Generalized linear Regression Models セミナーに参加しました。

日本時間の朝5時からでしたら、参加してみました。 ↓ は講師の先生が使用したスライドです。 また参加します!stats.idre.ucla.edu

寄与度・寄与率

「寄与度」の計算方法です。 先ずは、「寄与率」との違いを認識する必要があります。 www.meti.go.jp

経済産業省 経済分析室

www.meti.go.jp

業務量調査の方法

現場の業務量調査は、業務量の把握や改善、適正人員配置等で行われますが、容易なことではありません。少し調べてみましたので、まとめてみました。 実際の業務量の測定には、以下ような手法があります。www.bpm-portal.jp www.newspt.co.jp ① 稼働分析法 ・…

相関係数を求める際のサンプルサイズ

相関係数はサンプルサイズは大きくなると、r=0.2程度の相関であっても有意となってしまいます。 相関係数を検討する際においても、サンプルサイズの計算が提唱されています。 計算式等は以下の書籍に記載されていますが、想定される相関係数によって以下の…

データサイエンス基礎(統計検定)を受験しました!

公式HPにあるサンプルを過信し、当日に臨みました(ほとんど、ぶっつけ状態ですが・・・)テストは、2021年7月版の問題でした。 試験内容ですが、大問題が8つあり、各大問には小問題が5問程度あります。 8個の大問の中で、実際にエクセルを動かして計算す…

文字変数のコード化

# 「t」または「f」が入力sれているので、「t」なら1、「f」ならを返す関数を作成 def trans_f(x): if x == 't': return 1 elif x == 'f': return 0 # apply関数を用いて変換 data['文字変数A'] = data['文字変数A'].apply(trans_f(x)) # 無名関数の記述 da…

特徴量選択

特徴量の選択には、以下の3つが知られている。 フィルター法 ラッパー法 組み込み法

内閣府 データ分析セミナー

内閣府 データ分析セミナー www.chisou.go.jp

地域経済循環分析

環境省 地域経済循環分析 www.env.go.jp

重複のセルにマークをつける

Excelに入力したリスト等のデータにおいて、効率的に重複の箇所を見つける場合、「countif関数」が有効です。関数の第1引数には範囲を、第2引数には重複を探すセルを選択しますが、第1引数を絶対参照(F4)にしておかなければ、検索範囲がズレてしまいます。

散布図の描画

# 散布図 data.plot.scatter(x='X軸の変数名', y='Y軸の変数名') plt.show()

相関係数を求める際に必要なサンプルサイズ

後ほど、書きます!

ノンパラメトリックの多重比較(stata)

dunn検定 と Conover-Iman検定が ユーザによって公開されているので、下記のようにインストールを行う。 ■ ssc install dunntest ■ ssc install conovertest詳細については、help dunntest 及び help conovertest で確認する。

# seabornのインポート import seaborn as sns # X軸及びY軸の指定 sns.boxplot(data=●●●●, x="X軸に相当する変数名", y="Y軸に相当する変数名") # 可視化結果を表示 plt.show() # 表示範囲を制限する時 (例では0~500) plt.ylim(0, 500) #←このコマンドが…

今度挑戦します!(とろ~りチーズのハムカツ)

oceans-nadia.com

Pandasコマンド

# count, mean, std, min, 25%タイル値, 50%タイル値, 75%タイル値, max の確認 df.describe() # 外れ値の確認 data["●●●"].value_counts().sort_index().tail() data["●●●"].value_counts().sort_index().head() # 特定のデータの削除 (連続変数である[y]の…

人はなぜミスをしてしまうのか

www.igaku-shoin.co.jp

axis=0 と axis=1 (Pandas)

axis=0 → 列単位 axis=1 → 行単位 #1列目を削除 df1 = df.drop(0, axis=0) #1行目を削除 df1 = df.drop(0, axis=1)

QC活動と単なる改善(Kaizen)の違い

以下のようなことを耳にすることがある。 「行いたいこと(=対策)はだいたい決まっているのに、何故、QC活動を行わないといけないのか?」 「改善活動とQC活動(TQM)との違いは?」 「QCとTQMとは、何が違うのか?」以下に、筆者としての見解を述べたいと…

Googleドライブのマウント

# マウント from google.colab import drive drive.mount('/content/drive') 上記コマンドを入力後、Googleにアクセスする際のパスワードを貼り付けて完了! その他にも、以下のようなものがある。 # ドライブ内のファイルをリスティング(中身の確認) ! ls…

リストとリスト内包表記

リスト内包表記を用いれば、シンプルな記載となり、行数も削減できる! # リスト list = [] #空のリスト作成 for i in range(10): list.append(i) #appendで空のリストに追加 print(list) # リスト内包表記 list = [i for i in range(10)] print(list) 何れ…

定年後のお仕事

今は一つの企業で勤めるのはリスクと言われる時代。自己をSWOT分析し、実践してみたいです。 toyokeizai.net

データの記述_pandas

# 連続データの記述(count,mean, std, min, 25%, 50%, 75%, max ) df.describe() # データの性状を問わず、全てのデータの記述 df.describe(include="all") # locを用いた、特定のデータの記述 (例は「平均」) df.describe().loc["mean"]

データの抽出_pandas

読み込んだからのデータ抽出 #特定の用語(●●●●●●)を含むデータの抽出 df[df["主病名"].str.contains("●●●●●●")] #特定の用語(●●●●●●)を含まないデータの抽出 df[~df["主病名"].str.contains("●●●●●●")] # 複数条件を含む用語の抽出 df[(df["年齢"] >=65) & (…

過去問・参考書の活用法

studyhacker.net

これからのリーダー像

studyhacker.net

リスト

DataFrameから1列のデータを取り出す場合のデータはSeries型、複数の列を取り出す場合のデータ型はDataFrame型となる。 #1列の場合 df["変数1"] #2列の場合 df[["変数1", "変数2"]] 読み込んだデータから特定の行のみを位置番号を用いて、取り出したい場合は…

就職に有利な資格5選

www.moneypost.jp

Pythonとネットワーク自動化検定(日本ネットワーク技術者協会)

新しい資格のようですね。 it.impress.co.jp