書籍を検索します。雑誌文献を検索する際には「雑誌文献検索」を選択してください。

検索

カテゴリから選ぶ

生命科学者のためのDr.Bonoデータ解析道場 第2版

全パソコン対応でスグに使える ずっと使える

生命科学者のためのDr.Bonoデータ解析道場 第2版
本文を見る
  • 有料閲覧

筆頭著者 坊農 秀雅 (著)

MEDSI

電子版ISBN 978-4-8157-0307-3

電子版発売日 2024年1月22日

ページ数 232

判型 B5変

印刷版ISBN 978-4-8157-3088-8

印刷版発行年月 2023年12月

DOI https://doi.org/10.19007/9784815730888

書籍・雑誌概要

データ解析をはじめようか迷っているあなたへ
環境設定からコマンドライン操作まで本書でイチからマスターしよう! 

ビッグデータの解析に欠かせないコマンドラインの実践書、待望の改訂。今版はMacのみならず、Windows、Linuxの各OSに対応。「実際に解析ができるようになる」ために、解析ソフトウェアのインストールから、解析用に用意されたダミーデータを使用したコマンドの打ち込みを行い、データ解析を丸ごと体験できる。よくある疑問や陥りがちな誤りにも言及された初学者からベテランまで必携の一冊。

目次

序文

Dr. Bono のデータ解析8 箇条

1 章 準備編
1.1 コンピュータを買おう
デスクトップ型かノート型か
基本満タン
優先順位はCPUよりもメモリの方が高い
1.2 コンピュータをセットアップしよう
ネットワーク設定を確認せよ
自動的にスリープさせない設定にすべし
有用ユーティリティを常駐させるべし
1.3 周辺機器の設定
外付けドライブは買ったらすぐフォーマットすべし
バックアップをとるべし

2 章 基礎編
2.1 UNIX コマンドラインを使ってみよう
ビッグデータ対応
時間節約
繰り返し処理
必要性
再現性
2.2 コマンドラインの基本操作
ディレクトリとは
ディレクトリ操作のコマンド
ファイル操作
基本コマンド
ファイルの中身を見る,探す
ファイルの権限を変更する
ファイルやディレクトリの測定
ファイルの圧縮と展開
パイプとリダイレクト
プロセス操作
シェルコマンド
コマンドサーチパス
いろいろなパス表記
2.3 シェルプログラミングのための環境構築
パッケージマネージャーで環境構築
Biocondaのインストール
Biocondaの利用例1:coreutils
Biocondaの利用例2:EMBOSS
Bioconda以外のパッケージマネージャー
繰り返し処理
バッチスクリプト
Git,GitHubの利用
生命科学分野で使われるプログラミング言語
awk
Perl
Ruby
R
Python
Julia
再現する計算結果をめざして:Docker
2.4 ネットワークを介して遠隔のコンピュータを操作する
ssh
rsync
byobu
byobuのインストールとそのトラブルシューティング
byobuの初期設定
byobuの使いこなし
2.5 公共データベースからのデータ取得
コマンドラインでのデータ取得
curlやwgetによるコマンドラインファイル取得
TOGOWSによる個別の塩基配列取得
繰り返し処理によるデータ取得(通し番号編)
繰り返し処理によるデータ取得(リスト編)
DBそのものの取得
lftp による再帰的なバッチスクリプトを用いた取得

3 章 実践編
3.1 ゲノム配列解析の初歩
リファレンスゲノム配列データの取得
コマンドラインでの SRAからのデータ取得
ゲノムマッピング
bwa
Bowtie
SAM-BAM変換
スプライスマッピング
HISAT
STAR
3.2 配列類似性検索
BLASTのインストール
BLAST用DBの作成
コマンドラインBLAST検索実行
queryもDBも塩基配列
queryはアミノ酸配列,DBは塩基配列
DB はアミノ酸配列
DB 中の必要なエントリだけ抜き出す
1エントリだけ抜き出す
複数エントリを一気に抜き出す
応用例1:予測遺伝子セットの機能アノテーション
応用例2:メタゲノムデータ解析
SRA からのデータ取得
FASTQをFASTAに変換
BLAST検索
応用例3:ローカルにBLAST ウェブサーバーを立てる
3.3 系統樹作成
多重配列アラインメントと分子系統樹
配列取得
混ぜるな危険
1エントリごとに,こまめに集めてくる
配列類似性検索で集めてくる
多重配列アラインメントの実行
多重配列アラインメントの可視化
シークエンスロゴによる可視化
系統樹作成と可視化
結果の解釈
3.4 タンパク質構造解析
タンパク質ドメインのデータベース
InterPro
Pfam
タンパク質ドメインの配列解析
インストール
タンパク質配列データベースに対して検索
タンパク質ドメインを検索
検索結果の可視化
タンパク質ドメインから立体構造へ
3.5 トランスクリプトーム解析
RNA-seqデータ解析手法
リファレンス配列情報を利用したRNA-seqデータ解析手法
発現定量解析の実際
query配列の取得とその処理
トランスクリプトーム配列の取得とそのindex作成
salmonによる発現定量
Bioconductorのパッケージを使って遺伝子ごとの発現値へ変換
発現差解析
多数のサンプルを一気に処理する
参照ゲノム配列なしのRNA-seq解析手法
入力配列の品質管理
その後の解析
3.6 データ統合解析
リファレンスデータセット
遺伝子アノテーションデータ
遺伝子発現のリファレンスデータセット
IDによる連結
IDの包含関係
データ連結の実際
連結するための処理
一対多のデータ処理
ゲノム上の座標による連結
索引 

コラム
● コアとスレッド
● 絶対パスと相対パス
● USB接続機器にコマンドラインからアクセスするには
● 特別な意味をもつ文字
● htop
● コマンドラインのコピー&ペースト
● 正常にcondaインストールできなくなったら
● パッケージマネージャーの歴史
● テキストエディタを使いこなそう
● URLのさまざまなスキーム名とHTTPS問題
● DBエントリのバージョン
● MD5とは
● セキュリティ問題を回避する方法
● ドメイン?モチーフ?
● 並列版圧縮プログラム
● 発現量0とは
● Jupyter notebook