バイオインフォの解析は、データ量が多く、解析にもRスクリプトを自分で書く必要があり、解析経験のない研究者にはハードルが高いと感じられます。
また、そもそも自分の研究室にシーケンスをする機械がなければ、外注でシークエンスをすることになり、費用面でのハードルもあります。
現在は、様々な公開データベースや解析ツールがオンライン上で公開されており、簡単に個人で自由に利用できるものがたくさんあります。
公開データベースを用いれば、研究を始める前に興味のある遺伝子についてin silico解析をすることができますし、研究を始めた後には自分の研究結果の裏付けになるin silico解析データを作ることができます。
オンライン上の解析ツールを用いれば、自分でRスクリプトなどを書けなくてもマウスで操作するだけで、最低限の解析をすることもできるようになりました。
このようなサイトを知っているかどうかで、研究のしやすさも変わってくるでしょう。
本記事では、がんゲノムのデータベースと、それを利用するツールを中心に紹介していきます。
がんゲノムデータベース
ヒト組織切片からの遺伝子情報データベースや、細胞株の遺伝子や薬剤感受性情報のデータベースがあります。主なデータベースをご紹介します。
・ヒト組織切片からの遺伝子情報のデータベース:GDC/TCGA、ICGC、COSMIC
・細胞株の遺伝子情報や薬剤感受性情報のデータベース:CCLE、GDSC、NCI-60
・研究者が提出したデータセット:GEO
・miRNAの標的mRNAデータベース
- ヒト組織切片からの遺伝子情報のデータベース:GDC/TCGA、ICGC、COSMIC
- 細胞株の遺伝子情報や薬剤感受性情報のデータベース:CCLE、GDSC、NCI-60
- 研究者が提出したデータセット:GEO
- miRNAに関するデータベース
私自身は、GDC/TCGA、CCLE&GDSC、GEO、miRNAの公開データベースをよく利用しています。
それぞれの公開データベースにアクセスすれば直接データをダウンロードすることはできますが、症例ごとのファイルを自分で結合させたり、ノーマライズをしたり、と手間がかかります。
各公開データベースをより簡単に利用するためのウェブツールについては、次の「ウェブツール」の項でご紹介しますので参考にしてください。
GDC data portal/TCGA(がんゲノムアトラス)
GDC data portal(GDC: Genomic Data Commons)とは、がんに関連するゲノム研究データセットを検索・ダウンロード・分析するためのポータルサイトです。アメリカ国立衛生研究所(NIH)によるがんゲノムプロジェクトで、元々はThe Cancer Genome Atlas (TCGA)として知られていましたが、現在はGDC data portalとして公開されています。
様々ながん種の患者さんから収集した臨床情報や組織切片からの情報が公開されています。ゲノム、ゲノム変異、トランスクリプトーム、エピゲノムなどのデータを得ることができます。がん自体の情報がメインですが、がん周囲の正常組織の情報も含まれています。
がん研究に携わる人にとっては、必須のデータベースでしょう。
使い方に関しては、統合TVが詳しく紹介しています。
GTEx portal(ヒト正常組織の遺伝子発現)
GTEx(Genotype-Tissue Expression)プロジェクトとは、ヒトの遺伝子発現を組織ごとや遺伝子型ごとに網羅的に調べたプロジェクトです。米国ブロード研究所(Broad Institute)を始めとし、北米・南米・欧州の複数の研究機関が共同して国際コンソーシアムを立ち上げ、プロジェクトを行なっています。
GTEx portalは、GTExプロジェクトで収集・解析した遺伝子発現量や、関連するeQTL(expression quantitative trait locus:遺伝子発現量に影響を与える座位)などの情報を公開しています。
GDC (TCGA)が癌の情報を扱っているのに対し、GTExからは正常組織の情報が得られます。
統合TVはこちらです。
ICGC data portal(がん遺伝子変異)
ICGC(国際がんゲノムコンソーシアム)とは、がんにおける遺伝子変異の解明を目的とした国際研究プロジェクトです。日本・米国を含む17カ国が参加してます。日本からは6大学・4研究機関が連携し、大規模ゲノム解析を行ってデータを公開しており、日本医療研究開発機構(AMED)も研究支援しています。
喫煙による遺伝子変異の解明など、研究成果を発表しています。
COSMIC(がん遺伝子の体細胞変異)
COSMIC (Catalogue Of Somatic Mutations In Cancer) は、がんと関連のある体細胞変異の情報を集積したデータベースです。
2つのタイプのデータが公開されています。
・expert curation data
COSMICの専門家が、投稿論文の情報をもとに手入力したデータ。Cancer Gene Census (CGC)プロジェクト(がんの原因となる遺伝子変異をまとめた)で挙げられた遺伝子に関して、詳細な情報提供を行う。既知のがん遺伝子についての情報。
・systematic screen data
大規模ゲノムスクリーニングのデータを報告した論文からのアップロードと、TCGAやICGCからインポートしたデータ。新たながん遺伝子の発見に役立つ情報。
使い方は統合TVで紹介されています。
CCLE(ヒトがん細胞株データ:遺伝子情報・薬剤感受性)
CCLE (Cancer Cell Line Encyclopedia)は、米国ブロード研究所 (Broad Institute)が提供するヒトがん細胞株のデータポータルです(Nature 569, 503-508 (2019))。
約1,500種の様々な種類のがん細胞株について、遺伝子発現、変異、DNAメチル化、microRNA発言、タンパク質アレイなど、多岐にわたるデータが公開されています。
更に、薬剤感受性データも公開されており、遺伝子情報と関連づけて解析をすることで、薬剤の効果や耐性に関するバイオマーカー研究に用いることができます。
統合TVでも使い方が紹介されています。
GDSC(ヒトがん細胞株データ:薬剤感受性)
Sanger Genomics of Drug Sensitivity in Cancer (GDSC)は、英国のWellcome Sanger Instituteと、米国のMGH(Massachusetts General Hospital Cancer Center)Center for Moleculer Therapeuticsが合同で行ったプロジェクトです。
約1,000種以上のヒトがん細胞株に関して、薬剤感受性の情報を公開しています。
NCI-60(ヒトがん細胞株データ)
NCI-60では、米国国立癌研究所(NCI)による、60種のヒトがん細胞株を用いたスクリーニングの情報を公開しています。各細胞株に対して、化合物を投与し、細胞増殖抑制や細胞毒性の影響を調べています。
薬剤の投与をした時の、生物学的反応パターンや推定される作用機序などを解析することができます。
NCBI GEO DataSets(研究者提供のデータセット)
NCBI GEO (Gene Expression Omnibus)は、アメリカ国立生物工学情報センター(NCBI)が提供している遺伝子発現情報のデータベースです。研究者が登録した、実験データセットが公開されており、遺伝子発現データやマイクロアレイデータなどを利用することができます。
miRNAのデータベース(標的mRNAの検索)
miRNA(マイクロRNA)は、21-25塩基(nt)長の1本鎖RNA分子で、真核生物の遺伝子転写後発現調整に関与しています。miRNAは、標的mRNAに対して、その不安定化と翻訳抑制を行うことで、タンパク質産生を抑制します。ヒトゲノムに1,000種類以上のmiRNAがコードされていると言われており、疾患診断や治療効果予測などのバイオマーカーとして注目されています。
GDC/TCGA、GTEx、CCLEなどのデータベースでも、miRNA発現のデータが公開されています。
ここで紹介するmiRNAのデータベースは、miRNAがどのmRNAを標的としているかを検索できるデータベースです。
各データベースによって結果が多少異なるため、より可能性の高い標的mRNAを見つけるためには、それぞれのデータベースで得られた結果をベン図にして共通のmRNAをピックアップするのが良いでしょう。
miRNAデータベース:TargetScan、miRanda、DIANA TOOL、miRDB
ベン図に関しては、ウェブツール(InteractiVenn)が便利です。ウェブ上でベン図が描け、画像として保存することができます。
解析用ウェブツール
ここまでで紹介した公開データベースのうちのいくつかは、より簡単に利用するためのウェブツールが公開されています。
これらのウェブツールを利用することで、ファイルの統合やノーマライズの作業が省略でき、最低限の解析なら自分でRスクリプトなどを書くことなく実行できてしまいます。
今回は、どのような使いやすいウェブツールが存在するか、記載していきます。使い方の詳細については、徐々に別の記事で詳しく紹介していきたいと思います。
以下のサイトについてご紹介します。
・データの抽出・解析(遺伝子情報データベース):cBioPortal、UCSC Xena
・RNAseqデータ解析:iDEP
・機能解析(GO解析、エンリッチメント解析):DAVID、GSEA、Enrichr
・データの抽出・解析(細胞株データベース):Depmap portal、CellMinerCDB
・デコンボリューション:TIMER2.0
・生存臨床情報:Kaplan-Meier Plotter、GENT2
(以下記載途中)
cBioPortal
UCSC Xena
iDEP
DAVID
GSEA
UC San Diego
Enrichr
Depmap portal
CellMinerCDB
TIMER2.0
CIBERSORT, xCell
Kaplan-Meier Plotter
Gent2
さいごに
さまざまなデータベースやツールが公開されていますね。
今後の記事では、目的別にこれらのデータベースやツールを使いこなす方法をご紹介します。
コメント