癌の10年生存率報道にみる、データを「見る目」の重要性

今回の内容

 
 
 
 ***
 


1:はじめに

癌の10年生存率が、全国ガンセンター協議会から、日本で初めて発表された。
 

 
これまでは癌治療後、5年生存したら安心という説が過去のものになった。
 
今後もデータの蓄積が進み、予測精度の向上が期待できる。これは素晴らしい。
 
そこで今回は癌の生存予測の変更について。
 


2:データを使った説明を「される」側のリテラシーが必要

これまでは何とか5年間、再発しなければ、その後は安泰と思っていた。
 
それは5年分のデータしか無く、かつそれで十分だと判断した輩がいるからだ。
 
つまり、悪意ある書き方をすると、データの使い方を知らない医師会がミスリードしていたということだ。
 
「なんだ、医者は5年、再発しなければ、もう再発しないと言っていたのに、騙された」
 
そのように感じるひとはいるだろう。
 
仮に医師が、
 
「五年間、再発しなければ、ほぼ再発はしないと思われますが、あくまで確率の話です」
 
と誤解の無いようにガード文言を入れていたとしても。
 
 
しかしこれは、話をひろげると、確率論を重点的に教育していない、日本の教育制度の問題でもある。
 
ITリテラシーの普及が必要と認識されている昨今、データを使う側に依存せず、データを見せられる側も知識を得る必要がある。
 
 

3:データ分析の結果を聞くときの前提知識

 
ひとつ質問。
 
「現在の10年分のデータの結論(発症部位ごとの生存率)は、20年分のデータが収集できて分析したら、結果はまた変わる可能性がある。その理由を言えますか?」
 
とあれば、言えるか?
 
どうだろう?
 
 
上記に対して意見を言うには、以下を理解しておけば簡単。
 
  • 「データ」の構造、「データ」ってどういうもの?
  • 「データ」を蓄積するって何?
 


4:「データ」の構造、「データ」ってどういうもの?

「データ」は過去に起こった出来事の、原因と結果が、実績として収集されているものだ。
 
今回の例だと、
 
  • 癌を発症した日
  • 患者の性別、年齢など個体情報
  • 手術した日
  • 手術の結果
  • 術後のケア内容
 
など。
 
これらのデータは分析をした時点で、一旦固定する。つまり、データを減らしたり増やしたりはしない。
このデータを仮に「A」とする。
 


5:「データ」を蓄積するって何?

 
ここから先、更に新しい患者データを年数をかけて蓄積する。これを仮に「B」とする。
 
そして、例えば10年後の2026年に、
 
「20年間の生存率を出します」
 
と発表すると仮定する。
 
その際、今後10年で蓄積される患者データは、先ほどの「A」と同じ環境のデータだろうか?
 
いや、環境が異なる可能性が高いのでは?
環境の変化が考えられると思う。
 
例えば今後10年で
 
  • 癌の発症年齢が低年齢化する
  • 現在のデータとは食生活が異なっている年齢層が癌年齢になる
  • 医療が劇的に進化する
  • 予防医学が発達する
 
などの変化が起こると、現在の高齢者である「A」のデータと比較して、「B」の癌患者のデータは質が変わる。
 
データ「A」とデータ「B」を混ぜて分析した場合と、「A」「B」別々で分析する場合で結果は変わってくる可能性を感じることができるだろうか?
 
 

6:「データ」はその使い手の意志で姿を変えると知る

 
「データ」は収集したそのままの姿を保つ。
しかし分析に際しては、分析者の意志に訴える内容が変わる。
 
先の例だと、例えばデータ「A」、「B」を混ぜて分析する場合と、別々に分析する場合で、結果が異なる場合、分析者がどちらの分析手法で報告するかでメッセージが変わる。
 
だからデータをもって説明された場合は、ここで書いた前提知識をおさえつつ、冷静に報告と向き合うことをお勧めしたい。
 
 
 
ほなまた!
広告を非表示にする