News
ビッグデータに関する高度な統計解析や処理技術の研究・開発を行う、オプトの専任組織『OPT Data Science Lab』(オプト・データサイエンスラボ)は、株式会社NTTドコモ提供の「気象ビッグデータ」と株式会社レスキューナウ提供の「鉄道支障データ」を活用した、日本中のデータサイエンティスト達がデータ分析の精度を競い合う、懸賞金付データ分析コンテストを開始しました。
【コンテスト概要】
・開催サイト:Deep Analytics
https://datasciencelab.jp/compe/2
・テーマ:「気象データによる鉄道支障予測」
コンテストには、株式会社NTTドコモ提供の首都圏の最大219地点において10
分間隔で観測された気象データと株式会社レスキューナウ提供のJR東日本の首都
圏10路線の運行支障データを使用します。
2012年の一年分(2012年1月1日~2012年12月31日)の気象状況と鉄道支
障の実績から予測モデルの構築を行います。別途提供される検証期間(2013年1
月1日~2013年6月30日)における気象データから同期間の鉄道支障の予測を
ただきます。
サイトに応募された鉄道支障予測は、サイト上で実績値とリアルタイムで照合し予
測精度の評価が行われます。
・実施期間:2014年6月20日~2014年8月31日
・審査方法:コンテスト参加者は、サイトからデータをダウンロードし、分析後、自身の予測
データをサイトへ応募します。検証期間の運行支障実績データと比較し、最も精
度の高かった上位3名に懸賞金を提供します。
・懸賞金額:1位 20万円、2位 10万円、3位 5万円
以上
【データ分析プラットフォーム『Deep Analytics』について】
①プラットフォームの運営目的
・企業や公的機関が保有するデータの利活用の推進
・すでに業務活用している統計モデルの精度向上
・様々なデータが社会的・産業的にどのような価値を生み出すかの例証
・通常マッチングしない多様な所属・経歴のデータサイエンティストによる
エコシステム・コミュニティの構築。
・実際の課題解決に挑むことによるデータサイエンティストの教育
②データ提供企業のプラットフォーム活用の利点
・成功報酬モデルのためROIが高い
・多数のデータサイエンティストによる様々な分析アプローチを試すことができる
・通常マッチングしないデータサイエンティストにアクセスできる
・精度向上・分析費やされる人数・分析数がサイト上で確認できる
・分析精度の限界値が可視化される
・データ活用により消費者へのサービス向上を行う組織であることを社会にPRできる
【参考:コンテスト詳細】
NTTドコモは全国約4,000箇所の観測拠点において、様々な環境データを計測しています。
環境センサーネットワークは、NTTドコモの基地局設備などを活用することにより、従来には無い観測拠点によって構成されています。
気温、降水量、湿度、風向風速等の他、紫外線や花粉のデータも取得されています。
気象・環境は、社会生活やビジネス等に多様な側面から影響を与えており、
これらのデータを有効活用することで様々な付加価値を実現することが期待されます。
また、首都圏では鉄道網が発達し、通勤通学を始めとして交通に占める鉄道の重要性は非常に高くなっています。一方で、災害や機器トラブル、混雑集中などにより、運転見合わせや、運休、遅延等が頻繁に発生しており、時間帯や路線によっては、非常に多数の利用客に影響を与えることも少なくありません。
そこで、リアルタイムに観測される環境センサーネットワークのデータから、鉄道の運行支障発生の可能性を予測し、支障の予防や事前の予測による混雑・混乱の回避などに資すること目的としてコンペを実施します。
予測モデルの説明変数には、環境センサーネットワークのデータを活用します。
提供されるデータは、首都圏の最大219地点で観測された、以下の6種類のデータ及び、落雷のデータです。
・気温 (219地点)
・湿度 (219地点)
・降水量 (176地点)
・風速 (200地点)
・風向 (200地点)
・最大瞬間風速(200地点)
データの期間は、2012年1月1日から2013年6月30日までの1年半で、6種の観測データは、10分毎のデータを提供します。落雷のデータは発生毎に記録されています。
鉄道の運行支障のデータは、JR東日本の首都圏10路線を対象としています。
・中央線(快速)[東京〜高尾]
・京浜東北根岸線
・京葉線
・内房線
・埼京川越線[大崎〜川越]
・外房線
・宇都宮線
・山手線
・湘南新宿ライン
・高崎線
提供データは、2012年1月1日から2012年12月31日までの1年間のデータです。
10分毎に記録されており、各路線毎に支障の有無及び、支障発生時には原因も併せて示されています。
過去の支障履歴と環境センサーネットワークのデータを活用して、モデルを学習し、
2013年1月1日から2013年6月30日までの半年の支障を予測してください。
モデル学習用データ期間:2012年1月1日 00:00 〜 2012年12月31日 23:50
検証用データ期間:2013年1月1日 00:00 〜 2013年 6月30日 23:50
予測モデルでは、2013年1月1日0時より2013年6月30日23時50分までの期間で10分毎の支障状況を予測していただきます。
予測する変数は、対象10路線(上記データ概要参照)のいずれか1つの路線でも支障が発生しているか/10路線全てが平常運転かを表す変数とします。
支障の「なし/あり」を0.0〜1.0の実数で予測してください。
■『OPT Data Science Lab』について
『OPT Data Science Lab』は、多種多様なビッグデータ活用のノウハウ蓄積および実戦的な分析技術の研究開発を継続的に行うことにより、お客様に高度なマーケティングソリューションを提供することを目的としています。
・所長:齊藤 秀(CAO兼任)、副所長:西山 直樹
・スタッフ数:36名
・所在地:東京都千代田区四番町6番(オプト事務所内)
※詳細はこちらをご覧ください
https://datasciencelab.jp/