MUSASHIチュートリアル

MUSASHIを用いて、販売データを自由に加工し、様々な目的に応じたプログラム(スクリプト)の記述能力を身につけることを目的とします。このチュートリアルでは、習熟レベルやテーマに応じてさまざまな節が用意されており、またそれぞれの節には段階的に学習をすすめていけるよう複数のレッスンから構成されているます。このチュートリアルを始めるためには、前準備として、MUSASHI-COREやデータのインストールが必要です。「そんな面倒なこと...」とお考えの方は、MUSASHI-CAIサーバに用意されたCAI(Computer Assisted Instruction)にてMUSASHIについて学習することをお勧めします(現在準備中)。このチュートリアルは、できるだけ多くのサンプルデータやスクリプトを使っているので、実際に操作をしなくても、文書を読むだけでも理解できるように構成されています。チュートリアルを進めるために必要な時間は、1レッスンあたり約30〜50分です。またチュートリアルで作成するスクリプトおよび結果ファイルはここからダウンロードできます。


チュートリアルを始める前に

チュートリアルを進めていくためには、以下に示した「システム要件」を満たし、かつ「前提となる知識」を持っていることが必要です。

システム要件

注)データ環境:以下のチュートリアルでは、/mnt/h00/tutorialディレクトリの下に各種データがインストールされていることを前提としています。/mnt以下は通常root権限がなければ変更できませんので、root権限のない人は、適当なディレクトリを作成し、そこにデータを格納してください。ただしその場合、チュートリアルの説明における"/mnt/h00/tutorial"ディレクトリは、新たに作成したディレクトリに読みかえてください。

前提となる知識

前作業

基本コマンド編

基本帳票編

コマンドを組み合わせて、目的に応じた帳票もしくは項目の作成能力を身につける。
初級コマンド編で学習しなかったコマンドの基本動作を知る。

上級コマンド編

  1. レコード選択(xtselstr)
  2. レコード分割
  3. NULL値置換(xtnulto)
  4. 文字列置換1(xtchgstr)
  5. 文字列置換2(xtsed)
  6. 数値範囲置換(xtchgnum)
  7. 乱数の生成(xtrand)
  8. 項目の自然結合(xtnjoin)
  9. 直積演算(xtproduct)
  10. 共通レコードの選択(xtcommon)
  11. 数値項目のバケット分割(xtbucket)
  12. 項目間演算(xtcal)
  13. 組合せの生成(xtcombi)
  14. UNIXコマンドを途中で使いたい(xt2txt)

初級、中級で学習しなかったMUSASHIのより高度な利用方法を学習していく。

上級帳票編

  1. 顧客別来店回数(2)

XMLデータ操作編

データマイニング関連コマンド編

  1. 分類(xtclassify)
  2. アソシエーションルール(xtasrule)
  3. クラスタリング(xtkmean)
  4. サブストリングおよびサブシーケンスの件数を求める(xtcntseq)
  5. 画像領域分割(xtregionseg)
  6. 領域ルールに基づいた多数決による分類モデル(xtregionvote)
  7. Case-Based Reasoning(xtcbr)
  8. 二項ロジット回帰モデル(xtlogit)
  9. 多目的遺伝的アルゴリズム(xtmoga)
  1. トレーニングデータとテストデータの作成
  2. 交差検定用データの作成
  3. 既存の分類モデル(PMML)の利用

データコンバート編

MUSASHIで用いるxmlTableデータ構造をテキスト、HTML、XMLの構造に変換する方法を学習する。

  1. テキストファイルをxmlTableに変換する
  2. テキストファイルのNULL値を"*"に変換
  3. ある項目に固定文字列を付ける
  4. 項目数をチェックする

シナリオ編

  1. RFM分析
  2. 優良顧客分析
  3. マーケットバスケット分析
  4. 関連強度分析(ブランドスイッチ分析)