last update: 2004年12月06日
MUSASHI
Mining Utilities and System Architecture for Scalable processing of HIstorical
data
2004/12/06 MUSASHI-CORE 1.0.4 Release 変更点
(コンパイルするためにはautoconf2.57以上が必要です)
2004/02/19 MUSASHI-CORE 1.0.3 Release
2003/08/09 MUSASHI-CORE 1.0.2 Release
MUSASHIとは
MUSASHIは、当初、ビジネスにおけるデータマイニングの実施に必要となる、大量データ処理のために開発されたコマンド群です。MUSASHIが処理対象とするデータはXMLで記述されたXMLtableもしくはPlain
Textによる表構造のデータです。マシンのスペックにもよりますが、数百万件〜数千万件のデータ処理が可能です。
特徴
- リレーショナルデータベースの導入なしに大量データを効率よく処理できる。
- XML Tableと呼ぶ、XMLを用いた表形式のデータ構造を扱う(plain textデータの扱いも可能)
- リレーショナルデータベースで可能となる表形式のデータに対する様々な処理(演算)が可能である。
- 非常に柔軟なシステムを構築できる。
- 結果として非常に安上がりのシステムを構築できる。
現在の不備としては
- ユーザインターフェースが貧弱である
- 開発途上である
将来的には
- データマイニングアプリケーションの開発
- 企業の基幹系情報システムの構築も対象に
開発コンセプト
- 一つのコマンドは一つの処理のみ担当
- 全てを明示的に
- ユーザを待たせない
- 入力されたデータは全て記録する。
- 全てはXML(テキスト)で。
- ハードディスクを湯水のごとく使う。
- できる限りスタンドアローン環境で動作させる。
動作環境
現在動作確認がとれている環境は以下のとおりです。
ただし、MUSASHIのバージョンによっては確認のとれていないものもあります。
詳しくは、ここをご参照ください。
・Linux系: VineLinux2.6r4,3.0, TurboLinux 7,10, MandrakeLinux9.2, FedoraCore1
・その他のLinux各種ディストリビューション: 確認はとれていませんが動作可能のはずです。
・FreeBSD4.10
・Solaris9
・Cygwin
・MacOSX
MUSASHIプロジェクトの理念・目的
- 基本的なソフトウェア技術は皆でオープンに共有する。
- リレーショナルデータベース関連技術は絶対に利用しない。
- 可能な限り小さくシンプルに(ティラノサウルスの次は滅亡だ)。
- 超高速の超高価な超高度な技術より、ちょっと高速の超安価なベタな技術(小・中規模のシステムに銀行オンラインのシステムは必要ない)。