便利機能
ムーターでは、動的自動カテゴリー分けをおこなうムータークラスタエンジンの機能をインターネットを介して体験していただくためにクラスタリングウェブサービスのデモンストレーションを用意しています。
このWebサービスを使って、カテゴリー分けさせたいファイルをWebブラウザから、ムータークラスタエンジンに送信すると、その内容を、即時、自動的にカテゴリー分けし、WebブラウザにXML形式で返してきます。
今回のデモンストレーションでは、カテゴリー分けさせるデータファイルとして、XML形式とCSV形式に対応させてあります。カテゴリ分けされた結果は、どちらの場合も、XML形式でWebブラウザに返されてくるようになっています。
サンプルファイルの入手方法
   - デモンストレーション用のページで、「サンプルファイル XML」または「サンプルファイル CSV」と書かれている部分をクリックすると、Webブラウザ内にXML形式またはCVS形式のサンプルファイルが読み込まれ、表示されます。ただし、返されてきたXML形式のままでは、Webブラウザの種類によって表示が異なる可能性があります。見づらい場合、Webブラウザが持つ「ソースを表示」させる機能を使えば、XML形式を見ることができます。
 
   - その後、Webブラウザのページを保存する機能を使って、お使いのファイルシステムに保存して使ってください。そのとき、ファイル名の最後にはXML形式のものなら「.xml」を、CVS形式のものなら「.txt」をつけておく必要があります。
 
   - 後述する『クラスタリングさせたいXMLファイルの書式』の項目、あるいは、『クラスタリングさせたいCSVファイルの書式』項目に記されている形式に合わせて、自分が望むようにファイルを編集し、その内容をムータークラスタエンジンが、どのようにカテゴリー分けするか、試してみてください。
 
 
データファイルの送信方法とカテゴリー分けされた結果の見方
   - はじめ、データファイルは何も選択されていない状態になっています。
 
   - まず、XML形式のデータファイルを使うなら「:XML」と表示されているラジオボタンを、CVS形式のデータファイルを使うなら「:CVS」と表示されているラジオボタンを選択してください。
 
   - その後「ファイル選択」ボタンを押すと、お使いのファイルシステム内からカテゴリー分けの対象となるファイルを選択するウィンドウが表示されます。そこから適切なデータファイルを選択してください。ファイルを選択するウィンドウは、お使いのWebブラウザやコンピュータの種類によって変わってきます。
 
   - データファイルの選択が済むと、選択されたファイル名が「ファイル選択」ボタンの右側に表示されるようになります。この状態で「Submit」ボタンを押せば、インターネットを通してデータファイルがムータークラスタエンジン送信されます。
 
   - データファイルを受け取ると、その場で、ムータークラスタエンジンが自動的にカテゴリー分けしたXML形式のデータを送り返すので、結果がWebブラウザに表示されます。このとき、返されてきたXML形式のままでは、Webブラウザの種類によって表示が異なる可能性があります。見づらい場合、もしくは空白のページなどが表示される場合、Webブラウザが持つ「ソースを表示」させる機能を使えば、XML形式を見ることができます。
 
   - 『サンプルファイルの入手方法』と同様、Webブラウザの保存機能を使えば、結果をファイルとして保存して利用することも可能です。
 
 
クラスタリングさせたいXMLファイルの書式
【A.サンプル】
   - <?xml version="1.0" encoding="UTF-8"?>
 
   - <cluster-request>
 
   - <param>
 
   - <static-cluster>言語学</static-cluster>
 
   - <static-cluster>スクール</static-cluster>
 
   - </param>
 
   - <clusterables>
 
   - <clusterable uri="id1">
 
   - <title>言語</title>
 
   - <description>語学と言語学 言語学をやっていてよかったと思うことはいくつかある。まずそのためにやったのではないが、言語学...言語学と語学とは違う。</description>
 
   - </clusterable>
 
   - <clusterable uri="id2">
 
   - <title>言語</title>
 
   - <description>皆さんが学びたい講座やスクール情報を用意しています。自分の目的にあったスクール・講座選びを応援します!</description>
 
   - </clusterable>
 
   - </clusterables>
 
   - </cluster-request>
 
【B.注意点】
   - 文字のエンコーディングには「UTF-8」を使ってください。
 
【C.タグの説明】
   - <cluster-request>タグ、</cluster-request>タグ
   カテゴリー分け(クラスタリング)をおこないたい入力データの範囲を、このタグで囲んで指定します。 
   - <param>タグ、</param>タグ
   検索時のキーワードのように、このXMLファイル全体に対応づける単語を、内部に<static-cluster>タグを使って指定します。 
   - <static-cluster>タグ、</static-cluster>タグ
   このタグは<static-cluster>タグと</static-cluster>タグに挟まれた場所に書く必要があります。
   検索時のキーワードのように、このXMLファイル全体に対応づけて、必ずカテゴリー(クラスタ)として結果に含まれるようにしたい単語を指定します。 
    
   - <clusterable>タグ、</clusterable>タグ
   カテゴリー分け(クラスタリング)で取り扱う基本単位を、このタグで囲みます。
   <clusterable>タグには、「uri」要素を書いておくことで識別子を指定することができます。  
   - <title>タグ、</title>タグ
   このタグは<clusterable>タグと</clusterable>タグに挟まれた場所に書く必要があります。
   見出しなど基本単位ごとのタイトルを指定します。  
   - <description>タグ、</description>タグ
   このタグは<clusterable>タグと</clusterable>タグに挟まれた場所に書く必要があります。
   カテゴリー分け(クラスタリング)の際に、この部分に書かれた文章を解析して、重要語を抽出し、分類項目を自動的に生成し、分類分けをおこないます。 
 
 
クラスタリングさせたいCSVファイルの書式
【A.サンプル】
   - id1,言語,語学と言語学 言語学をやっていてよかったと思うことはいくつかある。 まずそのためにやったのではないが、言語学... 言語学と語学とは違う。
 
   - id2,言語,皆さんが学びたい講座やスクール情報を用意しています。自分の目的にあったスクール・講座選びを応援します!
 
【B.注意点】
   - 文字のエンコーディングには「UTF-8」を使ってください。
 
   - 1行がカテゴリー分け(クラスタリング)で取り扱う基本単位になります。
 
   - 各行は半角のカンマ記号で区切った、3つのカラムから構成します。
 
【C.各カラムの説明】
   - 最初のカラムは、uriなどの識別子です。
 
   - 2番目のカラムは、見出しなど基本単位ごとのタイトルです。
 
   - 最後のカラムは、カテゴリー分け(クラスタリング)の際に、使う文章です。ここの内容を解析して、重要語を抽出し、分類項目を自動的に生成し、分類分けをおこないます。
 
 
クラスタリングされて返されてくるXMLファイルの書式
【A.サンプル】
   - <?xml version="1.0" encoding="UTF-8"?>
 
   - <clusterresult>
 
   - <clusters>
 
   - <cluster name="言語学">
 
   - <clusterable uri="id1"/>
 
   - </cluster>
 
   - <cluster name="スクール">
 
   - <clusterable uri="id2"/>
 
   - </cluster>
 
   - <clusters>
 
   - <cluster name="言語">
 
   - <clusterable uri="id1"/>
 
   - <clusterable uri="id2"/>
 
   - </cluster>
 
   - </clusters>
 
   - </clusterresult>
 
【B.注意点】
- 最初の行にXMLのバージョンや文字のエンコーディングなどが記されます。
 
【C.タグの説明】
   - <clusterresult>タグ、</clusterresult>タグ
   このタグの間に挟まれて、カテゴリー分け(クラスタリング)された結果が返されてきます。 
   - <clusters>タグ、</clusters>タグ
   このタグは<clusterresult>タグと</clusterresult>タグに挟まれた場所に置かれます。
   このタグの間に挟まれて、各カテゴリー(クラスタ)が返されてきます。  
   - <cluster>タグ、</cluster>タグ
   このタグは<clusters>タグと</clusters>タグに挟まれた場所に置かれます。
   このタグに挟まれた範囲が、一つの各カテゴリー(クラスタ)に相当します。 
   <cluster>タグには、「name」要素の値としてクラスター名が付けられています。 
   <cluster>タグには、「score」要素の値としてクラスターの重要度を表すポイントが付けられています。  
   - <clusterable>タグ
   このタグは<cluster>タグと</cluster>タグに挟まれた場所に置かれます。
   <clusterable>タグには、「uri」要素の値として入力データ中の識別子が付けられているので、これを利用して、対応する実データと結びつけることができます。