便利機能

クラスタリングウェブの使い方

ムーターでは、動的自動カテゴリー分けをおこなうムータークラスタエンジンの機能をインターネットを介して体験していただくためにクラスタリングウェブサービスのデモンストレーションを用意しています。

このWebサービスを使って、カテゴリー分けさせたいファイルをWebブラウザから、ムータークラスタエンジンに送信すると、その内容を、即時、自動的にカテゴリー分けし、WebブラウザにXML形式で返してきます。
今回のデモンストレーションでは、カテゴリー分けさせるデータファイルとして、XML形式とCSV形式に対応させてあります。カテゴリ分けされた結果は、どちらの場合も、XML形式でWebブラウザに返されてくるようになっています。

サンプルファイルの入手方法

  1. デモンストレーション用のページで、「サンプルファイル XML」または「サンプルファイル CSV」と書かれている部分をクリックすると、Webブラウザ内にXML形式またはCVS形式のサンプルファイルが読み込まれ、表示されます。ただし、返されてきたXML形式のままでは、Webブラウザの種類によって表示が異なる可能性があります。見づらい場合、Webブラウザが持つ「ソースを表示」させる機能を使えば、XML形式を見ることができます。
  2. その後、Webブラウザのページを保存する機能を使って、お使いのファイルシステムに保存して使ってください。そのとき、ファイル名の最後にはXML形式のものなら「.xml」を、CVS形式のものなら「.txt」をつけておく必要があります。
  3. 後述する『クラスタリングさせたいXMLファイルの書式』の項目、あるいは、『クラスタリングさせたいCSVファイルの書式』項目に記されている形式に合わせて、自分が望むようにファイルを編集し、その内容をムータークラスタエンジンが、どのようにカテゴリー分けするか、試してみてください。

データファイルの送信方法とカテゴリー分けされた結果の見方

  1. はじめ、データファイルは何も選択されていない状態になっています。
  2. まず、XML形式のデータファイルを使うなら「:XML」と表示されているラジオボタンを、CVS形式のデータファイルを使うなら「:CVS」と表示されているラジオボタンを選択してください。
  3. その後「ファイル選択」ボタンを押すと、お使いのファイルシステム内からカテゴリー分けの対象となるファイルを選択するウィンドウが表示されます。そこから適切なデータファイルを選択してください。ファイルを選択するウィンドウは、お使いのWebブラウザやコンピュータの種類によって変わってきます。
  4. データファイルの選択が済むと、選択されたファイル名が「ファイル選択」ボタンの右側に表示されるようになります。この状態で「Submit」ボタンを押せば、インターネットを通してデータファイルがムータークラスタエンジン送信されます。
  5. データファイルを受け取ると、その場で、ムータークラスタエンジンが自動的にカテゴリー分けしたXML形式のデータを送り返すので、結果がWebブラウザに表示されます。このとき、返されてきたXML形式のままでは、Webブラウザの種類によって表示が異なる可能性があります。見づらい場合、もしくは空白のページなどが表示される場合、Webブラウザが持つ「ソースを表示」させる機能を使えば、XML形式を見ることができます。
  6. 『サンプルファイルの入手方法』と同様、Webブラウザの保存機能を使えば、結果をファイルとして保存して利用することも可能です。

クラスタリングさせたいXMLファイルの書式

【A.サンプル】
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <cluster-request>
  3. <param>
  4. <static-cluster>言語学</static-cluster>
  5. <static-cluster>スクール</static-cluster>
  6. </param>
  7. <clusterables>
  8. <clusterable uri="id1">
  9. <title>言語</title>
  10. <description>語学と言語学 言語学をやっていてよかったと思うことはいくつかある。まずそのためにやったのではないが、言語学...言語学と語学とは違う。</description>
  11. </clusterable>
  12. <clusterable uri="id2">
  13. <title>言語</title>
  14. <description>皆さんが学びたい講座やスクール情報を用意しています。自分の目的にあったスクール・講座選びを応援します!</description>
  15. </clusterable>
  16. </clusterables>
  17. </cluster-request>
【B.注意点】
  1. 文字のエンコーディングには「UTF-8」を使ってください。
【C.タグの説明】
  1. <cluster-request>タグ、</cluster-request>タグ
    カテゴリー分け(クラスタリング)をおこないたい入力データの範囲を、このタグで囲んで指定します。
  2. <param>タグ、</param>タグ
    検索時のキーワードのように、このXMLファイル全体に対応づける単語を、内部に<static-cluster>タグを使って指定します。
  3. <static-cluster>タグ、</static-cluster>タグ
    このタグは<static-cluster>タグと</static-cluster>タグに挟まれた場所に書く必要があります。
    検索時のキーワードのように、このXMLファイル全体に対応づけて、必ずカテゴリー(クラスタ)として結果に含まれるようにしたい単語を指定します。
  4. <clusterable>タグ、</clusterable>タグ
    カテゴリー分け(クラスタリング)で取り扱う基本単位を、このタグで囲みます。
    <clusterable>タグには、「uri」要素を書いておくことで識別子を指定することができます。
  5. <title>タグ、</title>タグ
    このタグは<clusterable>タグと</clusterable>タグに挟まれた場所に書く必要があります。
    見出しなど基本単位ごとのタイトルを指定します。
  6. <description>タグ、</description>タグ
    このタグは<clusterable>タグと</clusterable>タグに挟まれた場所に書く必要があります。
    カテゴリー分け(クラスタリング)の際に、この部分に書かれた文章を解析して、重要語を抽出し、分類項目を自動的に生成し、分類分けをおこないます。

クラスタリングさせたいCSVファイルの書式

【A.サンプル】
  1. id1,言語,語学と言語学 言語学をやっていてよかったと思うことはいくつかある。 まずそのためにやったのではないが、言語学... 言語学と語学とは違う。
  2. id2,言語,皆さんが学びたい講座やスクール情報を用意しています。自分の目的にあったスクール・講座選びを応援します!
【B.注意点】
  1. 文字のエンコーディングには「UTF-8」を使ってください。
  2. 1行がカテゴリー分け(クラスタリング)で取り扱う基本単位になります。
  3. 各行は半角のカンマ記号で区切った、3つのカラムから構成します。
【C.各カラムの説明】
  1. 最初のカラムは、uriなどの識別子です。
  2. 2番目のカラムは、見出しなど基本単位ごとのタイトルです。
  3. 最後のカラムは、カテゴリー分け(クラスタリング)の際に、使う文章です。ここの内容を解析して、重要語を抽出し、分類項目を自動的に生成し、分類分けをおこないます。

クラスタリングされて返されてくるXMLファイルの書式

【A.サンプル】
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <clusterresult>
  3. <clusters>
  4. <cluster name="言語学">
  5. <clusterable uri="id1"/>
  6. </cluster>
  7. <cluster name="スクール">
  8. <clusterable uri="id2"/>
  9. </cluster>
  10. <clusters>
  11. <cluster name="言語">
  12. <clusterable uri="id1"/>
  13. <clusterable uri="id2"/>
  14. </cluster>
  15. </clusters>
  16. </clusterresult>
【B.注意点】
  1. 最初の行にXMLのバージョンや文字のエンコーディングなどが記されます。
【C.タグの説明】
  1. <clusterresult>タグ、</clusterresult>タグ
    このタグの間に挟まれて、カテゴリー分け(クラスタリング)された結果が返されてきます。
  2. <clusters>タグ、</clusters>タグ
    このタグは<clusterresult>タグと</clusterresult>タグに挟まれた場所に置かれます。
    このタグの間に挟まれて、各カテゴリー(クラスタ)が返されてきます。
  3. <cluster>タグ、</cluster>タグ
    このタグは<clusters>タグと</clusters>タグに挟まれた場所に置かれます。
    このタグに挟まれた範囲が、一つの各カテゴリー(クラスタ)に相当します。
    <cluster>タグには、「name」要素の値としてクラスター名が付けられています。
    <cluster>タグには、「score」要素の値としてクラスターの重要度を表すポイントが付けられています。
  4. <clusterable>タグ
    このタグは<cluster>タグと</cluster>タグに挟まれた場所に置かれます。
    <clusterable>タグには、「uri」要素の値として入力データ中の識別子が付けられているので、これを利用して、対応する実データと結びつけることができます。