便利機能
ムーターでは、動的自動カテゴリー分けをおこなうムータークラスタエンジンの機能をインターネットを介して体験していただくためにクラスタリングウェブサービスのデモンストレーションを用意しています。
このWebサービスを使って、カテゴリー分けさせたいファイルをWebブラウザから、ムータークラスタエンジンに送信すると、その内容を、即時、自動的にカテゴリー分けし、WebブラウザにXML形式で返してきます。
今回のデモンストレーションでは、カテゴリー分けさせるデータファイルとして、XML形式とCSV形式に対応させてあります。カテゴリ分けされた結果は、どちらの場合も、XML形式でWebブラウザに返されてくるようになっています。
サンプルファイルの入手方法
- デモンストレーション用のページで、「サンプルファイル XML」または「サンプルファイル CSV」と書かれている部分をクリックすると、Webブラウザ内にXML形式またはCVS形式のサンプルファイルが読み込まれ、表示されます。ただし、返されてきたXML形式のままでは、Webブラウザの種類によって表示が異なる可能性があります。見づらい場合、Webブラウザが持つ「ソースを表示」させる機能を使えば、XML形式を見ることができます。
- その後、Webブラウザのページを保存する機能を使って、お使いのファイルシステムに保存して使ってください。そのとき、ファイル名の最後にはXML形式のものなら「.xml」を、CVS形式のものなら「.txt」をつけておく必要があります。
- 後述する『クラスタリングさせたいXMLファイルの書式』の項目、あるいは、『クラスタリングさせたいCSVファイルの書式』項目に記されている形式に合わせて、自分が望むようにファイルを編集し、その内容をムータークラスタエンジンが、どのようにカテゴリー分けするか、試してみてください。
データファイルの送信方法とカテゴリー分けされた結果の見方
- はじめ、データファイルは何も選択されていない状態になっています。
- まず、XML形式のデータファイルを使うなら「:XML」と表示されているラジオボタンを、CVS形式のデータファイルを使うなら「:CVS」と表示されているラジオボタンを選択してください。
- その後「ファイル選択」ボタンを押すと、お使いのファイルシステム内からカテゴリー分けの対象となるファイルを選択するウィンドウが表示されます。そこから適切なデータファイルを選択してください。ファイルを選択するウィンドウは、お使いのWebブラウザやコンピュータの種類によって変わってきます。
- データファイルの選択が済むと、選択されたファイル名が「ファイル選択」ボタンの右側に表示されるようになります。この状態で「Submit」ボタンを押せば、インターネットを通してデータファイルがムータークラスタエンジン送信されます。
- データファイルを受け取ると、その場で、ムータークラスタエンジンが自動的にカテゴリー分けしたXML形式のデータを送り返すので、結果がWebブラウザに表示されます。このとき、返されてきたXML形式のままでは、Webブラウザの種類によって表示が異なる可能性があります。見づらい場合、もしくは空白のページなどが表示される場合、Webブラウザが持つ「ソースを表示」させる機能を使えば、XML形式を見ることができます。
- 『サンプルファイルの入手方法』と同様、Webブラウザの保存機能を使えば、結果をファイルとして保存して利用することも可能です。
クラスタリングさせたいXMLファイルの書式
【A.サンプル】
- <?xml version="1.0" encoding="UTF-8"?>
- <cluster-request>
- <param>
- <static-cluster>言語学</static-cluster>
- <static-cluster>スクール</static-cluster>
- </param>
- <clusterables>
- <clusterable uri="id1">
- <title>言語</title>
- <description>語学と言語学 言語学をやっていてよかったと思うことはいくつかある。まずそのためにやったのではないが、言語学...言語学と語学とは違う。</description>
- </clusterable>
- <clusterable uri="id2">
- <title>言語</title>
- <description>皆さんが学びたい講座やスクール情報を用意しています。自分の目的にあったスクール・講座選びを応援します!</description>
- </clusterable>
- </clusterables>
- </cluster-request>
【B.注意点】
- 文字のエンコーディングには「UTF-8」を使ってください。
【C.タグの説明】
- <cluster-request>タグ、</cluster-request>タグ
カテゴリー分け(クラスタリング)をおこないたい入力データの範囲を、このタグで囲んで指定します。
- <param>タグ、</param>タグ
検索時のキーワードのように、このXMLファイル全体に対応づける単語を、内部に<static-cluster>タグを使って指定します。
- <static-cluster>タグ、</static-cluster>タグ
このタグは<static-cluster>タグと</static-cluster>タグに挟まれた場所に書く必要があります。
検索時のキーワードのように、このXMLファイル全体に対応づけて、必ずカテゴリー(クラスタ)として結果に含まれるようにしたい単語を指定します。
- <clusterable>タグ、</clusterable>タグ
カテゴリー分け(クラスタリング)で取り扱う基本単位を、このタグで囲みます。
<clusterable>タグには、「uri」要素を書いておくことで識別子を指定することができます。
- <title>タグ、</title>タグ
このタグは<clusterable>タグと</clusterable>タグに挟まれた場所に書く必要があります。
見出しなど基本単位ごとのタイトルを指定します。
- <description>タグ、</description>タグ
このタグは<clusterable>タグと</clusterable>タグに挟まれた場所に書く必要があります。
カテゴリー分け(クラスタリング)の際に、この部分に書かれた文章を解析して、重要語を抽出し、分類項目を自動的に生成し、分類分けをおこないます。
クラスタリングさせたいCSVファイルの書式
【A.サンプル】
- id1,言語,語学と言語学 言語学をやっていてよかったと思うことはいくつかある。 まずそのためにやったのではないが、言語学... 言語学と語学とは違う。
- id2,言語,皆さんが学びたい講座やスクール情報を用意しています。自分の目的にあったスクール・講座選びを応援します!
【B.注意点】
- 文字のエンコーディングには「UTF-8」を使ってください。
- 1行がカテゴリー分け(クラスタリング)で取り扱う基本単位になります。
- 各行は半角のカンマ記号で区切った、3つのカラムから構成します。
【C.各カラムの説明】
- 最初のカラムは、uriなどの識別子です。
- 2番目のカラムは、見出しなど基本単位ごとのタイトルです。
- 最後のカラムは、カテゴリー分け(クラスタリング)の際に、使う文章です。ここの内容を解析して、重要語を抽出し、分類項目を自動的に生成し、分類分けをおこないます。
クラスタリングされて返されてくるXMLファイルの書式
【A.サンプル】
- <?xml version="1.0" encoding="UTF-8"?>
- <clusterresult>
- <clusters>
- <cluster name="言語学">
- <clusterable uri="id1"/>
- </cluster>
- <cluster name="スクール">
- <clusterable uri="id2"/>
- </cluster>
- <clusters>
- <cluster name="言語">
- <clusterable uri="id1"/>
- <clusterable uri="id2"/>
- </cluster>
- </clusters>
- </clusterresult>
【B.注意点】
- 最初の行にXMLのバージョンや文字のエンコーディングなどが記されます。
【C.タグの説明】
- <clusterresult>タグ、</clusterresult>タグ
このタグの間に挟まれて、カテゴリー分け(クラスタリング)された結果が返されてきます。
- <clusters>タグ、</clusters>タグ
このタグは<clusterresult>タグと</clusterresult>タグに挟まれた場所に置かれます。
このタグの間に挟まれて、各カテゴリー(クラスタ)が返されてきます。
- <cluster>タグ、</cluster>タグ
このタグは<clusters>タグと</clusters>タグに挟まれた場所に置かれます。
このタグに挟まれた範囲が、一つの各カテゴリー(クラスタ)に相当します。
<cluster>タグには、「name」要素の値としてクラスター名が付けられています。
<cluster>タグには、「score」要素の値としてクラスターの重要度を表すポイントが付けられています。
- <clusterable>タグ
このタグは<cluster>タグと</cluster>タグに挟まれた場所に置かれます。
<clusterable>タグには、「uri」要素の値として入力データ中の識別子が付けられているので、これを利用して、対応する実データと結びつけることができます。