シソーラス WORDNETをひさしぶりに

みなさんはシソーラスって知ってますか?

シソーラスというのは、人が使う言葉(単語)をたくさん集めて、関係を調べたものです。もともとは言語学者が調べ始めたものですが、現代では計算言語学(人の言葉をコンピューターで処理する)で使われる基礎データとしてとても重要なものとなっています。シソーラスに似たものとして、文章構造を集めたコーパスというのもあります。それはまた別の機会に。
シソーラスとはどういうものかというと、言葉の類似性というか、似たものというか、そういったものを関連づけたものです。一般的な言い方と、より具体的な言い方、などとの言葉の関係を構築したデータです。 知能ロボットの開発のために必要なテクノロジーの一つです。いろいろ思い出すのと最近の状況の確認のために、久しぶりにシソーラスをいじくってみました。
身近なものとして、こちらをいじってみました。
Wordnet
私は主にJavaで書きたいので、Javaを試すことにしました。
手順はそんなに難しくないですが、ドキュメントはいまいちですね。
サイトの「概要」の下のほうにある「Javaフロントエンド」というのを選びます。Java書く人からすれば「Java API」とかしてもらえると分かりやすいです。
以下をWordnetのサイトからダウンロード
jawjaw.jar:WordnetのAPI
wnjpn.db :データベースそのもの(シソーラスが入っている)
その他、こちらも必要。これらは別サイトからダウンロード
sqlite-jdbc-3.7.2.jar :データベースの実装
 junit-4.7.jar :ユニットテスト用のライブラリ。本当に必要かどうか疑問。
さて、手順的には、Eclipseなら、Javaプロジェクトを作り、三つのJARをビルドパスに通し、wnjpn.dbをsrcフォルダーの下にmain/resourcesというフォルダーを使って置く(Java的な言い方であれば、main.resourcesというパッケージを作って、dbファイルを置く)だけ。で、サンプルコードをソースコードとして作れば、あっというまに動きました。
なんか、思ったような結果が得られなくていまいち。
サンプルは「買収」という他動詞で作られていてきちんと動くけど、「人間」と入れたらヒットしない。理由はこれから調査予定。無料でダウンロードできるものには入ってないのかな。
また、残念なことは、Wordnetの最新ニュースが、こちらであること。
Japanese Semantic Corpus: jsemcor initial release (2012-01-06)
これから想像するに、すでにこのサイトは2012年1月から更新されてないということになります。すでに3年が経過していますね。外部から採用するOSSやデータは、更新状況がとても重要です。すでに放ったらかしモードになっているものは使うべきでないので残念です。
先日、人口知能に関連する、とある会合に出たとき、そこにいた著名な研究者が「シソーラスを自動的に更新する技術が必要だ」ということを訴えていました。そう、シソーラスは現在、学者の集まりやなんらかの団体(企業など)で、多くの場合手作業で行われています。これには特定のコストが必要で、その予算がなくなれば更新されなくなってしまいます。しかし、言葉は生きているため、常にコーパスやシソーラスは更新され続けなければならない。人間は、人と関わりあい、会話することによってそれを続けています。人口知能、知能エージェント、ロボットは、人間と同じように、常に言葉(シソーラス)や言い回し(コーパス)を更新し続けなければ、人とコミュニケーションできないということです。
広告

シソーラス WORDNETをひさしぶりに」への1件のフィードバック

  1. pandrbox 投稿作成者

    追記です。「人間」を検索すると見つからない理由は、サンプルでは検索時にPOS.vを指定して動詞のみを探しているからでした。POS.nを指定したら出てきました。

    返信

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中