|
お知らせサーバ移転のため、サービスを一時停止します。 2014年12月18日(木)午前10時~午後1時(終了時間は前後する場合があります) NEWバージョン1.30を公開しました。新たに2語比較機能が新たに加わりました。 詳しくは上の[2語比較機能]ボタンをクリック! ■NINJAL-LWP for TWC とはNINJAL-LWP for TWC(ニンジャル?エルダブリュピー?フォー?ティーダブリュシー、略稱NLT)は、日本語のウェブサイトから収集して構(gòu)築した約11億語のコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するためのツールです。検索には、國立國語研究所(以下、國語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、國語研が構(gòu)築した1億語の『現(xiàn)代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。 このツールはレキシカルプロファイリングという手法を用いて、名詞や動詞などの內(nèi)容語の共起関係や文法的振る舞いを網(wǎng)羅的に表示することができます。 ![]() ■使い方コンコーダンサでは検索語句を入力すると、その結(jié)果がコンコーダンスラインとして返ってきます。NLTでは、検索語句を入力する代わりに、まず調(diào)べたい語(NLTではこれを「見出し語」と呼びます)を選びます。見出し語として選べるのは、名詞、動詞、形容詞、連體詞、副詞の5種類の內(nèi)容語です。 ![]() ここでは、「走る」という名詞について調(diào)べてみます。まず畫面上の入力ボックスに「走る」または「はしる」(カタカナも可)または「hashiru」を入力して、[絞り込み]ボタンをクリックします。下のリストに「はしる」という読みの見出し語が3つ表示されますので、一番上の「走る」をクリックします。 ![]() クリックすると、「走る」の見出し語ウィンドウが開きます。ここでは、「が走る」の前にどのような名詞が來るかを調(diào)べてみることにします。左側(cè)の文法パターンのパネルの[グループ別]を選ぶと、一番上に[名詞+助詞 <]グループがあります。一番上の[…が走る]というパターンをクリックします。 ![]() すると、中央のコロケーションパネルに[名詞+が走る]のコロケーションが頻度順に表示されます。左側(cè)の用例パネルには、最も頻度の高い「車が走る」の用例が表示されます。 次に、特徴的なコロケーションを表示してみます。NLTでは、頻度順だけでなくMIスコアの順でも並べ替えることができます。MIスコアは統(tǒng)計指標(biāo)の一つで、特徴的なコロケーションほど數(shù)値が高くなる傾向があります。ただし、低頻度のコロケーションの數(shù)値が過剰に高くなるため、低頻度のものを排除する必要があります。コロケーションパネルのヘッダーの[MI]をクリックしてから、パネル上で右クリックして[頻度20以上]を選びます。 ![]() すると、「蟲ずが走る」、「戦慄が走る」などの「名詞+が走る」の特徴的な表現(xiàn)が上位に現(xiàn)れます。 ![]() それぞれのコロケーションをクリックすると、右のパネルにその用例が表示されます。ここでは、6番目の「閃光が走る」をクリックしてみます。コーパスで使われている実際の用例を一つずつ確認(rèn)することができます。 ![]() 用例はセンテンス単位で表示されます。さらに前後の文脈を確認(rèn)するときは、それぞれの用例の出典の部分をクリックすると、前後のセンテンスを表示するダイアログが開きます。 ![]() さらに、その右の矢印のアイコンをクリックすると、別ウィンドウ(またはタブ)にもとのウェブページに表示します。 ![]() このように、NLTでは、検索ウィンドウでまず見出し語を選んで、見出し語ウィンドウ上で、文法パターン、コロケーション、用例を行き來しながら、その見出し語の振る舞いの全體像をつかむことができます。クリックだけで簡単に操作できますので、思考を途切らせることなくさまざまな表現(xiàn)を思いのままに調(diào)べることができます。 詳しい使い方については、操作説明書(PDFファイル、約2.8MB)をご覧ください。 ■2語比較機能バージョン1.30では、新たに2語比較機能が加わりました。比較できるのは、同一の品詞の內(nèi)容語(名詞、動詞、イ形容詞、ナ形容詞、連體詞、副詞)の組み合わせです。これ以外に、イ形容詞とナ形容詞、イ形容詞と連體詞、ナ形容詞と連體詞の比較も可能です。 ここでは、「冷える」と「冷める」という2つの動詞について調(diào)べてみます。見出し語検索のウィンドウの右上にある[2語比較検索]のボタンをクリックします。 ![]() 次に、[動詞」タブをクリックします。 ![]() 畫面上の入力ボックスに「ひえる」と「さめる」(カタカナ、ローマ字も可)をスペースで區(qū)切って入力して、[絞り込み]ボタンをクリックします。下のリストに「ひえる」と「さめる」という読みをもつ見出し語が現(xiàn)れます。 ![]() 比較したい2語(ここでは、「冷える」と「冷める」)にチェックマークを入れて、リストの右上にある[2語比較]ボタンをクリックします。 ![]() 「冷える」と「冷める」の2語比較のウィンドウが開きます。 ![]() ここでは、ガ格名詞を比較してみます。左側(cè)の文法パターンパネルの一番上にある「…が冷える」または「…が冷める」のパターンをクリックします。 ![]() すると、中央のコロケーションパネルに「…が冷える」と「…が冷める」が表示されます。 ![]() 最初の狀態(tài)では、コロケーションはLD差の降順に並んでいます。LD差というのは、左側(cè)のコロケーション(この場合は、「…が冷える」)のLD(ログダイス値)から、右側(cè)のコロケーション(この場合は、「…が冷める」)のLDを引いたものです。LD差が大きくなればなるほど、「…が冷える」の特徴的なコロケーションと言えます。逆に、LD差が小さくなればなるほど、「…が冷める」の特徴的なコロケーションになります。視覚的に理解しやすいように、LD差が大きくなるほど濃い黃色で、LD差が小さくなるほど濃い紫でハイライトされます。上の畫面では、「…が冷える」の特徴的なコロケーションが表示されていますが、「…が冷める」の特徴的なコロケーションを見るときは、[LD差]のヘッダーをクリックして、LD差の昇順に並べ替えます。 ![]() ![]() 両方のコロケーションを詳細(xì)に分析するために、コロケーションパネルのフッターに3種類のボタンセットが用意されています。このボタンを組み合わせることで、頻度、LD差、出現(xiàn)位置(2語のうちどちらの語と共起しているか、両方か、どちらか一方か)を自由に調(diào)整して、分析を進めることができます。 ![]() これ以外に、両方の語に共通するコロケーションの違いを用例レベルで調(diào)べることなどもできます。詳しい使い方については、操作説明書(PDFファイル、約2.8MB)の10節(jié)をご覧ください。 ■筑波ウェブコーパスの構(gòu)築TWC ver.1.10では、日本語のウェブサイトから収集した11億3800萬語のデータを使用しています。 ウェブ上からのテキストの収集では、検索エンジンのAPIを利用して、ウェブページのURLを収集した後、そのURLのデータを収集する一般的な手法に従っています。以下が具體的なコーパス構(gòu)築の手順です。
■アノテーションNLTでは、コロケーションや文法的振る舞いの情報を抽出するために、BCCWJのデータにアノテーションを付與した上で解析しています。アノテーションに使用している解析器?辭書は以下の通りです。 ●形態(tài)素解析 MeCab 0.98 + IPA辭書 2.7.0 形態(tài)素解析用のIPA辭書は、代表表記の情報を含まないため、獨自に拡張して代表表記に対応させています。 ●係り受け解析 CaboCha 0.60 ■ご利用にあたって
■更新履歴
■お問い合わせNLTに関するお問い合わせは以下までお願いいたします。 ![]() |
|
|