小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

トップ┃NINJAL

 一切都是命啊 2016-08-13
お知らせサーバ移転のため、サービスを一時停止します。
2014年12月18日(木)午前10時~午後1時(終了時間は前後する場合があります)
NEWバージョン1.30を公開しました。新たに2語比較機能が新たに加わりました。
詳しくは上の[2語比較機能]ボタンをクリック!

NINJAL-LWP for TWC とは

NINJAL-LWP for TWC(ニンジャル?エルダブリュピー?フォー?ティーダブリュシー、略稱NLT)は、日本語のウェブサイトから収集して構(gòu)築した約11億語のコーパス『筑波ウェブコーパス』(Tsukuba Web Corpus: TWC)を検索するためのツールです。検索には、國立國語研究所(以下、國語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、國語研が構(gòu)築した1億語の『現(xiàn)代日本語書き言葉均衡コーパス』(Balanced Corpus of Comtemporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。

このツールはレキシカルプロファイリングという手法を用いて、名詞や動詞などの內(nèi)容語の共起関係や文法的振る舞いを網(wǎng)羅的に表示することができます。

使い方

コンコーダンサでは検索語句を入力すると、その結(jié)果がコンコーダンスラインとして返ってきます。NLTでは、検索語句を入力する代わりに、まず調(diào)べたい語(NLTではこれを「見出し語」と呼びます)を選びます。見出し語として選べるのは、名詞、動詞、形容詞、連體詞、副詞の5種類の內(nèi)容語です。

ここでは、「走る」という名詞について調(diào)べてみます。まず畫面上の入力ボックスに「走る」または「はしる」(カタカナも可)または「hashiru」を入力して、[絞り込み]ボタンをクリックします。下のリストに「はしる」という読みの見出し語が3つ表示されますので、一番上の「走る」をクリックします。

クリックすると、「走る」の見出し語ウィンドウが開きます。ここでは、「が走る」の前にどのような名詞が來るかを調(diào)べてみることにします。左側(cè)の文法パターンのパネルの[グループ別]を選ぶと、一番上に[名詞+助詞 <]グループがあります。一番上の[…が走る]というパターンをクリックします。

すると、中央のコロケーションパネルに[名詞+が走る]のコロケーションが頻度順に表示されます。左側(cè)の用例パネルには、最も頻度の高い「車が走る」の用例が表示されます。

次に、特徴的なコロケーションを表示してみます。NLTでは、頻度順だけでなくMIスコアの順でも並べ替えることができます。MIスコアは統(tǒng)計指標(biāo)の一つで、特徴的なコロケーションほど數(shù)値が高くなる傾向があります。ただし、低頻度のコロケーションの數(shù)値が過剰に高くなるため、低頻度のものを排除する必要があります。コロケーションパネルのヘッダーの[MI]をクリックしてから、パネル上で右クリックして[頻度20以上]を選びます。

すると、「蟲ずが走る」、「戦慄が走る」などの「名詞+が走る」の特徴的な表現(xiàn)が上位に現(xiàn)れます。

それぞれのコロケーションをクリックすると、右のパネルにその用例が表示されます。ここでは、6番目の「閃光が走る」をクリックしてみます。コーパスで使われている実際の用例を一つずつ確認(rèn)することができます。

用例はセンテンス単位で表示されます。さらに前後の文脈を確認(rèn)するときは、それぞれの用例の出典の部分をクリックすると、前後のセンテンスを表示するダイアログが開きます。

さらに、その右の矢印のアイコンをクリックすると、別ウィンドウ(またはタブ)にもとのウェブページに表示します。

このように、NLTでは、検索ウィンドウでまず見出し語を選んで、見出し語ウィンドウ上で、文法パターン、コロケーション、用例を行き來しながら、その見出し語の振る舞いの全體像をつかむことができます。クリックだけで簡単に操作できますので、思考を途切らせることなくさまざまな表現(xiàn)を思いのままに調(diào)べることができます。

詳しい使い方については、操作説明書(PDFファイル、約2.8MB)をご覧ください。

2語比較機能

バージョン1.30では、新たに2語比較機能が加わりました。比較できるのは、同一の品詞の內(nèi)容語(名詞、動詞、イ形容詞、ナ形容詞、連體詞、副詞)の組み合わせです。これ以外に、イ形容詞とナ形容詞、イ形容詞と連體詞、ナ形容詞と連體詞の比較も可能です。

ここでは、「冷える」と「冷める」という2つの動詞について調(diào)べてみます。見出し語検索のウィンドウの右上にある[2語比較検索]のボタンをクリックします。

次に、[動詞」タブをクリックします。

畫面上の入力ボックスに「ひえる」と「さめる」(カタカナ、ローマ字も可)をスペースで區(qū)切って入力して、[絞り込み]ボタンをクリックします。下のリストに「ひえる」と「さめる」という読みをもつ見出し語が現(xiàn)れます。

比較したい2語(ここでは、「冷える」と「冷める」)にチェックマークを入れて、リストの右上にある[2語比較]ボタンをクリックします。

「冷える」と「冷める」の2語比較のウィンドウが開きます。

ここでは、ガ格名詞を比較してみます。左側(cè)の文法パターンパネルの一番上にある「…が冷える」または「…が冷める」のパターンをクリックします。

すると、中央のコロケーションパネルに「…が冷える」と「…が冷める」が表示されます。

最初の狀態(tài)では、コロケーションはLD差の降順に並んでいます。LD差というのは、左側(cè)のコロケーション(この場合は、「…が冷える」)のLD(ログダイス値)から、右側(cè)のコロケーション(この場合は、「…が冷める」)のLDを引いたものです。LD差が大きくなればなるほど、「…が冷える」の特徴的なコロケーションと言えます。逆に、LD差が小さくなればなるほど、「…が冷める」の特徴的なコロケーションになります。視覚的に理解しやすいように、LD差が大きくなるほど濃い黃色で、LD差が小さくなるほど濃い紫でハイライトされます。上の畫面では、「…が冷える」の特徴的なコロケーションが表示されていますが、「…が冷める」の特徴的なコロケーションを見るときは、[LD差]のヘッダーをクリックして、LD差の昇順に並べ替えます。

両方のコロケーションを詳細(xì)に分析するために、コロケーションパネルのフッターに3種類のボタンセットが用意されています。このボタンを組み合わせることで、頻度、LD差、出現(xiàn)位置(2語のうちどちらの語と共起しているか、両方か、どちらか一方か)を自由に調(diào)整して、分析を進めることができます。

これ以外に、両方の語に共通するコロケーションの違いを用例レベルで調(diào)べることなどもできます。詳しい使い方については、操作説明書(PDFファイル、約2.8MB)の10節(jié)をご覧ください。

筑波ウェブコーパスの構(gòu)築

TWC ver.1.10では、日本語のウェブサイトから収集した11億3800萬語のデータを使用しています。

ウェブ上からのテキストの収集では、検索エンジンのAPIを利用して、ウェブページのURLを収集した後、そのURLのデータを収集する一般的な手法に従っています。以下が具體的なコーパス構(gòu)築の手順です。

シードおよびタプルの生成
検索エンジンのクエリパラメータに與えるタプルを構(gòu)成するシードには、NLBの開発過程で作成したBCCWJ(2009年の領(lǐng)域公開データの一部、約6千2百萬語)の頻度リストを利用しました。品詞ごとに分かれた頻度リストのうち、內(nèi)容語である名詞、動詞、形容詞、副詞のリストをマージして、上位500語をシードとして選びました。ただし、名詞のうち、數(shù)詞、固有名詞は排除し、また、動詞、形容詞については活用形も含めました。この500語のシードから無作為に3語を選び出し、計50萬組のタプルを作成しました。以下にタプルの例を示します。
駄目 皆 構(gòu)造
條件 とても 様々
法律 (答える OR 答え OR 答えよ OR 答えれ OR 答えろ OR 答えりゃ OR 答えん) 人々
検索エンジンAPIによるURLの収集
URLの収集には、Yahoo!ウェブ検索APIを利用しました。1タプル當(dāng)たりで収集するURL數(shù)は10ページとし、2012年1月初旬から下旬にかけて計500萬URLを収集しました。重複したURLを削除したURL総數(shù)は約3割減の約350萬件になりました。
HTMLページの収集
URLデータを5萬件ごとに分割した上で、3臺の端末を利用して2週間をかけてHTMLページを収集しました。
テキストの抽出
次に収集したHTMLファイルからテキストを抽出する作業(yè)を行いました。具體的には、HTMLタグの削除、文字コードの統(tǒng)一(utf8)、日本語以外の言語で書かれたテキストの削除などの作業(yè)を行いました。
不適正なページの排除
ウェブ上のテキストの収集の目的は日本語の用例を採取することにあるので、単に項目やリンクを列挙しただけのページ、広告と思われる內(nèi)容の多いページ、センテンス境界の判定が難しいページは、あらかじめコーパスデータの対象から外しました。
センテンスの抽出
レキシカルプロファイリングツールNINJAL-LWPでは、センテンス単位にした用例の中にどのようなコロケーションが含まれるかを文法パターン別に抽出します。そのため、コーパスデータはあらかじめセンテンス単位に分割しておく必要があります。一つ前の作業(yè)でセンテンス境界の判定が難しいページを排除したのもこの理由によります。
用例データの抽出
センテンス単位のデータのなかには、見出しに相當(dāng)するものや、メニュー項目に相當(dāng)するものが含まれています。センテンス中にどの程度名詞が含まれるか、センテンス中に動詞は現(xiàn)れるか、「クリック」や「ログイン」などのウェブページで多用される表現(xiàn)が用いられているかなどの複數(shù)の観點から、用例としての適正度を數(shù)値化し、用例としてふさわしいデータを抽出しました。また、同一ページで同じセンテンスが現(xiàn)れた場合も、最初の1件のみを用例として採取し、不要な重複を避ける工夫をしました。
重複する用例データの削除
一つ前の作業(yè)で、同一ページでは同じ用例が複數(shù)回採取されないようにしましたが、6億語弱のパイロット版NLTを開発して実際に運用してみたところ、同一サイトで同一の用例が頻出することが確認(rèn)されました。そのため、URLの情報をもとに同一サイト での同じ用例は一度だけ採取するように改良し、最終的に語數(shù)にして11億3781萬語、用例數(shù)にして4672萬7千例の筑波ウェブコーパスが完成しました。

アノテーション

NLTでは、コロケーションや文法的振る舞いの情報を抽出するために、BCCWJのデータにアノテーションを付與した上で解析しています。アノテーションに使用している解析器?辭書は以下の通りです。

形態(tài)素解析 MeCab 0.98 + IPA辭書 2.7.0
形態(tài)素解析用のIPA辭書は、代表表記の情報を含まないため、獨自に拡張して代表表記に対応させています。

係り受け解析 CaboCha 0.60

ご利用にあたって

1.【動作環(huán)境】ブラウザはFirefox、Chrome、Safari、IE(バージョン8以上)に対応しています。処理速度の観點から、Firefox、Chrome、Safariのご利用をお勧めします。
2.【クッキーの設(shè)定】使用にあたってはブラウザのクッキーをオンにしてください。オフにした狀態(tài)ではデータが表示されません。クッキーをオンにする方法については、各ブラウザのマニュアル等でご確認(rèn)ください。
3.【表示結(jié)果】NLTでは、機械的に処理した結(jié)果をそのまま表示しています。形態(tài)素?係り受け解析や抽出処理の精度の限界により不適切なデータが混入しています。あらかじめご了承ください。
4.【論文?記事を公表する場合】NLTを研究?教育に利用して論文や記事を執(zhí)筆される場合は、以下のように、必ずNLTを利用した旨を明記してください。
筑波大學(xué)?國立國語研究所?Lago言語研究所『NINJAL-LWP for TWC』(http://nlt.tsukuba.)
5.【用例の削除依頼】このコーパスは、教育?研究目的で、ウェブ上からデータを収集したものです。すべての用例は出所先であるページのタイトルとURLを明記した上で表示しています。自らが著作権を有するウェブページから抽出された用例の削除を希望される場合は、お問い合わせのメールアドレスまでご連絡(luò)ください。申請者ご本人のページであることを確認(rèn)した上で削除させていただきます。

関連サイト

NLB(NINJAL-LWP for BCCWJ)(同じインターフェースを使ったBCCWJ検索ツール)

筑波大學(xué)留學(xué)生センター 日本語?日本事情遠(yuǎn)隔教育拠點

更新履歴

2013/4/15NLT ver.1.10 公開
2015/3/27NLT ver.1.30 公開(2語比較機能追加)
2015/4/29公開先をLago言語研究所のサーバに変更

お問い合わせ

NLTに関するお問い合わせは以下までお願いいたします。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約