| 【ソフト紹介】 |
日本語/英語の文書データからキーワード(単語、連語)を抽出・集計するソフトです。
本ソフトは作者が開発しているキーワード抽出エンジンの動作確認用として作成したものですが、次のような場面で一般の方にも使い道があると思われます。
- 文書校正における用語統一チェック
- 用語索引を作成する際の用語一覧の整理
- 特定の特許明細書の分析・精読
- 翻訳支援ツールとして(訳語一括置換のための用語抽出)
|
|
|
|
【本ソフトの特徴】
- 原文中のキーワードの色分け表示
- 原文中のキーワードとキーワード一覧のリアルタイム連動
- キーワード一覧の絞込み表示
- キーワード一覧の並べ替え表示
【キーワード抽出処理の特徴】
日本語と英語とで独立した処理を行います。これら以外の言語には対応しておりません。
- (日本語)文字種の変化を契機とした単語識別を行うものです。
- (英語)冠詞、区切り文字、ストップワードを頼りにしたキーワード抽出です。
- (日本語・英語)辞書を用いないので、新語、造語にも対応できます。
- (日本語)かな交じり語 (漢字1文字+かな で始まる語)も抽出されます。
例 「問い合わせ」「組み合わせ」, ...
- (日本語・英語)単語のほか、連語(複合語)を取り出すことができます。
例 「データ記憶装置」→「データ」/「記憶装置」/「データ記憶装置」
- (日本語・英語)なるべく多くの語を識別・出力しようとするものです。重要語句のみを取り出すものではありません。
- (日本語・英語)20,000字程度のテキストデータ(標準的な量の特許明細書)なら瞬時に抽出・集計が完了します。
【実装状況に関する留意事項】 (仕様として定めるものではありません)
■日本語用キーワード抽出
- 英文に対して日本語用キーワード抽出を行うと、単なる単語集計器となります。
- 他の単語を含む語句であっても、単語として認識されることがあります。
例 「送信する送信手段」→ 「送信」と「送信手段」を別の単語として認識します。
この例で「送信」の出現数は1となります。
- '・'(中黒)や 'ー'(長音)およびそれらの類似文字は文脈に応じて統一化されますので、これらの文字を含む語句がある場合、出力されたキーワードで原文を検索してもヒットしない場合があります。
- ひらがなのみのキーワード、1文字のキーワード、数字で始まるキーワード、記号で始まるキーワードは無いことを前提とした処理になっています。
- 特許文章での利用を考慮し、下記語句は出力しないようにしています。
- 語句先頭の "前記"
- 語句先頭の "当該"
- "及び"
- "又は"
- "乃至"
■英語用キーワード抽出
- 連語については名詞が出力される処理とすることを指向していますが、品詞辞書は用いないため、抽出結果には動詞などの修飾語がつく場合も少なくありません。
- 単数形と複数形は別のキーワードとしてカウントされます。
例 box / boxes
- 出現数は単語または連語で取り出されたキーワード全体でカウントします。連語を分解して単語ごとに出現数を集計することは行っていません。
例 "A man-machine interface" という文からは、"a man-machine interface" がキーワードとして
抽出され、"interface" 単独では出力されません。
- 内部で無意味語のテーブルを保持しており(ある意味では「辞書」と呼べるかもしれません)、you, this など、単独で出力されても意味のない(キーワードとしての性質がほとんどない)語を出力しないようにしています。
- 次の理由により、抽出されたキーワードで原文を検索してもヒットしない場合があります。
- 改行は空白とみなしますので、文の途中で改行されていてもセンテンスが続いているものとして連語抽出を行います。但し、行末ハイフネーションの補正処理は行っておりません。
- 原文中で単語間の空白が2文字以上あっても、出力されるキーワード中の単語間の空白文字は1文字のみとなります。
例 "the present invention" → "the present invention"
- 出力されるキーワードの先頭文字は可能な限り小文字に変換されます。
- 数字で始まるキーワード、記号で始まるキーワードは無いことを前提とした処理になっています。
|
|
|
| 【ソフト種別】 |
フリーウェア
キーワード抽出エンジンのモジュール提供、組み込み開発等承ります。お気軽にお問い合わせ下さい。
|
| 【動作環境】 |
Windows2000,XP / .NET Framework 1.1 SP1 |
| |
|
| 【バージョン】 |
Ver 1.14 (2006/06/16) |
| 【ダウンロード】 |
ekwords114.zip |
| |
|
| 【最近の改訂事項】 |
- (1.14) [日] :非漢字文字列に先行する "本" "当" を出力しないよう調整
例:"本システム" →従来 "本システム"を出力 / 改訂後 "システム" のみ出力
- (1.14) [英] :「数字記号で始まる語を除外」オプション
- (1.14) [英] :"said" "above-mentioned" を冠詞とみなして解析するよう調整
- (1.14) [英] :「末尾の進行形単語を除外」オプション
- (1.13) [日] :「かな交じり語の識別除外」を選択した場合に、かな交じり語の前後の語が
連結されて出力される場合があった点を修正
- (1.12) [日] かな交じり語の識別処理を調整
- (1.12) [日] 「かな交じり語の識別除外」オプション
- (1.12) [日] 「かな終端語を非表示」機能
- (1.12) [英] 「冠詞を無視する」オプション
- (1.10) 英文対応
- (1.10) 「フィルタ」ボタンが動作不良になる場合があった点を修正
- (1.10) テキスト欄/キーワード表の境界をドラッグして大きさを調整可能になりました
- (1.01) 語数の出力
|