特許文献をダウンロードし、複数のキーワードを色分け表示するツール

仕事上、特許調査に関わることが多い。いろいろと工夫して、できるだけノイズと漏れが共に少ない検索を目指すものの、どうしても漏れを少なくしようと思うと、多少のノイズの混入は避けられない。そのため、特許調査で出てきた大量の特許文献リストに目を通し、明らかなノイズを除去したり、特に重要な特許にチェックを入れたりする作業が欠かせない。この作業は、特許文献1つ1つに目を通す必要があり、数が多くなると結構大変な作業となる。

実際に作業を行う際には、特許文献(公開公報や登録公報)中に、いくつかの所定のキーワードが含まれているかどうかを確認することが多い。日本語特許であればJ-PlatPat、海外特許であればEspacenetなどのサイトで、特許文献のテキスト版にアクセスし、ブラウザのページ検索機能(CTRL+F)を使って、特定のキーワードをハイライト表示させるとか、PDF公報にアクセスし、PDFリーダーのワード検索機能を使用したりすることになる。

しかし、これは非常に手間のかかる作業である。まずは目的の公報(特許文献)にアクセスするのに手間がかかる。なぜなら、J-PlatPatやEspacenetでは、各公報に直接アクセスされることを嫌っており、公報にたどり着くまでに何回かのクリックを必要とするからである。

さらに、目的の公報を開いた状態でも、複数のキーワードをそれぞれハイライト表示させるようなことは難しい。(J-PlatPatの場合には、複数のキーワードを入れて検索し、検索結果を表示させると、複数のキーワードがそれぞれ色分け表示されるけれど)また、特許毎に使用される用語が微妙に異なっていたり、表記揺れがあったり、同義語があったりするので、それへの対応も必要となる。例えば、「電池」と「バッテリー」とか、元素の場合には元素記号表記と元素名表記とか。。。

ということで、検索で出てきた大量の特許文献リストに対し、テキスト形式の特許文献を入手(ダウンロード)し、そのテキストに指定したキーワードが含まれていたら、その数をカウントすると同時に、キーワードの背景に色を付けてマーキング(ハイライト表示)するツールを作ってみることにした。処理にはエクセルのマクロ(VBA)を使うことにした。

特許文献リストの入手には、Google Patentsを使用した。最近のGoogle Patentsは優秀で、US、EP、WOなどに加え、JP、CN、KR、RUなどが、かなり新しいものも収録されている。しかも、これらは固定URLが与えられているので、公報番号がわかれば、直接アクセス可能である。さらに、素晴らしいのは、英語以外の文献の多く(ほとんどすべて?)は、Google得意の翻訳機能で、予め英語に翻訳されている(公報URLの末尾に”/en”を付けると、英語版が入手できる)。従って、全部を英語版で入手すれば、日本語の特許も中国語の特許も英語の特許もドイツ語の特許も、全部英語で解析することができる。もちろん、それぞれのオリジナル言語での解析も可能なので、日本語特許は日本語で解析することもできる。

テキスト版公報が入手できれば、あとは、公報の構成を理解し、タイトル、出願人、発明者、アブストラクト、クレーム、詳細な説明、などのそれぞれのブロックを認識し、指定したキーワードを探し出し、その数を数えると共に、キーワード部分の背景の色を変える処理をするだけなので、最初はちょっと苦労するけど、さほどややこしい処理でもないし、試行錯誤を何度か繰り返すうちに、それらしいものが出来上がった。

なお、キーワードはあらかじめ複数指定可能とし、1種類のキーワードについて複数の表記(同義語、表記揺れ、大文字・小文字など)を事前に登録する形式とした。

実際に出来上がったツールを使ってみると、これは非常に便利で、従来、時間と手間の掛かっていた処理がほぼ全自動となり、ノイズの除去や、重要特許の内容の把握などが短時間に可能となった。これは余りにも便利なので、多くの人にも知ってもらおうと思い、公開することにした。

—————————————————

というわけで、とりあえずの完成版を「Patent Keyword Marker (PKM)」と名付け、お試し版を公開しました。よろしかったら、試しに使ってみてください。エラー対応などは不完全な状態ですが、PCが固まったりはしないと思います。多少変な動作があってもご容赦ください。

Patent Keyword Marker (PKM) のページへ

また、Google Patentsは、時々大規模な改修が行われることがあり、そうなるとそれに対応した改訂が必要となりますが、必ずしも即時対応可能とは断言できかねます。

ご意見やご要望があれば、遠慮なくお願いします。

サイトのお引越し

以前のサイトからこちらに引越してきた。引越しと言っても、以前の@niftyホームページから、同じ@niftyが運営するLacoocanというホームページサービスへの移動だから、古いアパートから隣にできた新築のマンションに移ったようなものか。

以前はHTMLを手打ちし、いちいちFTPでアップロードしていたが、一連の手間が面倒だし、ちょっと手の込んだサイトなんか作るのには相当勉強しないといけないということで、解決策を探していた。最近 WordPress という無料のCMS(コンテンツマネジメントシステム)を使用すると、結構高機能なサイトを簡単に作成できるらしいという話を聞いて興味を持ったのと、@niftyの新しいホームページサービスではWordPressを自動インストールできるということで、この際、頑張って引越しをしてサイトを作り直すことにした。

というわけで、このサイトはWordPressを使用して作成している。何もわからない状態からだったので、この参考書に全面的にお世話になって、どうにかここまで来ることができた。深く感謝したい。
ソーテック社
WordPress Perfect GuideBook 3.x対応版 [単行本(ソフトカバー)]
佐々木 恵 著

続きを読む サイトのお引越し

「これからの技術者」 大橋 秀雄 著

以下の文章は、ブログ “Do you think for the future?” に 2006年3月24日に書いたエントリであるが、技術士という資格の今後のあり方を考える上で非常に参考になる本であり、ここに再掲する。実際、このサイトの「技術士について」というページの記述は、本書の影響をかなり大きく受けたものとなっている。


タイトルに惹かれて購入してしまったが、まえがきを読むと本書は主として理工系の大学生をターゲットとして、どんな技術者を目指すべきなのか、そのために はどのようにレベルアップしていけばいいのか、といったことを書いた本のようである。でも、実際には現在の日本や世界の技術者を巡る情勢がどうなってい て、今後どうなっていくのか、といったことについてもコンパクトにまとまっており、既存の技術者にとっても知っておいて損はない内容が詰まっている。

オーム社
これからの技術者 -世界に羽ばたくプロを目指して-
大橋 秀雄 著

続きを読む 「これからの技術者」 大橋 秀雄 著

退職時に考えていたこと

以下の文章は、2003年3月に三菱化学株式会社を退職するに当たり、イントラネットのサイトに載せた文章である。今読み返すとかなり恥ずかしい部分もあるのだが、もう何年も経ったことだし、一般公開するのも悪くないという思いが出てきた。初心忘れるべからずという意味もあり、たまには自分でこういう文章を読み返すのも悪くないという気もするし、もしかしたら誰かが読んで何か得ることや感じることがあるかもしれない、ということで、ちょっと長いけど、そのまま掲載する。


 1.はじめに

思うところあって、この3月末をもって三菱化学を退職することになりました。(思うところがあったくらいで辞めるか?という突っ込みがありそうですが、逆 に思うところもなしに辞めるか?とも言えるわけでして)

続きを読む 退職時に考えていたこと

最初の投稿

Mt. Fuji from an airplane

沢木技術士事務所のコラムページにようこそ。

この写真は、2004年の1月に台湾に行く際に、成田空港から台北行きの中華航空機の向かって右側の窓から見えた富士山を撮影したものです。なかなか、こんなシャッターチャンスには恵まれないと思われるので、とってもラッキーでした。

ここでは、科学技術に関すること、技術士に関すること、知的財産に関すること、および関連する書籍に関することなどを気ままに書いていきたいと思っています。皆さまからのご質問やご意見などをお待ちしておりますので、どうぞお気軽にコメントください。

よろしくお願いします。