講義ノート: 創造的問題解決の方法論(4) |
|
情報の収集 (その2: インタネットを利用した情報の収集) | |
創造的問題解決の方法論
− 大阪学院大学情報学部 2年次「科学情報方法論」講義ノート (第4回講義) |
|
中川
徹 (大阪学院大学) , 2001年 10月25日
[掲載: 2002. 3.28] [ 注: 固定ピッチのフォントで読んで下さい] |
本連載のトップ | 前回講義 | 本ページの先頭 | 1. はじめに | 2. WWWのしくみ | 3. リンク集による情報収集 | 4. 検索エンジンによる情報収集 | 5. リンク集 | 別紙リンク集 | 次回講義(5) |
講義「科学情報方法論」(情報学部2年次) 第4回 講義資料
2001年10月25日 中川 徹
情報の収集 (その2: インタネットを利用した情報の収集)
目標: インタネットを利用した情報の収集が非常に便利で強力であることを学び,
情報検索のしかた,
重要な情報の所在, 情報検索技術の進歩を学ぶ。
前回:
(続) 科学・技術の研究と学習の方法 〜 経験と原理
+ 情報の収集 (その1: 学術情報の図書・雑誌による収集) 目標: 科学技術における 原理・理論に基づくアプローチと問題解決のアプローチを
要点: 科学と技術の学習・研究の3種のアプローチのうち, (2)(3)の概要を学んだ。 (1) 観察 → 経験的知識 → 仮説
→ 実験検証 のアプローチ
情報収集において, 従来の図書による方法がやはりまだ重要であること,
また,
|
1. はじめに
情報の収集は, 学習・実務・研究のすべてにとって, 最初にすべきこと。
広く収集すると同時に, 深くて信頼のおける情報を集める必要がある。
前回は, 学術的な情報の所在を述べ, それらを調べるやり方を述べた。
一次資料: 学術雑誌の論文, 国際会議などの発表論文,
学会会誌・商業雑誌の記事,
特許 など
二次・三次資料: レビュー誌, 抄録誌, データベース,
著書・教科書, ハンドブック・
事典, 図書目録 など。
図書館における分類法 (「日本十進分類法」)
近年, われわれが簡単に収集できる情報の量と質は飛躍的に向上した。
その主な要因は, 情報通信技術の向上, インタネットの爆発的な普及にある。
インタネット上での情報流通 (特に, WWWによる情報流通) により,
・ 従来の雑誌・新聞などの速報情報が, インタネット上でさらに広範・迅速になった。
・ 従来の図書・雑誌などの活字情報の所在を広く・速やかに検索できる。
・ 企業や個人などが, 新しく情報を広範に発信するようになった。
・ テキストだけでなく, 画像・音声・動画を含むマルチメディア情報が流通している。
・ これらの情報が, 世界中から, ほとんど瞬時に無料で得られるようになった。
「情報の洪水」に溺れないで, 適切に情報を収集する方法を身につける必要がある。
2. WWW のしくみ
WWW (World Wide Web, あるいは単に Web) は 1993年に作られたソフトウェア。
この便利さが認識されて, インタネットが世界レベルで爆発的に普及した。
つぎの基本的な技術要素からなる:
(1) ファイル内容の記述形式 (フォーマット) の統一:
HTML
(2) ファイルの所在表記法の世界的な統一:
URL
(3) リンクの設定とリンク先ファイルの取得:
Hyper-link, WWWサーバ
(4) ファイルを表示する汎用ソフト: WWWブラウザ
2.1 WWW用のファイルの記述形式: HTML
HTML (Hyper Text Mark-up Language) を用いて記述する。
これは, ワープロソフトの制御コードに対応するものを規定したもの。
便利さのポイントは, 制御コードに名前 (タグ) をつけ, 全てをテキスト表現したこと。
制御コードの適用範囲を示すため,
タグの多くは範囲開始と範囲終了の対で表わす。
実際には, WWWファイル作成用ソフトをワープロのように使うと,
自動的にHTML形式のタグをつけたファイルを作ってくれる。
制御コードをテキスト表現にした効果:
ネットワーク上での伝達が, 速くて汎用的になった。
制御コードが制御する内容が明確になり,
多くの人が理解できた。
画像や音楽などは, それぞれに標準化された形式のファイルとして,
制御コードでそのファイルの呼び出しを指定する。
2.2 インタネットにおける情報の所在の表記法: URL
インタネット上の情報の所在は「URL(Universal Resource Locator)」で示す。
つぎの形式: プロトコル名://サーバ名.ドメイン名/ファイルへのパス
例: http://www.osaka-gu.ac.jp/php/nakagawa/TRIZ/index.html
プロトコル名: 通信・データ転送の方式
(規約) のこと
http (hyper text transfer protocol) Webの形式
他に: ftp (file transfer protocol) ファイル単位で送る。
サーバ名: サーバコンピュータにつけた名前 Webでは www が多い。
ドメイン名: 後ろから, つぎのものを記述する。
国名 (jp 日本, uk 英国, fr フランス など。米国は例外で省略。)
種別分類: 米国: com 企業, gov 政府関係,
edu 大学,
net ネットワーク運営関係者, org 非営利団体 など
諸国: co 企業, ac 大学, ne ネットワーク関係者
など
組織名: 会社の名前など (早いもの勝ちの登録制)
パス名: そのサーバ内で任意につけたファイルへのアクセス。次の形式。
フォルダ名/.../フォルダ名/ファイル名.識別子
HTML形式の場合の識別子は html または htm
URLのもとになるドメイン名は世界中で重複しないように調整されている。
しかし, ドメイン名 (特に組織名)
の登録も段々パンク状態になりつつあり,
社会的な問題になりつつある。
サーバ/ドメイン名およびパス名 (フォルダ/ファイル名)
を担当者が随時変えられる。
→ その結果, URLでのアクセスが不安定になる。
(例えば, 1年後にアクセスしようとすると, アクセスできないなど。)
2.3 リンクをクリックしてファイルを取得: ハイパーリンクとWWWサーバ
WWWで情報を取得する基本的な方法は, 上記のURLを指定して呼び出すこと。
もっと簡単には, 今読んでいるページの指定箇所(「アンカー」)
をクリックすると,
そこに予め作ってある「ハイパーリンク」によって,
必要なURLが呼び出される。
アンカー: キーワード, 画像など。(マウスポインタが, 人指し指(など)に変わる。)
アンカーの位置でクリックすると,
(1) そのハイパーリンクのURLを要求するメッセージをインタネットに発信する。
(2) インタネットがメッセージを指定されたWWWサーバに届ける。
(3) WWWサーバは, URLで指定されている自分のファイルを要求元に発送する。
(4) WWWブラウザが, 返送されてきたHTML形式のファイルを表示する。
URL要求およびファイル返送は, 基本的に単発的に (前後に無関係に) 処理される。
「ハイパーリンク」を使って表現した文書を「ハイパーテキスト」と呼ぶ。
多くの情報を階層的に(多数のページに)
分割して表現できる。
各ページ間のリンクを辿って, 必要な情報を容易に探すことができる。
利用者・読者は, その興味と必要に応じて,
任意のルートで読むことができる。
2.4 WWWブラウザで画面表示・印刷する
送られて来たHTML形式のファイルを表示するソフトを「WWWブラウザ」という。
「ブラウザ」(browser) : browse とは,
「さっと読む」こと。
WWWブラウザ (Netscape Navigator, Internet Explorer など) は, 汎用性が特長。
どんなメーカのパソコンにも, どんな国の言語にも対応できるように作られている。
例: 画面を大きくしても小さくしても, 適切に見える。
英語も, フランス語も,
日本語も, 韓国語も, ... 対応できる。
WWWブラウザは, HTMLファイルのタグを解読して, 2次元に表示する。
テキストのレイアウト, 画像の表示なども行う。
また, いろいろなページ (URL) を見る機能を提供している。
3. リンク集を用いたインタネット情報の収集
多様な分野・目的で, ハイパリンクを活用した「リンク集」が作られ公表されている。
リンク集はその編者が自分の判断でいろいろなページを収集・選択したものである。
リンク集を集めたリンク集もある。
便利で優れたリンク集を知っていることが, インタネット情報検索のコツ。
分野やテーマごとに, 最も情報が豊富で使いやすいリンク集を見つけること。
いろんなリンク集を見て, またリンク先のページを見て,
自分で選択すること。
本などに掲載されているのは,
自分には合わないことがある。
「自分用のリンク集を作る」ことが, 能率を高める。
・ ブラウザの自動記憶機能を単純に用いる方法 (自分用のパソコンの場合)
・ ブラウザの「ブックマーク」(または「お気に入り」)
機能を用いる方法
大学のパソコンの場合には,
ブックマークファイルを
サーバ内の自分のフォルダに保存すること。
・ 自分のリンク集を HTML形式のページとして作成する。
要するに,
自分の「ホームページ」を作ること。
ここに一種のノートとして, リンク集を作っておくとよい。
4. 検索エンジンを用いたインタネット情報の収集 (キーワード検索)
「検索エンジン」: インタネット上の情報を網羅的に検索するための専門サイト
(またはそのようなソフトウェア)
4.1 いろいろな検索エンジン: 検索エンジンが持つ技術とその発展
いろいろな種類の検索エンジンがあり, 急速に進歩している。
分類の観点:
(a) ユーザの検索プロセス: カテゴリ検索
vs キーワード検索
(b) 検索対象ページの集め方: 人手
vs 自動的 (ソフトウェアロボットによる)
(c) ページ内の検索対象範囲: タイトルなどだけ
vs 全文
(d) 同一サイト内のページの表示法: サイトでまとめる/まとめない/代表+リンク
(e) 検索結果の表示の順番: 関連度・重要度など
(この判定法が問題)
(a) ユーザの検索プロセス:
カテゴリ検索: 広い分野が階層的
(またネットワーク状) に分類されており,
その分類を下位に辿って,
末端カテゴリに集められているリンクのリストを見る。
キーワード検索: 任意のキーワードを入力して, 関連するページやサイトを探す。
初心者にはカテゴリ検索が便利で分かりやすいが,
本格利用には向かない。
初期の検索エンジンはカテゴリ検索主体であったが,
最近はキーワード検索がずっと使いやすく,
品質も良くなった。
(b) 検索対象ページの集め方とその長所・短所
人手で集める, 登録を受け付ける, 審査して採用するもの:
長所: 精選されたページだけを出してくる
短所: 特殊なテーマには対応できず,
網羅性がなく, 最新の情報でない。
(世界的なニュース・トピックには最新になるように対応している)
自動的に (ソフトウェアロボットで) ページを集めるもの:
特別に作ったソフトウェアを種々のWWWサーバに送り,
ページを網羅的にコピーしてきて分析する。
分析したページに付けられているリンクを手がかりに新しいサーバに進む。
長所: 網羅性が高くなる。新サイト・未知サイトにもかなり対応できる。
短所: 収集は膨大な仕事。収集の段階ではページは玉石混淆。
Yahoo は有名だが, 人手のもので, 古いタイプ。最近はほとんどが自動収集。
(c) ページ内の検索対象:
初期は, タイトル, キーワード,
抄録などだけを対象にすることが多かったが,
最近は, ほとんどが全文を検索対象にする。
全文検索は,
膨大で高度な分析作業が必要だが, 情報が豊か。
自然言語 (日本語, 英語, ...) の形態素分析, キーワードの判定など。
テキストから予めすべてのキーワード語を抽出し, 索引を作っておく。
(d) 同一サイト内のページの表示法: 以下の順に発展している。
・ 一切まとめず, 個別ページを独立に表示。(サイトの重要性分からず)
・ 同一サイトのものをまとめて列挙。一サイト内だけで多数のことあり。
・ 各サイトから1件 (または
2件) だけを表示。
・ 各サイトから1-2件を表示し,
サイト内一覧のボタンを添付。
・ サイトとページの中間の単位として,
「ページグループ」単位を導入。
(e) 検索結果の表示の順番 (ランキング) : 非常に重要な要素。
自動収集したページの検索結果は,
何万ページもヒットすることがあるが,
そのうち最初の画面に表示できるのは,
10件程度だけ。
→
「重要度」順に並べ替えて表示することが, 非常に重要な要請。
この「重要度」をどのように自動判断するかが問題。
検索キーワードとの関連度
(ページ内の出現頻度, 出現場所などから判断)
* 注目されている度合い
(このページに張られているリンクから判断)
* 注目しているページの重要度
この重要度の判定には,
膨大なデータ収集と解析が行われている。
この重要度判定アルゴリズムが最近開発された。(Google)
このページに張られていいるリンク (「逆リンク」)を網羅するには,
他のすべてのページを調べなければならない!
4.2 キーワード検索のやりかた
調べたいテーマに応じて適切な単語 (群) を選び, それを鍵として検索する。
キーワードの扱いは概ね以下のとおり。 (検索エンジンごとにデリケートに異なる。)
大文字/小文字, 全角文字/半角文字, 漢字/かな:
区別せず, どれでもマッチするのが主流になってきたようだ。
「区別しようとするとできる」というオプションが本当は望ましい。
単語の完全一致/部分一致: どちらかを指定できることあり。
特に英文では, 語尾変化による違いを吸収するために部分一致を使うことが多い。
複合語 (フレーズ) の完全一致/分割一致: 分割一致でもよいことが多い。
同義語・類義語:
対応していないことが多い。ユーザが指定する必要あり。
最近は対応する方向に発展している。
AND検索 (絞り込み検索): 複数の単語をすべて含むページのみを検索する。
OR 検索: 複数の単語のうち少なくとも一つを含むぺージを検索する。ユーザ指定。
キーワード検索の指定のしかたの例:
文献検索 書誌情報
(情報 OR 文献 OR 資料) AND (収集 OR 検索
OR 調査)
検索エンジン AND (ロボット型 OR ソフトウェアロボット
OR 自動収集)
現在では, 空白で区切ったものは AND と解釈することが多い。
注意: 現在の検索エンジンは, 非常に「融通がきき」, 使いやすくなってきている。
それは,
上記のようなデリケートな技術が作り込まれてきたからであって,
情報学部の学生には,
「そのような技術を理解し, 将来はそれらを開発できる」
ことが求められている。
4.3 検索エンジンの特徴と性能の比較例
検索エンジンの技術と実情を継続的にウォッチしている専門サイトがある。
searchdesk (浅井勇夫氏)
http://www.searchdesk.com/
浅井氏のつぎのレポートが参考になる。
「第3世代Web検索エンジンについて」, 浅井勇夫,
(2001. 7. 5)
http://www.searchdesk.com/view/vptb705.htm
「検索結果をもとにした日本語サーチエンジンの評価」,
浅井勇夫, (2001. 5. 7)
http://www.searchdesk.com/view/vptb507.htm
中川も, 日本および世界の検索エンジンについて, 評価例を報告した。
「TRIZ」 という1990年代後半から注目されるようになった専門用語を対象。
この分野は新興の研究分野であり, 当初からインタネットが重要な役割を果たした。
中川は, この分野の専門家として, 主要サイトの重要度についての判断を持っており,
また, 検索されたページの重要度を個別に判断した。
日本語検索エンジンについての検索実験と評価結果を以下に発表した。
「日本のTRIZリンク集(B)
自動検索100ぺージグループ: リンク集作成ノート」
中川 徹, 『TRIZホームページ』, (2001. 8.23)
http://www.osaka-gu.ac.jp/php/nakagawa/TRIZ/jlinksref/Japan100TRIZLinks.html
別途作成した手作りのリンク集が,
専門家としての重要度の判断を示している。
「日本のTRIZ
リンク集(A) 日本のTRIZ関連サイト・関連ぺージ集」
中川 徹, 『TRIZホームページ』, (2001. 8.23)
http://www.osaka-gu.ac.jp/php/nakagawa/TRIZ/jlinksref/JapanTRIZLinks.html
5. インタネットによる情報収集のためのリンク集
別紙に, 参考になると思われるサイトを集めたリンク集を示す。
このリンク集は体系的でも網羅的でもないが,
本講義に関連して有用と思われる。
簡単な説明もつけたので,
利用されたい。
==> 講義「科学情報方法論」のためのリンク集 (2001.10.25 中川 徹)
このリンク集は, 本学の教育支援システム「Caddie」にも登録しています。
このファイルを使って (参考にして) 自分のリンク集を作るとよいでしょう。
[注: Netscape Composerを用いて, ホームページを作成し, リンクを張る方法を簡単にデモした。]
「Caddie」の使い方は別紙の使用の手引きを参照のこと。
本講義「科学情報方法論」は公開扱いです。(履修していない人も読めます)
なお, 1年次前期の「情報科学序説」の講義のページも公開扱いです。
ここには,
1年生を含めて情報学部の全員の人に見てほしいものを掲載します。
また, 学生諸君もこの「ディスカッション」のページに投稿できます。
[注:
この Caddie システムは, 大阪学院大学の学内でのみ参照できるものです。]
[注: この回の講義は一部の学生にはやさしすぎたようだが,
一部の学生には好評であった。]
本連載のトップ | 前回講義 | 本ページの先頭 | 1. はじめに | 2. WWWのしくみ | 3. リンク集による情報収集 | 4. 検索エンジンによる情報収集 | 5. リンク集 | 別紙リンク集 | 次回講義(5) |
総合目次 | 新着情報 | TRIZ紹介 | 参考文献・関連文献 | リンク集 | ニュース・活動 | ソフトツール | 論文・技術報告集 | フォーラム | Generla Index |
ホームページ | 新着情報 | TRIZ紹介 | 参考文献・関連文献 | リンク集 | ニュース・活動 | ソフトツール | 論文・技術報告集 | フォーラム | Home Page |
最終更新日 : 2002. 7.15
連絡先: 中川 徹 nakagawa@utc.osaka-gu.ac.jp