ChangeLog (blancoWebCrawler - blancoWebCrawler-0.0.2)2007.10.24 (0.0.2)
・jarファイルに、BlancoHttpMethodSetting_ja.properties を含まないように変更しました。
TODO リクエストヘッダ、レスポンスヘッダのバリューオブジェクトを作成すること。
TODO いがぴょん日記作成ルーチンの一部機能を移植すること
TODO リクエストヘッダの内容をサーバ側で受けて内容の妥当性チェックする試験を実施すること。
TODO HeadMethod を実装した headメソッドを実現すること。
TODO The Web Robots Pages
http://www.robotstxt.org/wc/robots.html
TODO A Standard for Robot Exclusion
http://www.robotstxt.org/wc/norobots.html
2007.10.15 (0.0.1)
新規作成。
TODO (HttpMethod) SSL対応
TODO (HttpMethod) ユーザエージェント設定(リクエストヘッダ)への対応。
TODO (HttpMethod) レスポンスヘッダ取得機能
TODO (HttpMethod) ベーシック認証などへの対応可否検討。
TODO (HtmlParser) 与えられた HTMLファイルをパースする。
TODO (HtmlParser) HTMLメタ解析機能
TODO (HtmlParser) リンク解析機能: リンクのマップ(?)を取得する (単にリンク先のアドレスを抽出するでも可。ポイントは ローカルアドレスの解決方法。URIでフルアドレスのほうが良いかも?)。
TODO (HtmlParser) description, keyword, タイトルなどの取得。
TODO (HtmlParser) 強調部分などのHTML構造から単語を類推する。
TODO (HtmlParser) テーブル構造から単語を類推する (?)
TODO (Web巡回) ロボット拒否 (NO ROBOTS)への対応。仕様の調査。
TODO (Web巡回) クロールの際にクエリに対応するのは危険かどうか検討
「?」の場所で切断するもの妥当かも知れない。
ただし、基本はパーマネントリンクのみ対応が妥当かと考える。
TODO (Web巡回) クッキー対応についてもリスクを検討。
TODO (Web巡回) クロールのネストの回数上限に関する機能。
TODO (Web巡回) 静的検索の機能の検討。「いがぐり」(?)
TODO (Web巡回) リンク先存在チェック機能。
TODO (Web解析?) リンク主体のページはインディックスページ。
Show files in this release
|