他人さんのこの辺りを読んで。
余り長くはないので、全文引用させていただきます。すみません。
余り長くはないので、全文引用させていただきます。すみません。
なんでもRSSで手に入ると思ったら大間違いだ - 他人の脳内RSSなどのフィードに記事の全文を含めなかったり、そもそもRSSを提供しなかったりすると、どこからともなくハンドアックスが飛んでくる昨今ではある。確かに、RSSリーダーを常用している人にとっては、その方が格段に便利だし都合がいいからだ。僕だって職場では使っている。
でも天邪鬼な僕は、そんなふうにRSSを要求する声に触れるたびに、「なんでもRSSで手に入ると思ったら大間違いだ!」と思ってしまう。なんというか、「RSS原理主義」とでも言うべき、ある種の驕りを感じてしまう。全てのウェブ参加者がRSSリーダー利用者の都合に合わせる必要なんてない。もっと言うと、ウェブサイトの作者には「RSSを提供しない権利」さえあるはずだ。たとえば、表現の一環として、RSSリーダーという便利な乗り物から降りて、ハイパーリンクをクリックすることを読者に要求するとか。あるいはもっと悪意に走って、「RSS厨」へのいやがらせとして、わざといかなるフィードも提供しないとか。
んーと、何を書こうと思ったか忘れかけているので、
自分で書いたブコメを読み返してみると、
と書いてますね。
整理するとこんな感じ。
RSSの配信を執筆者に要求することは傲慢だと思う。
でも、他人さんの言われていることは要するに『執筆者への要求』についてであって、
傲慢と「RSS厨」との関連は薄いんじゃないかな。
まぁ「RSS厨」がどんな人間かという定義によるけれども、
「RSS厨」=「RSS原理主義」だとしてね。
僕は自分で自分は『RSS依存症』だなぁと思う。
定期的にチェックするページについてはRSSが配信されていないと、
チェック自体が面倒だなと思ってしまうし、
配信されていたらいたで、全文配信してもらってさくさく読んでいきたいとか思うこともある。
普通のブログはそうでもないけど、特に芸能人ブログとかリファラで画像を表示できないRSSの場合とか。
でもそれを要求することはないなーと。
ブログならいざ知らず、普通のサイトでRSS配信するシステムもなく、
それを実行しようと思ったら大分面倒だってのは分かるし、
全文配信するかどうかについても、サイトへの誘導とか著作権的にどうかとか、
考えるポイントはあるはずなので。
でもって、僕には欲しい情報をRSSにまとめるくらいの技術はあるので。
エネルギー使ってわざわざ文句を言うくらいなら、自分でなんとかしちゃった方が早いし、
オールFLASHとか毎回HTML構造が変わるとかでない限りそれが不可能なサイトはほとんど無いし、
もし技術者のRSS厨ならstfuawscってことだろうな、と。
やー、非技術者の人は?と聞かれると正直困るんだけども(苦笑)、
少なくとも僕自身と同程度ないしはそれ以上の多くの技術者に関して言えば、
RSS依存ってのは、その辺まで行くんじゃないかって言うね。
で、その『RSS依存症』と「RSS原理主義」とを分けているのは何だろうな?と思ったら、
まぁ要するに相手の領域に踏み込んで要求するかどうか、で。
モンスターペアレントとかと同じようなジャンルの話。
だから、RSS好き好き→アホとかじゃないわけだし、
RSSで何でも手にはいると思っても別に間違いじゃなくて、
それを自分勝手な都合で要求することが間違いだよねって言う。
まぁそういうわけで、今日も自分が書いたコードが動いてるか心配なわけですが、
それはそれとして、スクレイピングそのものを拒絶する手段ってなんかあるんだろうかとか思った。
基本的に普通のアクセスと変わらないから、難しいんだろうかとかも思うけど。
UserAgentとかもヘッダーで騙れば良いだけだし。
むしろidとかクラスとか何も付けずに平でだらだら書くようなHTMLソースを採用することで、
スクレイピングが難しいサイトを作るのは出来るか。
迷惑きわまりないし、技術者としてそれ美しいと思ってるのかとも思うけど、
それこそまぁ他人の仕事なわけでしゃーないなぁ。
自分でスクレイピングしたいと思ったサイトがそんなんで、
正規表現で泣いたっていうのもあったな、そういえば。
今は殆どのサイトが比較的綺麗なHTMLで書かれてるから楽だけどね。
自分で書いたブコメを読み返してみると、
うむ。権利とか言い出すと意味わからんけど、とりあえず傲慢だな。要望を出すのは自由でも、要望を受け入れることを要求するのは傲慢だ。 / もしそれが技術者なら、自分で何とかせいと思ったり。
と書いてますね。
整理するとこんな感じ。
- 執筆者にRSSの配信(またはRSSでの全文配信)を強く要求する、配信していないことを非難するのはRSSリーダーを愛用する人間の傲慢である。
- 欲しいなぁと思うのはもちろん自由だけど、その要求が受け入れられないことについて批判するのは筋違い。
- 技術者なら、欲しければ自分で作ればいい。
- 僕はPHP使って不細工な方法でやってるけどわざわざそんなことしなくても、Perlがすこしわかるなら、PlaggerとScraperなどのモジュール組み合わせて実現できるはず。
- 自分が出来ることをやらずに人に押しつけるのは、技術者として怠惰だと思う。やれて、やりたいなら、やるでしょ。
- (おまけ)権利って言い出すとなんか諸権利オールスター出演になって、大概はどっちの権利が大事か問題に発展するのであんまりやりたくない。
RSSの配信を執筆者に要求することは傲慢だと思う。
でも、他人さんの言われていることは要するに『執筆者への要求』についてであって、
傲慢と「RSS厨」との関連は薄いんじゃないかな。
まぁ「RSS厨」がどんな人間かという定義によるけれども、
「RSS厨」=「RSS原理主義」だとしてね。
僕は自分で自分は『RSS依存症』だなぁと思う。
定期的にチェックするページについてはRSSが配信されていないと、
チェック自体が面倒だなと思ってしまうし、
配信されていたらいたで、全文配信してもらってさくさく読んでいきたいとか思うこともある。
普通のブログはそうでもないけど、特に芸能人ブログとかリファラで画像を表示できないRSSの場合とか。
でもそれを要求することはないなーと。
ブログならいざ知らず、普通のサイトでRSS配信するシステムもなく、
それを実行しようと思ったら大分面倒だってのは分かるし、
全文配信するかどうかについても、サイトへの誘導とか著作権的にどうかとか、
考えるポイントはあるはずなので。
でもって、僕には欲しい情報をRSSにまとめるくらいの技術はあるので。
エネルギー使ってわざわざ文句を言うくらいなら、自分でなんとかしちゃった方が早いし、
オールFLASHとか毎回HTML構造が変わるとかでない限りそれが不可能なサイトはほとんど無いし、
もし技術者のRSS厨ならstfuawscってことだろうな、と。
やー、非技術者の人は?と聞かれると正直困るんだけども(苦笑)、
少なくとも僕自身と同程度ないしはそれ以上の多くの技術者に関して言えば、
RSS依存ってのは、その辺まで行くんじゃないかって言うね。
で、その『RSS依存症』と「RSS原理主義」とを分けているのは何だろうな?と思ったら、
まぁ要するに相手の領域に踏み込んで要求するかどうか、で。
モンスターペアレントとかと同じようなジャンルの話。
だから、RSS好き好き→アホとかじゃないわけだし、
RSSで何でも手にはいると思っても別に間違いじゃなくて、
それを自分勝手な都合で要求することが間違いだよねって言う。
まぁそういうわけで、今日も自分が書いたコードが動いてるか心配なわけですが、
それはそれとして、スクレイピングそのものを拒絶する手段ってなんかあるんだろうかとか思った。
基本的に普通のアクセスと変わらないから、難しいんだろうかとかも思うけど。
UserAgentとかもヘッダーで騙れば良いだけだし。
むしろidとかクラスとか何も付けずに平でだらだら書くようなHTMLソースを採用することで、
スクレイピングが難しいサイトを作るのは出来るか。
迷惑きわまりないし、技術者としてそれ美しいと思ってるのかとも思うけど、
それこそまぁ他人の仕事なわけでしゃーないなぁ。
自分でスクレイピングしたいと思ったサイトがそんなんで、
正規表現で泣いたっていうのもあったな、そういえば。
今は殆どのサイトが比較的綺麗なHTMLで書かれてるから楽だけどね。
September 14, 2008














