- 2008.07.04 Friday
- スクレイピングとWebAPI
- WebAPIをいろいろ作っている。
公開中なのが、カロリー計算、と、クイズAPI
野良APIだけど、今後、このドメインはずっと継続していくつもりなので、きちんとサービスは続けようと思っている。
こういうAPIがあったらなぁ、というのをメモしてみる。
誰か作ったら、教えてほしい。
・日付API(日付からその日の出来事を提供)
・名言API(「人生の名言」という感じでデータの提供)
・ミュージシャンAPI(ミュージシャンのデータと楽曲データ)
・スポーツ選手API(成績や所属チームなど)
・車API(車の品番を提供)
・偉人API(偉人のデータ)
・国名API(首都や、エリアなど)
・英単語API
こうしてみると、今まで、各Webサイトで個々が独自で集めていたデータだったりする。
これを、API化することで、いろんなサービスが、ドメインの垣根を越えて、相互活用が可能になる。
データを外部に出す、ということは、そのサイトからすれば、デメリットが大きい気がするが、
それ以上のメリットが与えられるはず。
多くのサイトが多数のデータを保持しているが、これを外部に公開してくれたら・・・と願わずにいられない。
ある程度の利用を無償とし、それ以上の利用であれば有料課金の体系も考えられる
また、サイトの宣伝にもなるし、提供するデータを一部にとどめれば、独自性の確保も可能となる。
(たとえば、カロリーAPIでは、よみがな、のデータは外部に出していない)
このまま、内部にデータを保持していても、スクレイピングという技術を使えば情報は、いくらでも抜き出されてしまう。
それならば、先にAPIとして公開した方が、潔いと思うのだ。
スクリレイピングの説明をすると長くなるので、こちらやこちらのサイトなどを参考にしてみてください。
スクレイピングされない方法として、上記のサイトでは、JavaScriptのdocument.writeを使う方法など書いているが、こんなのは言語道断である。スクリプトを利用していないユーザに情報を伝えられなければ本末転倒だからだ。
スクレイピングされる側からすれば、データを勝手に使うのは言語道断!ということになるのだろうが、じゃあ、googleの引用はどうなんだ?と聞いてみれば、答えに窮するだろう。挙句「googleは別だよ、検索エンジンだし…」となるのではなかろうか。
一方スクレイピングする側からすれば、googleの件を持ち出しても、Web上で公開されているということはこういうことなんだ!と思っていても、今ひとつ倫理観がひかっかったりする。それは、データ提供側の努力を無視することへの躊躇感であったりするだろう。
また、データ提供元のDOMの構造が変化したり、アクセス規制を受ける懸念は常に考えていかなくてはならない。
そのため取得したデータをデータベースにキャッシュとして保存することも考えられる。そうすると、データの権利はどこに帰属するのが垣根があやしくなってくる。
そう考えれば、データをもってる側は積極的にWebAPIとして公開することが求められるのではないだろうか。
それが、イニシャチブをとることにつながるし、利用者とも心地よい関係を築いていく事のできる唯一の方法だと思う。
まねきねこでは、カロリーAPIにしても、クイズAPIにしても、これらがどういう形で変化していくか楽しみにしている。
まぁ、野良APIである以上、なかなか利用者がいないのが残念なのだが、いいものができたら、是非教えてもらいたいと思っています。
関連サイト:この文章を書くにあたり、スクレイピングに関する下記のページを参考にさせていただきました。
よろしければ、下記ページもあわせてご覧ください。
http://blog.ne2ma2.com/archives/134
http://www.ark-web.jp/blog/archives/2007/04/_wwwmechanize.html
http://gihyo.jp/dev/serial/01/web20sec/0007
wikipediaの記事に対し、スクレイピング処理を行い、下記のページを作りました。ご覧ください。
wikipediaで問題集を
| 開発関連 | 17:54 | comments(0) | trackbacks(0) |