MolyのBlog

ヒヨコと化したサラリーマン 株式投資がメイントピックのはずだった

中途半端なpandasのスクレーピング機能

効率的に株の情報集められないかなーと思って調べていたらpandasでデータをゲットする方法があるらしいので試してみた。

 

pd.read_htmlという組み込み関数の()内にurlを入れると、当該urlにあるtableタグのオブジェクトを取ってきてDataFrame型にして格納してくれるというものだ。

下記の通りデータ(例としてYahoo!ファイナンスの株価時系列)が取れるのを確認できた。

三井住友FGの株価のスクレーピング

Yahoo!ファイナンスの三井住友

 

しかし、DataFrame型じゃないデータをとってこれないという致命的欠陥があり、表以外のものを指定して拾ってくるというのができない。ちょっと中途半端な機能ではなかろうか。

欲しい情報は時系列データじゃなくて財務指標、株価指標のあたりなんだよなあ。しかもread_htmlで拾ってこれないというね。哀しみ。

 

やはりBeautifulSoup等のモジュールを見るしかないようだ。