効率的に株の情報集められないかなーと思って調べていたらpandasでデータをゲットする方法があるらしいので試してみた。
pd.read_htmlという組み込み関数の()内にurlを入れると、当該urlにあるtableタグのオブジェクトを取ってきてDataFrame型にして格納してくれるというものだ。
下記の通りデータ(例としてYahoo!ファイナンスの株価時系列)が取れるのを確認できた。
しかし、DataFrame型じゃないデータをとってこれないという致命的欠陥があり、表以外のものを指定して拾ってくるというのができない。ちょっと中途半端な機能ではなかろうか。
欲しい情報は時系列データじゃなくて財務指標、株価指標のあたりなんだよなあ。しかもread_htmlで拾ってこれないというね。哀しみ。
やはりBeautifulSoup等のモジュールを見るしかないようだ。