Facebook の特定の公開ページの投稿を全部クロールする(ひなビタ♪)

ひなビタ♪ Advent Calender 用の記事です。

やほやほっ,おるみんです!

みなさんは日向美ビタースイーツ♪というバンドをご存知でしょうか。
架空の地方の商店街,日向美商店街を舞台とする,町興しをテーマに少女たちが奮闘したり日常を過ごしたりするガールズバンドです。
最近はひなビタ♪の舞台のモデル,鳥取県倉吉市ともコラボを積極的にしているみたいですよ。

私の地元と近い場所だったり,鄙びた商店街という舞台だったり,自分自身の体験や実感と重なったりするところも多くて思わずハマっちゃいました☆[1]

さて,このひなビタ♪なのですが,音楽 CD や KONAMI のアーケードリズムゲームなどへの展開は勿論,小説や SNS での投稿といったマルチメディア展開をしています。
主なストーリーラインや彼女たちの音楽制作の様子といったものが Facebook を中心に展開される,非常に珍しいコンテンツと言えるでしょう。

しかし,Facebook でコンテンツを追うのは大変です。
試しにひなビタ♪のページを PC のブラウザで自動スクロールさせて古いポストを開かせようとしたところ,メモリ不足により半分くらいスクロールしたところでタブが死にました。
iPhone のアプリの場合,最後までスクロールできましたが,バッテリーが 30% くらい持ってかれた上に,スクロールをしていたのが家への帰路でしたが,数十分〜一時間くらいずっとスクロールする破目になりました。もうしません。

そこで,次のようなものを作りました。

orumin/hinabitter_read: ひなビタ♪の Facebook 投稿を快適に読みたい https://github.com/orumin/hinabitter_read
使い方は README.md の通りです。
アクセストークンを取得するコールバックは,
facebookのタイムラインへpythonから投稿する - Qiita 
をパク……参考にしました。

とりあえずこれで,2017/12/09 現在 2.4MB にもなるテキストファイルが取得できます。
今回は力足らずここまでなのですが,できれば近いうちに画像や投稿のシェアについてもちゃんと取得するようにした上で,整形して EPUB かなんかにして Kindle にメールで送り付けてシュッと読めるようにしたいですね!
2017/12/10 追記: なんか一応画像や投稿のシェアも取得した上で,青空文庫形式に整形してダンプするようにしました。でも AozoraEpub3 に喰わせると無の EPUB が出力されるので何がダメなのかちょっとわかりません……。素のテキストで青空文庫リーダーに読ませるぶんにはちゃんと表示されました。

[1]: 昔からわりと気になってたけど,ちゃんとコンテンツを追うようになりました。
以前ちくパを作ろうとした(作った)ことはあります

このブログの人気の投稿

GRUBとEFIの組み合わせで使うときのメモ またはEFI全般のtips

prnというフォルダが作れない理由がビル・ゲイツのあだ名というのはガセである件

BIOS+MBRなWindows7/8を、データコピーやデータ移動まったくなしで UEFI+GPTな環境に移行する