ネットから特定の情報だけ抜き出してきて、CSVとかにまとめてくれるソフトが作りたい…
そんな夢をかなえるために、本ブログではしばらく「クロール(巡回)プログラム」について記していきます。
前提条件
私がクローラを作る上で譲れないのが以下です。これを満たすクローラ作成方法を考えます。
- 出先でもクローラを開始したり、状態を監視できること
- 自宅にサーバ立てるのは嫌 (電気代とスペース的に)
- 難しい構文は嫌
- ネットにたくさん情報ある
構文が簡単で、ネットにある情報が多いプログラミングを選んでおいた方が、後々絶対楽なので特に重要です。
どのプログラミング言語を選ぶべき?
皆目見当がつきませんので、Googleさんで色々調べてみました。こちらのサイトを参考にさせていただきました。https://eng-entrance.com/web_development_language
下記がおすすめ言語になる。
クライアントサイド:HTML・CSS・JavaScript
サーバサイド:Java・PHP・Python
https://eng-entrance.com/web_development_language
今はサーバサイドの話ですので、Java, Python, PHPいずれかになりますね。Google Trendsでこれらの比較をしてみると、Pythonが一番人気、次いでJava, PHPとなるようです。
書きやすいのは、PHP、骨太なのがJava等々意見がありますが、今後の伸びしろを考えてPythonを選択します。


日本では、PHPの検索ボリュームもぼちぼちありますが、アメリカでは、PHPはほとんど調べられていないですね。このことからもPHPは廃れ行く運命なのかもしれません。(とはいいつつ、wordpressはPHPベースらしいので、まだまだ現役とは思いますが)
Pythonで効率よく開発するためには?=フレームワーク
Web開発には、フレームワークと呼ばれる機能を一体化した拡張ソフトウェアを取り入れるようです。
Pythonでよく使われるフレームワークはDjango(ジャンゴ)であるため、これを使っていきます。Djangoは、Instagram, Pinterestなどにも使われているようです。
まとめ
今回は、クローラを作成するにあたって、
- 求めていること=クラウド。ローカルNG
- プログラミング言語は何を使うか=python + Django
を決めました。次回はさくらVPS (Virtual Private Server)に Djangoをインストールしていきます。
コメント