あなたのツイートでのクチグセがわかる「ツイクセ」をリリースしました

2011-02-14
このエントリーをはてなブックマークに追加

「あなたのツイートでのクチグセがわかる」というキャッチフレーズでツイクセというサービスを作ってみました。

そういや個人でWebサービスをリリースすんのってはじめてです。iPhoneアプリなら4本リリースさせてもらってこれでも数千人に遊んでもらえたのですが、Webサービスはそれとは違う緊張ですね。

Twitterでのツイートを読み込んで分かち書き(形態素解析)し、どんなキーワードが多かったのかをグラフで表示します。90日以内、450ツイート以下を制限にしています。もっと多いほうがいいか、もっと少なくていいか、すごく悩んだのですが、まずはこのボリュームで。

形態素解析にはMeCabを使わせていただきました。すばらしいソフトウェアを開発、公開してくださった工藤さんには感謝です。

まだまだバージョン1で、ここから時系列でのグラフ化、辞書の拡充による精度の向上、サービス全体でのクチグセの傾向とかもグラフ化できていければなぁと。

ひとりでも多くの方に触っていただければ、開発屋として最高の喜びです。

Pythonで再帰的に下層ディレクトリまでまとめて圧縮する方法

2011-02-10
このエントリーをはてなブックマークに追加

別に圧縮しないでtarするだけでもいいんですけど、せっかくなので圧縮までしてしまいます。

  • ディレクトリを再帰的に
  • 圧縮

の2点がポイントですね。

#!/usr/bin/python
# -*- coding: utf-8 -*-

import os
import tarfile

def main():

    _tar = tarfile.open('圧縮したファイルの保存先ファイル名.tar.gz','w:gz')
    for _root, _dirs, _files in os.walk("圧縮する対象のディレクトリ名"):
        for _file in _files:
            _tar.add(os.path.join(_root, _file))

    _tar.close()

if __name__ == '__main__':
    main()

「w:gz」は新規でgz圧縮のファイル作るぜ!ってことです。tarするだけなら「w」でいいです。bz2も使えます。で、tar.gzに圧縮しつつ固めていくにはファイルをaddしていくだけです。最後にcloseして終了。とっても簡単ですね。

ファイルを再帰的に、っていうのは「os.walk」で処理してます。サンプルソースの「_dirs、_files」あたりをprintしていただければわかると思いますが、ディレクトリやファイルのリストを返してくれます。それをループして再帰的に取得しています。

ディレクトリの再帰処理って意外と面倒なのですが、これで一気にできます。また、ファイルの圧縮もログの保存とかでよく使うので簡単だとありがたいです。

WindowsXP、LinuxそれぞれのPython2.5で動作確認しました。

Tags: