Pythonでバイト配列を16進文字列に変換してまた元のバイト配列に戻す
_v = b’hello world.’ _v_hex = _v.hex() print(_v_hex) _v_bytes = bytes.fromhex(_v_hex) print(_v_bytes) 出力 68656 … 続きを読む
_v = b’hello world.’ _v_hex = _v.hex() print(_v_hex) _v_bytes = bytes.fromhex(_v_hex) print(_v_bytes) 出力 68656 … 続きを読む
先日書いた「PythonでたまったQueueをMulti Threadでさばいていく方法」のMulti Process版 ProcessPoolExecutorではプロセス間で通信できないようだったのでmultiproc … 続きを読む
Queueにはいったジョブを指定したThread数で順番にさばいていきたいよ、っていうときに使います あんまり大量にQueueにいれるとメモリからあふれて落ちるんだろうな import threading import … 続きを読む
全Tweetの1%と言われるPublic streamsのsampleを受信してみます。 OAuthやらStreamやら、どう実装するかなーと調べてみるとRequests: 人間のためのHTTP があれば十分なことがわか … 続きを読む
久々に新しくec2に私用でインスタンスたてたのでこれまでずっとAmazon Linux使ってたけどCentOS7にしてみた。ついでに先日リリースされたPython3.6.0をインストールしてみました。 cd /usr/l … 続きを読む
PythonでジョブキューするといえばやっぱりCeleryがスタンダードなんだろうか。RQというシンプルなジョブキューライブラリもあるんですけど、今回はCeleryを動かしてみる。 インストールは簡単。 pip inst … 続きを読む
Python3っていうか、3.3以降です。 from concurrent.futures import ProcessPoolExecutor import time def work(job): time.sleep … 続きを読む
ApachetとかNginxのログは圧縮して保存してケースが多いんですけど、それを読むときにいちいち解凍してるのもめんどくさいのでgzipのまんま読んでみるサンプル。 import gzip def main(): _f … 続きを読む
テキストの類似度って言っても出現する単語の回数比較でしか無いので文意解釈はしてないです。あくまで「出現した文字の一致度」ですね。 Word2Vecとかを使ってテキストを拡張してあげれば少しは文意を加味した類似度といえるの … 続きを読む
使ったのはMovieLens 100k。 「100,000 ratings from 1000 users on 1700 movies.」 だそうです。 from sklearn.cluster import KMea … 続きを読む