flint>flint blog
ページ: « 0 1 2 3 4 5 6 7 8 9 10 11 12 13 »

スパム退治

アクセス制御編集ページ

現在、当ブログのアクセス数は一日に20~50件程度。 閑古鳥が鳴きまくっている状況ですが、それでも記事や時間帯ごとの統計を取ってみると、色々な傾向が読み取れて面白いものです。

ところで、そうした統計を取る際に大きな障害となるのが、人間の読者以外の存在、即ち、ボットと呼ばれるプログラムによるアクセス。 Google や Yahoo を初めとする検索エンジンによる情報収集のためのクローラや、宣伝コメントを書き込むためのスパムボット、セキュリティホールを突いてパスワードなどの情報を盗み出そうとするクラッキングなど、その目的や種類は多岐に渡りますが、いずれにしてもそれらはアクセス解析の主要な目的である「(人間の) 訪問者の閲覧傾向の把握」にとっては、その精度を低下させるノイズでしかありません。 そのため、殆どのウェブサービスやCMSはこれらを取り除くための機構を備えています。

そんなわけで今回は、当サイトのウェブシステムが備えているノイズ除去のための仕掛けについて紹介してみたいと思います。

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

EM批判記事のその後

アクセス数 [2013年10月] (日別プロット)

今月9日に公開した記事「福島を蝕むEM菌」への反響が思いの外大きく、普段のそれと比較して桁外れに多いアクセスが記録 (右図参照) されました。 当ブログの記事がこれほど読まれたのは、昨年の高木浩光氏による「ですよねー」ツイートによる大量アクセス祭以来のこと。 アクセスを分析してみたところ、Twitter の短縮URL経由のものが多かった様子。

また、はてなブックマークの数も10に達し 、そのうちのいくつかではコメントも付けて頂きました。

はてなブックマーク - flint blog: 福島を蝕むEM菌
http://b.hatena.ne.jp/entry/www.flint.jp/blog/?entry=89

当方は Facebook や Twitter などのSNSを利用しないことをポリシーとしているため、いくら気合いを入れて記事を書いても、こうして第三者によって紹介でもされない限り、大勢の読者を得ることは期待できません。 そんなわけで、あのひたすらに長い文章に目を通して頂いた方、それを紹介してくださった方には、ただただ感謝するばかりです。

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

福島を蝕むEM菌

以前「震災の「呪い」としてのEM菌」というタイトルで、除染 (放射能除去) を口実に被災地で販売促進運動を展開するEMの疑似科学あるいはオカルト性について批判する記事を公開してから、およそ一年が経ちました。 その後もEMの活動について継続的にウォッチを続けてきましたが、その勢いは衰えるどころか、被災地の自治体や市民団体に取り入ることでますます拡大しており、事態はいよいよ深刻なものになりつつあります。

大袈裟な言い方で口幅ったいのですが、大学進学からの11年余りを過ごした福島 (福島市ではなく会津若松ですが) は、私にとって第二の故郷。 その福島が震災で蒙った痛手から立ち直ろうとしている今、そこにつけ込んで県民の財産と安全を詐取しようとするEM、そして、それを考えなしに受け入れることで復興の足を引っ張る各種団体を黙って見過ごすわけにはいかず、これらを批判する記事を再度書くことにしました。 この記事を読まれた方においては、もしご自分の周囲にEMの気配を感じたら、「まぁいいか」とスルーせず、できる範囲で構わないので、それらの活動に歯止めをかけるよう働きかけて頂きたいと強く願います。

追記 [2013/10/27]

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

自然言語の呪縛

コンピュータ関連の仕事をしている人ならば誰でも、多少の差はあれ、普段の会話に使っている言葉 (いわゆる 自然言語) とは異なるコンピュータ言語と呼ばれるものを使っています。 次のようなものがそれに該当するでしょう:

これらの言語は、対人の会話や叙述をするためのものではないため、それが表す内容や想定される受け手 (コンピュータプログラム) に応じてより適切な、自然言語のそれとは異なる記法・文法を備えています。 とはいえ、コンピュータ言語にはマン=マシンインターフェイスとしての側面もあり、人間にとってもある程度は理解しやすいものであることが求められるため、そこには自然言語 (大抵は英語) をベースにした語彙や構文が用いられており、完全にコンピュータのために設計された言語とはなっていません。

その最も顕著な例であるSQLでは、テーブル customer から、名が "Henry" である列を探し出すためのクエリは以下のように記述されます。

SELECT * FROM "customer" WHERE "firstname" = 'Henry' ORDER BY "lastname", "id";

このステートメントは英語の命令文と多くの共通点を持っているため、英語が読める人であれば、その動作の詳細は分からなくても、そのおおまかな意味を掴むことは難しくないはず。 その一方で、そこには「自然言語に似せたこと」に由来する冗長さが包含されてしまうこともしばしば。 例えば、列を取り出す順序を指定する "ORDER BY" 句に着目すると、SQLではキーワード "ORDER" は (私の知る限りでは) 必ずその後にキーワード "BY" を伴うため、記述される情報の量に全く寄与しない制約が生まれてしまっています。 (同様の問題は "PRIMARY KEY" や "NOT NULL" でも見られますね。)

このような言語仕様に組み込まれてしまっている冗長さ・不合理さは、そう簡単に解消できるものではありませんが、個人 (あるいは企業) が用いる変数名や関数名の規則であれば、ちょっとした発想の切り替えでより簡潔で合理的なものにできるかもしれません。

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

情報産業の発展とモラル

今日も暑いんよ。

今年は例年にも増して暑かった甲府市。 東北生まれ東北育ちの人間である私は、昼は融解して液体となり、夜になれば多少は冷えて凝固するかと思いきや気温が下がらずやっぱり融けたまま、といった状態でこの夏を過ごしておりました。 さすがに九月に入ってからは幾分日差しもやわらぎ、朝晩は涼しさを感じるようになってきましたが、皆様におかれましては如何お過ごしでしたでしょうか。

さて、そんな暑さの中、次のようなニュースが報じられました。 この件は最終的にデータ販売の取り止めに至ったので、覚えていらっしゃる方も多いかと思います。

日立製作所は27日、JR東日本のIC乗車券「Suica (スイカ)」の履歴情報などを利用したマーケティング情報提供サービスを7月1日から開始すると発表した。 発行枚数4298万枚に及ぶスイカの情報を「ビッグデータ」として分析し、駅周辺に展開する事業者に提供する。

新たなサービスは、駅利用者の性別年代構成のほか、利用目的や滞在時間、乗降時間帯などを収集し、それぞれのデータに分析を加えた月1回のリポートを販売する。

JR東日本が、IC乗車券 Suica (スイカ) の利用者に事前説明しないまま、乗車履歴などのデータを日立製作所に販売していたことが18日、JR東への取材で分かった。 「名前や住所を匿名化しており、個人が特定される恐れがないため」としている。

個人情報保護法は、第三者に個人情報を提供する場合、利用者の同意を義務付けている。 JR東は「個人情報に当たらない」との見解だが、国土交通省は「違法でなくても、利用者が不安に思う可能性がある。JR東の今後の対応などを確認したい」としており、プライバシー保護の面で論議を呼びそうだ。

私はこれまで幾度か、情報サービスを提供する企業, それを監督すべき政府や自治体, さらには消費者の個人情報/プライバシー保護に対する認識が、非常に杜撰で危うい状態にあることを、具体例の紹介と共に述べてきました。

しかしながら、前傾のJR東日本の件を見ても分かるように、個人情報/プライバシー保護への意識は、向上するどころか、より悪い方向へとシフトしているように観察されます。 そんな状況の中で、日経のニュースサイト (IT Pro) にこうした傾向に釘を刺す論考が掲載されました。 この記事を読むには会員登録が必要ですが、できるだけ多くの人に目を通して欲しいので、その内容を要点を引きつつ解説してみたいと思います。 (そして、この解説を読んで気になった方は、登録して全文を読んでみてください。)

カウントダウン!個人情報保護法改正 - 個人情報の保護レベルを世界水準に合わせよう:ITpro
http://itpro.nikkeibp.co.jp/article/COLUMN/20130827/500450/
>> 続きを読む
成田
このエントリーをはてなブックマークに追加

相関係数のインクリメンタル計算

先月と今月は、ソフトウェア開発 (この記事で触れた案件の続き) のお仕事を在宅で。 今回作成したプログラムは、最初に先方から説明を受けた時点では処理の内容も単純で、それほど難度の高くないものだと思っていましたが、実は意外なところに罠が潜んでいました。

サンプル (標本) が逐次追加されていく集合の間の相関係数を計算し、その結果をリアルタイム表示する、というのが本件で開発するソフトウェアに要求される主要な機能だったのですが、これがなかなかのクセモノ。 扱うサンプルの数は数千~数万個のオーダなのですが、その集合に対して、リアルタイムで4,096通りの組み合わせで相関係数を算出する必要があります。 処理対象となるサンプルの数が増えるにつれ、計算処理に要する時間は急速に増加。 表示の更新間隔はどんどん間延びしていき、傍から見ているぶんには、フリーズしている状態と区別が付きません。 (一応、計算処理はスレッド化しているので、任意のタイミングで中断させることはできますが、根本的な解決にはなっていない。)

そこで、前回の反復 (イテレーション) における計算結果を記憶しておき、これに次の反復で新しく入ってきたサンプル値による影響を加えていくことで計算量を削減する、という手法を導入することにしました。 そのために、ノートに数ページに渡って数式の変形過程を書き連ねてるハメになった (主に計算ミスが多かったため) わけですが、その苦労の甲斐あって、色々と応用が利きそうなアルゴリズムを習得することができたので、記事にまとめておこうと思った次第です。

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

The 2nd Anniversary

甲府へやってきてから二年が経過しました。 仕事の状態は当時とあまり変わっていないようにも見えますが、実は細かい状況の変化が色々と積み重なっています。

正式に決まってから改めてお知らせしますが、今月からとある組合に加入することに。 実はこの組合からは、以前からお誘いを頂いていたのですが、思うところがあって今まで保留とさせて頂いていました。 それは、例えば組合の制度に問題があるといった理由からではなく、私自身の仕事に対する姿勢を維持するためです。

独立当初、仕事を得るために私が採ったのは、県内のIT関連企業をピックアップし、ここはと思うところを手当たり次第に訪問するという手法。 これは非常に効率の悪いやり方に思えるかも知れませんが、個々の企業の雰囲気をできるだけ正確に掴むには、実際に現地を訪れるのが一番です。 また、これまでずっと東北地方で暮らしてきた私にとっては、県内を東へ西へと (自動車でですが) 走り回ることは、山梨県の地理というか土地勘を掴む上でも有意義なものでした。

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

「管理」は楽じゃない

前にいた職場には、年に数回ほど、上司が長期の出張で不在にする時期がありました。 しかし、その間にも、彼の判断・決裁を必要とする事案が発生するため、就業時間のおわりに、全社員 (自分を含めて5, 6名) のその日の業務内容や伝言をまとめて、上司にメールで報告することが必要となります。 午後五時くらいになったら、各人にIMを通じてその日の作業内容の簡単な説明 (「○○社ファイルサーバのディスク故障対応」等) を求め、その内容を規定の書式に収まるように編集する、というのがおおまかな業の流れ。

ところが、納期が近いなどの理由で忙しい人はしばしば、メッセージを送っても気付かなかったり、返信している余裕がないといった状態に陥ります。 そのような場合には、彼 (または彼女) の席まで出向いて直接聞き取りをしたり、同じプロジェクトに携わっている同僚に、「○○さんは今何をしてるの?」と尋ねることで、おおよそのステータスを把握するようにしていました。

この手法の狙いは、情報を確実に、高い精度で引き出すことにあります。 忙しい相手から情報を得るポイントは、回答に要する手間をできるだけ低く抑えること。 エディタを立ち上げて文章をタイプするよりは、口頭で一言「○○システムの自動監視の仕掛けを作ってた」と答える方が負担が小さいであろうことは想像に難くありません。 更に詳細な情報が必要になった場合でも、追加のメッセージを受け取って、それに返信するよりも、口頭でのインタラクティブなやりとりを選択する方が時間と労力の節約にもなるでしょう。 そうなれば、文章に書き起こすのが面倒な瑣末な事案についても、「あ、そう言えば...」といったカジュアルな振りで情報が提供されることも期待できます。

現場の状況を上に報告するという「管理」の一端を担う立場からすれば、情報収集は最も重要な仕事。 そこで得られた情報の質と量は、直ちに「自分の仕事」の質と量に直結します。 であれば、これを高めるための努力を払うことは、何にも増して優先すべき事案と言えるのではないでしょうか。

>> 続きを読む
成田
このエントリーをはてなブックマークに追加

会津へ行ってきました

先の土日は、私の大学時代の指導教官 (Prof. Nikolay N. Mirenkov) が今年度を以って退官されるということで、そのお祝い (兼研究室の同窓会) のため、芦ノ牧温泉へ。 70歳を迎えてもまだまだ元気な先生に会ったり、研究室の同僚の近況について聞いたりしているうちに、昔が懐かしくなり。 そこで、会津の山中をうろつき回っていた頃の記録を引っ張り出して、何本かアップロードし直してみました。

会津は現在、NHKの大河ドラマ『八重の桜』で盛り上がっており、市街地・観光地を問わず綾瀬はるか (のポスタ) に占領されていますが、そうしたところから少し離れて、山中へと踏み入れてみるのも一興かと存じます。 これからは気温も上がり、木々の緑も鮮やかさを増していく時期ですので、皆様もぜひ会津へと足を運んでみてください。

成田
このエントリーをはてなブックマークに追加

オシロスコープと確定申告

1月の下旬から、常駐ではなく在宅で仕事をしています。 自宅で働けるというのは、何かとメリットがあるもの。 時間のやりくりが楽ですし、何より最高にリラックスできる環境なので、体力の消耗が少なくて済むのがありがたいですね。

さて、現在のお仕事はというと、とある国立の研究機関から依頼された情報セキュリティ関連ソフトウェアの開発中。 右の写真にもあるように、部屋の一角が機材に占拠されてしまっています。 ハードウェア制御のため、これまで使ったことのないライブラリを利用してプログラムを組む必要があり、なかなかに挑戦的・刺激的なエンジニアリング生活を送っております。

ところで、確定申告の締め切りがそろそろやってくる頃。 今年は昨年の反省を活かし、自作の簿記システムで、スマートに (?) 手続きが進行中です。 このシステムも、ゆくゆくは製品にできればと思ってはいるものの、世の中には既に機能豊富な会計ソフトが数多く出回っているため、新規参入の障壁の高さは並大抵のものではないでしょう。 もし、現在お使いのソフトに不満を感じている方がいらっしゃいましたら、開発の参考にさせて頂きますので、当方だけにこっそりと教えてください。

成田 (今のところ、カフェや公園で仕事をする必要性は感じておりません。)
このエントリーをはてなブックマークに追加
ページ: « 0 1 2 3 4 5 6 7 8 9 10 11 12 13 »