こんにちは。ザイマックスデジタルのR&D部門で開発しつつ、シンクタンクであるザイマックス総研も兼務している「ごんすけ」です。デジタルと総研は技術スタックが近く人的交流も盛んで、私も双方の領域をクロスオーバーしながら日々楽しくデータをハックしています。
......あ、両部署の熱量が100%ずつ乗っかった結果、いつものブログよりかなり長めのボリュームになってしまいました。最初に一言お詫びさせてください(笑)。19万件の現場データを生成AIで分析するプロセスが楽しすぎてオタク気質が爆発してしまったのですが、そのぶんデータサイエンスの「リアルな社会実装の面白さ」を凝縮しています!
さて、私たちザイマックスグループの本業は不動産マネジメントです。長年の実績から業界では「パイオニア」と呼ばれることもありますが(解説ページはこちら )、現場を守るスタッフ、オーナー様、そしてテナント(入居企業)の皆様がいて初めて成り立つ仕事であり、関係各所への感謝の念に堪えません。
そして、この「皆様と実直に積み重ねてきた歴史」があるからこそ、データサイエンスの視点から見ると、他では絶対に手に入らない宝の山のようなデータが蓄積されるエキサイティングな環境があるわけです。
今回は、この歴史の結晶である約19万件の修繕履歴(自由記述のテキストデータ)を、Gemini 2.5 FlashのAPIを使って構造化し、経済学手法である「ヘドニック回帰分析(重回帰分析)」と組み合わせることで、不動産市場の隠れたメカニズムを解き明かしたプロジェクトについて紹介します。
不動産マネジメントのパイオニアが持つ19万件という資産
今回の分析対象は、私たちが日々管理している膨大な「オフィスビル」のデータです。
オフィスビルの価値を維持するために、日々の修繕や更新投資は欠かせません。これまでの数値データだけをベースにした分析では、修繕金額や予算区分といった構造化データを用いて、修繕の質が成約賃料に与えるマクロな傾向を追っていました。
しかし、数字だけを眺めていても、市場(テナント)が本当に評価している具体的な現場の実態までは見えてきません。例えば、同じ50万円の修繕費であっても、それがオフィスの快適性を高める照明の改良なのか、あるいは突発的な排水管詰まりによるフロア内への漏水対応なのかによって、そこで働く人々が受ける主観的体験は180度異なります。
こうした関係を裏付ける背景や経緯は、管理システムに登録されている工事名、工事実施理由、申し送り事項などの定性的なテキストデータの中に眠っています。その数、実に190,739件。
この19万件という圧倒的なデータボリュームこそ、私たちがパイオニアとして泥臭く現場に向き合い、歩んできた歴史の証そのものです。データサイエンスやR&Dを志す人なら、これだけリアルな19万件の非構造化データが手元にあると聞いただけで、どれほど可能性に満ちているかワクワクしてもらえるのではないでしょうか。
Gemini 2.5 FlashのAPIで再現する熟練管理者の脳内
これら数十万件におよぶ自由記述のテキストを人間が手作業で精査し、データ分析の変数に落とし込むことは不可能です。そこで私たちは、Gemini 2.5 FlashのAPIを投入しました。このモデルを選んだのは、膨大なテキストを高速かつ高精度に処理できる圧倒的なコストパフォーマンスと、コンテキストの理解力が今回のタスクに最適だったからです。
本プロジェクトの核心は、単なるキーワードマッチングではなく、テキストに記載された文脈から保全の動機やテナントへの実害を多角的に判定することです。私たちは生成AIに対し、現場を知り尽くした熟練の管理責任者としての視点を与え、プロンプトをチューニングして、修繕履歴1件ごとに以下の5つの評価軸で分類・スコアリングを行いました。
- 保全区分:計画的な予防保全か、壊れてからの事後保全か、一刻を争う緊急対応か
- 対象部位:トラブルの主因となった具体的な設備
- 工事目的:マイナスをゼロにする原状回復か、ゼロをプラスにする機能向上か
- 二次被害の有無:確定したファクトベースの実害(階下への漏水、営業補償など)
- トラブルの深刻度:ビジネス環境に与えたダメージの総量を5段階でスコアリング
【生成AIによる修繕データの数値化プロセスの概念図】

生成AIの高度なコンテキスト理解能力により、例えば、事象としては洗面所の細い排水管を構成する備品の劣化(部品代は数百円)という極めて少額な工事であっても、テキスト中に「漏水し、階下のテナントの電子機器が水没・汚損」という記述があれば、最上位の深刻度(レベル4〜5)としてファクトベースで判定することが可能になりました。これにより、金額の大きさと現場の深刻度の乖離という、人間の死角になりやすい実態を切り分けたかったという主旨です。
生成AIによるノイズ除去で、市場の評価が鮮明化
こうして生成AIによって構造化されたデータを、物件の属性(築年数や最寄り駅からの距離、ビルの大きさなど、賃料を左右する他の要素)の影響をコントロールした上で、重回帰モデル(計量経済学的観点ではヘドニック回帰モデルともいいます)へと投入しました。
ここでデータサイエンティストとしてこだわったのが、電球の交換といった「日常的な軽微な修理(テナントのビジネスに影響のない日常ノイズ)」の徹底的な除外です。
ノイズをきれいに排した上で、物件ごとに「トラブルが起きる前に先回りして設備を良くする能動的な投資(計画保全)」の比率と、「壊れて実害が出てから慌てて直す受動的な対応(事後保全)」の比率を算出し、オフィスの賃料にどれくらいインパクトを与えているかを推計しました。
結果は、驚くほど鮮明でした。
予算区分と金額だけで分析していた当初(Vol.1)の結果に比べ、Gemini 2.5 Flashによる現場の生々しいテキスト解析データを投入したところ(Vol.2)、先回りして設備を良くする能動的な投資に対する市場のプラス評価(賃料プレミアムの係数)が、プラス0.04からプラス0.11へと、一気に約2.7倍に跳ね上がったのです。
一方で、トラブルが起きてから直す後手の対応に対する市場のマイナス評価(ペナルティ)も、マイナス0.15からマイナス0.17へとさらに拡大。
この結果、「先回りして計画的にケアされているビル」と、「トラブルのモグラ叩きに追われているビル」の間で生じる、市場の真の賃料格差は、当初の約19%から約28%へと大幅に拡大して可視化されることとなりました。同じような立地のビルでも、管理のやり方次第で実質3割近くも収益に差が出ると思うと、結構インパクト大きいですよね。
少し考えれば、テナントは、ビルオーナー側の「どういう予算で直したか」なんて事情には興味がないのは当然ですよね。そうではなく、自らの働く環境が「どれだけ快適か(プラスの影響)」、あるいは「水漏れや空調停止などの実害がないか(マイナスの影響)」という、目の前にある現場の実態そのものに直接対価を払っているわけです。生成AIを用いた構造化によって、データから市場のそんな生々しい「本音」を証明することができました。
【修繕投資の質に対する市場評価の鮮明化】

今後の展望:実務から、さらには学術も!?
実は今回のプロジェクト、これで終わりではありません。このデータドリブンなアプローチの有効性をより強固なものにするため、現在検証を重ねて分析モデルのブラッシュアップを行っています。
一過性のビジネスレポートにとどまらず、ここからさらに理論を練り上げて、将来的には「学術論文」としての発表も見据えます。実務の最前線で得られたカオスなビッグデータを、最先端のテクノロジーと経済学の理論でカチッと論理の型にハメていく。このダイナミズムを味わえるのは、総研とデジタルの双方に軸足があるザイマックスグループならではの面白さだと自負しています。
ちなみに、今回ご紹介した分析のベースとなった内容は、ザイマックス総研のトピックレポート「修繕の経済性」シリーズ(Vol.1〜Vol.3)として一般に公開されています。不動産事業に関わる人々を唸らせ、実務の教科書にもなるかも知れない超大作(!?)ですので、データサイエンスの社会実装のリアルな空気を吸ってみたい方は、ぜひ覗いてみてください。読んだらきっと、私たちのデータの沼にハマりたくなるはずです(笑)。
最先端のAI技術を単なるおもちゃとして使うのではなく、泥臭い現場の課題と掛け合わせて事業全体を最適化していく。そしてその成果を実務だけでなく、アカデミアの世界にもぶつけていく。データと現場、そしてサイエンスが交差するこの最高に面白い舞台で、僕たちと一緒にリアルな舞台でハックしてくれる挑戦者をお待ちしています!
