VB.NETで正規表現を使用してURL文字列を取得する方法について

2023/08/03 19:35

このQ&Aのポイント

VB.NETでhtmlソース内のURLを抽出して保存する方法について教えてください。
現在、VB.NETでhtmlソース内に複数のURLがある場合、最初のURLの1文字目から最後のURLの末尾までを一度に取得してしまう問題があります。
URLの文字列は'http://'で始まり'.jpg'で終わっている場合もあり、クリッカブルリンクになっていないURLも取得したいです。一つずつURLを取得する方法や一度に配列に読み込む方法について教えてください。

ベストアンサー

ＶＢ．ＮＥＴで正規表現を教えてください。ＵＲＬ文字を取得

2007/06/29 00:52

ＶＢ．ＮＥＴなのですが、 htmlソースを変数に入れて、その中からＵＲＬを抽出して、１つずつ保存していくという動作をさせたいのですが、どうしてもＵＲＬを一つずつ取得することができません。 Dim r As Regex Dim m As Match Dim JpgFile As String r = New Regex("http://.+\.jpg") m = r.Match(html) If m.Success = False Then 　 Else JpgFile = m.Value ここで１つずつ保存 End If 現在、ここまで出来たのですが、これだと、変数html内に複数のjpgのＵＲＬがあると最初のＵＲＬの１文字目から、最後のＵＲＬの末尾までを一度に取得してしまいます。ＵＲＬの文字列はhttp://で始まっていて、終わりは・・・.jpg" になっていたり、"がなかったりします。 >で閉じる前に同じタグ内にWidthなどサイズを指定している場合もあります。また、上記のようにタグ内に書かれていなくて、クリッカブルリンクになっていないＵＲＬの場合もありそれも取得したいです。一つずつ取得する方法や一度に配列に読み込む方法などがありましたら、ご教示頂けると助かります。よろしくお願い致します。

popopompom
お礼率43% (75/173)

Visual Basic
回答数1
ありがとう数1

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

sakusaker7
ベストアンサー率62% (800/1280)

2007/06/29 03:27 回答No.1

> ＵＲＬの文字列はhttp://で始まっていて、終わりは・・・.jpg" この条件だけ満たすなら、 New Regex("http://.+\.jpg") 正規表現の繰り返し指定(*とか+など)はできるだけ長いマッチをとろうとします。このため、.+ が複数のURLを食ってしまっているというわけです。 #085　正規表現の落とし穴 http://www.ne.jp/asahi/futohen/sankaku/h085.htm 今回の場合とりあえず正規表現を "http://.+?\.jpg" にすればいいです。量指定子 http://msdn2.microsoft.com/ja-jp/library/3206d374(vs.80,d=toc).aspx htmlテキスト丸ごと与えて、その中からすべて取り出したいのなら Regex.Matchesメソッドを使えば一発でできます。一つずつ処理するならイテレータを、一度に配列に取り出したいのなら CopyToメソッドを使えばいいでしょう。 Regex.Matches メソッド (String) (System.Text.RegularExpressions) http://msdn2.microsoft.com/ja-jp/library/e7sf90t3(VS.80).aspx

質問者

お礼 2007/06/29 05:24

大変よくわかりました。詳しいご回答ありがとうございました。助かりました。勉強になります。

関連するQ&A

VB.NETの正規表現の書き方を教えてください
いつもお世話になっております。また正規表現がわからなくなってしまったのですが、お助け願えないでしょうか。 Strの中にはこのようなものが入っています。 Str="あいうえお=====かきくけこ=====さしすせそたちつてと=====まみむめも=====なにぬねの" Dim r As Regex Dim m As Match Dim StrR As String r = New Regex("=====.+=====") m = r.Match(Str) While m.Success StrR = m.Value m = m.NextMatch() End While 順番に StrR="=====かきくけこ=====" StrR="=====まみむめも=====" を取得したいのですが、上記のような書き方だと、 StrR=====かきくけこ=====さしすせそたちつてと=====まみむめも=====" を取得してしまいます。回数の指定など色々試してはみたのですが、どうしても目的のとおりにすることができず困っておりまして、書き方をご教示頂きたくよろしくお願い致します。
- ベストアンサー
- Visual Basic
VB.NETの正規表現の書き方を教えてください。
下のような改行を含む文字列から、1や2を指定してデータ1、データ2を取得したいです。決まった文字列（変更のない）はNAMEのみで、取得したい文字列ですが、例えば2を指定した場合は具体的には NAME=b12345 A=b12345 B=b98765 C=bXYZ このような内容を取得したいです。 -------------------------------------- abcde aiueokakikukeko ここに改行を含むいろな文字列がある場合とない場合があります。 asdfghj NAME=a12345 A=a12345 B=a98765 C=aXYZ ここに改行を含むいろな文字列がある場合とない場合があります。 NAME=b12345 A=b12345 B=b98765 C=bXYZ ここに改行を含むいろな文字列がある場合とない場合があります。 NAME=c12345 A=c12345 B=c98765 C=cXYZ ここに改行を含むいろな文字列がある場合とない場合があります。 -------------------------------------- 正規表現の部分は現在はこのように書いてあります。 Dim i As Integer = 2 Dim reg As Regex Dim m As Match Dim Target As String reg = New Regex("", RegexOptions.Compiled Or RegexOptions.Multiline) m = reg.Match(Data) If m.Success = True Then Target = reg.Match(Data).Result("${Target}") End If Console.WriteLine(Target) 数量の指定をすれば何とかなりそうだと思ったのですが、試行錯誤しても思うように取り出すことが出来ず申し訳ないのですが、適切な書き方をご教示頂ければ幸いです。
- ベストアンサー
- Visual Basic
VB.NETの正規表現の検索を教えてください。
VB.NETの正規表現で文章中（HTMLソース）から番号を抜き取りたいのですが、先頭の１つだけしか見つけられません。 htmlソース内に番号：10000 番号：20000 番号：30000 番号：40000 という文字があるので、その後半の10000や20000を取得したいです。下記のコードで実行すると、10000が４つ出力されてしまいます。良い方法をご教示頂きたいです。よろしくお願いいたします。 Dim pagedata As String　　<---htmlソース Dim reg As Regex reg = New Regex("番号：(?<datano>.+)", RegexOptions.Compiled) Dim DataNo As String m = reg.Match(pagedata) While m.Success = True DataNo = reg.Match(pagedata).Result("${datano}") m = m.NextMatch() Console.WriteLine(DataNo) End While
- ベストアンサー
- Visual Basic
VB.NETの正規表現を教えてください
ＶＢ．ＮＥＴの正規表現でＵＲＬから特定の部分だけを抜き取りたいのですが、どのようにしたら良いでしょうか。下記のコードはＭＳＤＮのページで見つけたのですが、 Dim url as string="http://www.contoso.com:8080/letters/readme.html" Dim r As New Regex("^(?<proto>\w+)://[^/]+?(?<port>:\d+)?/",RegexOptions.Compiled) dim a as String a = r.Match(url).Result("${proto}${port}") とすると、aにhttp::8080　が入るというものなのですが、これを少し変更して url = "http://www.yahoo.co.jp/~user123456/ABCDEFG/data/text" というＵＲＬだった場合にa=ABCDEFGを取得したいです。 ABCDEFGの前後は固定なので、正規表現の中にこの部分も明示して置きたいです。 IsMatchで "http://www.yahoo.co.jp/~user123456/.+/data/text" 書けばTrueが返ることまでは出来たのですが、 ABCDEFGの部分を取得する方法がわからないので、恐れ入りますが方法を教えて頂きたいです。よろしくお願い致します。
- ベストアンサー
- Visual Basic
VB.NETの正規表現をVBAで記述するには
VB2010.NETのコードをExcel2010のVBAのコードに置き換える作業をしていますが、List1のようにVB.NETのコードには、Inports System.Text.RegularExpressions で.NET正規表現パッケージが使われて、この部分をVBAではどのように記述すればよいのでしょうか。自分なりにList2のようにしてみましたが、Dim M As MatchのMatchの部分で「ユーザ定義型は定義されていません」というコンパイルエラーが発生します。参照設定にはSystem.Text.RegularExpressionsが見当たりませんが何を指定すればよいのでしょうか。 Microsoft VBScript Regular Expressions 5.5のRegExpオブジェクトでは後読みができないので大変困っています。よろしくお願いします。(Windows7) ---List1:VB.NET(正常)--------------- Option Explicit On Option Strict On Imports System.Text.RegularExpressions Module Module1 　Sub Main() 　　Dim SampleText As String = "今日は西暦2014年6月20日です" 　　Dim M As Match = Regex.Match(SampleText, "(?<=西暦)\d+") 　　If Not M.Success Then 　　　Console.WriteLine("no match") 　　Else 　　　Dim MatchedText As String = M.Value 　　　Dim MatchedFrom As Integer = M.Index 　　　Dim MatchedLen As Integer = M.Length 　　　MsgBox("matched [" & MatchedText & "]" & _ 　　　　　　　" from char#" & MatchedFrom.ToString() & _ 　　　　　　　" for " & MatchedLen.ToString() & " chars.") 　　End If 　End Sub End Module ---List2:VBA(このコードではエラーになる)----- Option Explicit Sub test() 　Dim SampleText As String 　Dim M As Match 　Dim R As New Regex 　Dim MatchedText As String 　Dim MatchedFrom As Integer 　Dim MatchedLen As Integer 　SampleText = "今日は西暦2014年6月20日です" 　R = Regex("(?<=西暦)\d+") 　M = R.Match(SampleText) 　If Not M.Success Then 　　MsgBox ("no match") 　Else 　　MatchedText = M.Value 　　MatchedFrom = M.Index 　　MatchedLen = M.Length 　　MsgBox("matched [" & MatchedText & "]" & _ 　　　　　　" from char#" & MatchedFrom.ToString() & _ 　　　　　　" for " & MatchedLen.ToString() & " chars.") 　End If End Sub ------------------------------------------
- ベストアンサー
- Excel（エクセル）
VB2005のRegexで全角文字のマッチ
VB2005のRegexで、インターネットのソースコードを取得し”次の10件"というキーワードの位置を取得しようとしていますが、どうもソースコードの時点で、全角文字(2バイト文字)が認識されていないようです。どうすれば、マッチできるでしょうか？教えてください。仮に、下記のルーチンに、Debug.Print(inputString)を入れて表示させてみると、全角の表示がされていません。よろしくお願いいたします。 Sub DumpHrefs(ByVal inputString As String) Dim r1 As Regex Dim m1 As Match r1 = New Regex("次の10件≫") m1 = r1.Match(inputString) While m1.Success Debug.WriteLine("次の10件" & " at " & m1.Groups(1).Index.ToString()) 　m1 = m1.NextMatch() 　End While End Sub
- 締切済み
- Visual Basic
正規表現で指定したＵＲＬに飛びたいのですが・・・・
お世話になっております。ＶＢ2005ユーザーです。こちらで回答をいただくみなさんには頭が下がる思いでいっぱいです。もう少々、お力をお貸しいただけませんか。宜しくお願いいたします。当方、環境はＶＢ2005です。 WebBrowserにて、ＨＴＭＬを操作していくプログラムに挑戦しています。ある特定の文字列のリンクに飛ぶには、正規表現を使用し、ＵＲＬを抽出するというところまでわかったのですが、この正規表現の部分をwindowsフォーム内のテキストボックスの文字列にするにはどのようにしたらよいでしょうか？以下は当方がチャレンジしましたが、無理だったパターンです。 Dim r As Regex = New Regex( _ "<a\s+[^>]*href\s*=\s*(?:""(?<1>[^""]*)""|(?<1>[^\s>]+))[^>]*\s*.*" + TextBox1.text, _ RegexOptions.IgnoreCase Or RegexOptions.Compiled) Dim m As Match = r.Match(.Document.Body.InnerHtml) Dim St As String = m.Groups(1).Value '拾ってきたコード .Navigate(St) ・・・というようにしました。上記の「+ TextBox1.text」の部分にテキストボックス内の文字列を挿入したいのです。「+ TextBox1.text」の箇所を「TextBox1.text"」とすれば「TextBox1.text」自体を探してしまいますし・・・。ちょっと行き詰ってしまいまして。ご教授いただければ幸いでございます。宜しくお願いいたします！！
- ベストアンサー
- Visual Basic
.NET のスマートな正規表現の記述の仕方
VB8 (2005)で、正規表現の書き方ですが、抽出する場合は、以下のようにしましたが、抽出せず、単にマッチしたかとうが If文で判別する方法が知りたいです。 Imports System.Text.RegularExpressions '正規表現 Dim dat As String = "TEST 01" Dim ptn As String 'パターン Dim r As Regex ' Dim dv As String '部分 '抽出 ptn = "^TEST ([0-9]+)$" r = New Regex(ptn, RegexOptions.IgnoreCase) For Each m As Match In r.Matches(dat) dv = m.Groups(1).Value() MsgBox("抽出=[" & dv & "]") Next あと、上のようにFor文で回していますが、Globalでなく、今回は1つだけの抽出で、しかも１つだけの（）なので、これをFor文を使わずに直接取得する書き方はあるのでしょうか？それ以前に、.NETの正規表現の書き方が一般的でなければ、ご指導お願い致します。
- ベストアンサー
- Visual Basic
正規表現で の行を除外したいです。 VB.NET
VB.NETで正規表現を使って２つの文字列に囲まれた部分を取得したいのですが、文字列の先頭と末尾の部分の の行と空行を削除したいです。具体的には対象の文字列が ”ＡＢＣ あいうえお かきくけこ さしすせそ ＸＹＺ” となっていた場合に ”あいうえお かきくけこ さしすせそ” を取得したいです。現在このようになっています。 Public STR As String Sub Form1_Load Dim sr As New System.IO.StreamReader("c:\0.html", system.Text.Encoding.Default) STR = sr.ReadToEnd TextBox2.Text = "(?<data>.+?)" End Sub Sub Button1_Click 　Dim A As String = "ＡＢＣ" 　Dim Z As String = "ＸＹＺ" 　Label1.Text = A & TextBox2.Text & Z 　Dim r As New Regex(Label1.Text, RegexOptions.Singleline) 　Dim m As System.Text.RegularExpressions.Match 　Try 　TextBox1.Text = r.Match(STR).Result("${data}") 　Catch ex As Exception 　Console.WriteLine("Error") 　End Try End Sub が や などにも対応したりと条件がいろいろありすぎて色々試したのですが、どうしても分かりませんでした。申し訳ございませんが、お助け頂ければ幸いです。
- ベストアンサー
- Visual Basic
preg_match と正規表現で URL抽出
HTMLのデータが入っている変数 $data から、一番初めにでてきた<img>タグに囲まれるＵＲＬと、そこに<a>タグがある場合はそのリンク先のＵＲＬを取得させたいのですが、もし<a>のない場合のケースでどう条件付ければよいかわからず、困っています。 <? $data = "<html><head></head><body>こんにちは、元気ですか？ <a href=\"http://www.hoge.co.jp\"><img=\"http://www.hoge.co.jp/hoge.jpg\"></a> <img=\"http://www.hoge02.co.jp/hoge02.jpg\"> </body></html>"; if (preg_match("#<a href=\"(.+)\"><img=\"(.+)\"></a>#", $txt, $reg)){ $link = $reg[1]; $url = $reg[2]; } echo "URL = {$url} LINK = {$link}"; ?> この場合、一番初めに出てきた hoge.jpg のＵＲＬとＬＩＮＫ両方取得してくれますが、もし hoge02.jpg　が先に来た場合、そのＵＲＬを取得させるようにしたいのですが可能でしょうか？もし何かご存知の方おられましたらどうぞよろしくお願いいたします。
- ベストアンサー
- PHP

VB.NETで正規表現を使用してURL文字列を取得する方法について

ＶＢ．ＮＥＴで正規表現を教えてください。ＵＲＬ文字を取得

質問者が選んだベストアンサー

お礼 2007/06/29 05:24

関連するQ&A

注目のQ&A

カテゴリ
一覧

専門家に質問してみよう
専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

VB.NETで正規表現を使用してURL文字列を取得する方法について

ＶＢ．ＮＥＴで正規表現を教えてください。ＵＲＬ文字を取得

質問者が選んだベストアンサー

お礼 2007/06/29 05:24

関連するQ&A

注目のQ&A

カテゴリ 一覧

専門家に質問してみよう 専門家登録

あなたにピッタリな商品が見つかる！ OKWAVEセレクト

カテゴリ
一覧

専門家に質問してみよう
専門家登録