从字符串中提取不同语言的子字符串
问题描述:
我有一个字符串,其中包含我解析的RSS项目的描述。 这个字符串包含描述(希伯来语),一个图片URL和其他一些我不需要的字符。从字符串中提取不同语言的子字符串
我正在寻找一种方法将描述和URL抽取为2个新字符串。
就URL而言,我找到了一个适合我的解决方案。 然而,由于母公司中说明部分的位置和长度未知,我有点坚持与...
**的想法,我已经和试图找出如何正确代码:
String parent;
for (int i = 0; i < parent.length; i++) {
char currentChar = parent.charAt(i);
// check if the Char is in Hebrew and remove any other Char
}
但是这种想法是有问题的,因为 ,除了希伯来语, 我还需要保存多语言字符(如数字,句号,逗号,引号等)。
这里是字符串的几个例子: (这部分是希伯来语,所以我道歉,如果无法辨认)
"במשטרה חושדים כי פיודור בייז'ניריי הצליח לרצוח ולאנוס ללא חשדות נגדו<p><img src=\"http:\/\/images.nana10.co.il\/upload\/mediastock\/img\/11\/0\/258\/258180.jpg\" alt=\"\" title=\"\"\/><\/p>
<p style=\"direction:rtl; clear:both\">\t\t\t <a href=\"http:\/\/news.walla.co.il\/item\/2956715\"> <img hspace=5 border=0 align=\"right\" src=\"http:\/\/msc.wcdn.co.il\/archive\/2132766-18.jpg\" \/> <\/a> <BR> \n\t\t\tלוחמי משמר הגבול מצאו במהלך סיור באחת משכונות מזרח ירושלים כלב פצוע שעורר את חשדם. הם פינו את הכלב לטיפול במרפאה וטרינרית שם התברר כי הוא נגנב למטרת שימוש בקרבות כלבים. בעלי הכלב: \"אנחנו עדיין לא מעכלים שהוא חזר אלינו\"<\/p>
"הערב בחדשות: גילויים חדשים סביב מעצרו של מי שבמשטרה מכנים \"הרוצח הסדרתי\"; במרחק נגיעה מחיזבאללה - כתבנו במוצב הרגיש בצפון; ניצחונות סוחפים לטראמפ וקלינטון; בניגוד לחוק: בתי אבות מסרבים לקבל אליהם נשא של נגיף ה- HIV ; חשופים בדרכים: פרצת אבטחה מאפשרת לעקוב אחריכם כשאתם נוהגים עם וויז. כיצד מתגוננים?<p><img src='http:\/\/img.mako.co.il\/2016\/04\/28\/638671_A.jpg'\/><\/p>
גרושתו של פיודור בייז'נרי: \"ישנו באותה מיטה, הוא לא עשה את זה\"