AMcoder - javascript, python, java, html, php, sql

Ձախ արտաքին Join Pandas Data Frame-ը պարունակում է

Ես ունեմ երկու Pandas Data Frames df1 և df2: Ես ուզում եմ, որ df1-ը միացվի df2-ին՝ օգտագործելով ձախ արտաքին միացում, բայց a պարունակում է այնպիսի ֆունկցիա, ինչպիսին է «df2.Partial_key»-ը «df2.Full_Key»-ում:

Select df1.data_id1, df1.Full_Key, df1.text_field
, df2.data_id2, df2.text_field
from df1
LEFT OUTER JOIN df2 on "df1.Full_Key contains df2.Partial_key"

Կա՞ արդյոք դա անել առանց օղակների: Տրված է

df1 = pd.DataFrame.from_items([('data_id1' , ['bzx_0001','bzx_0002','bzx_0003','bzx_0004'])
, ('Full_Key_1',['AAAA-BBBB-20150101-NS237890', 'BBBB-CCCC-21050101-MS18546', 'CCCC-CCCC-20150101-MS34567', 'CCCC-CCCC-20150101-MS34568'])
, ('text_field',['aaaaa', 'bbbbb', 'cccccc', 'ddddd'])])

df2 = pd.DataFrame.from_items([('data_id2',['dm_0001', 'dm_0002', 'dm_0003', 'dm_0004'])
,('Partial_key',['AAAA-BBBB-20150101-', 'AAAA-BBBB-20150101-', 'BBBB-CCCC-21050101-', 'XXXX-XXXX-20150101-'])
])

DataFrame-ը սպասվում է միանալուց հետո՝

df_exp_res = pd.DataFrame.from_items([
('data_id1', ['bzx_0001', 'bzx_0001', 'bzx_0002', 'bzx_0003', 'bzx_0004'])
,('Full_Key_1',['AAAA-BBBB-20151005-NS237890', 'AAAA-BBBB-20151005-NS237890', 'BBBB-CCCC-21050101-MS18546', 'CCCC-CCCC-20150101-MS34567', 'CCCC-CCCC-20150101-MS34568'])
,('text_field',['aaaaa', 'aaaaa', 'bbbbb', 'cccccc', 'ddddd'])
,('data_id2', ['dm_0001', 'dm_0002', 'dm_0003', np.nan, np.nan])
,('Partial_key',['AAAA-BBBB-20151005-', 'AAAA-BBBB-20151005-', 'BBBB-CCCC-21050101-', np.nan, np.nan])
])

Իմ լուծումը, օգտագործելով օղակների համար.

s = [['data_id1' , 'Full_Key_1', 'text_field', 'Partial_key', 'data_id2']]
for indx1, row1 in df1.iterrows():
    fnd = False
    for indx2, row2 in df2.iterrows():
        if row2['Partial_key'].strip() in row1['Full_Key_1'].strip():
            s.append([row1['data_id1'],row1['Full_Key_1'], \
            row1['text_field'], row2['Partial_key'], \
            row2['data_id2']])
            fnd = True
        else:
            pass
    else:
        if not fnd:
            s.append([row1['data_id1'],row1['Full_Key_1'], \
            row1['text_field'], np.nan, np.nan])

pd_result_calc = pd.DataFrame(s[1:],columns=s[0])
print df1
print df2
print pd_result_calc
14.01.2016

  • Արդյո՞ք Partial_key-երը միշտ կրճատում են Full_keys-ին: և արդյոք դրանք միշտ 19 նիշ են: 14.01.2016
  • Partal_Keys-ը և Full_Keys-ը ֆիքսված երկարություններ չունեն: Քանի դեռ ամբողջ Մասնակի_Բանալին պարունակվում է Full_Key-ում, որը համընկնում է: Բայց այո, Մասնակի_Բանալին միշտ կլինի ձևի Full_Key-ի կրճատում՝ Partial_key = Full_Key[0:some_n] որտեղ 0 ‹ some_n ‹= Len(Full_Key) 14.01.2016

Պատասխանները:


1

խաչաձև միացման հիման վրա. տե՛ս կարտեզյան արտադրանք պանդաների մեջ

df1 = pd.DataFrame.from_items([('data_id1' , ['bzx_0001','bzx_0002','bzx_0003','bzx_0004'])
, ('Full_Key_1',['AAAA-BBBB-20150101-NS237890', 'BBBB-CCCC-21050101-MS18546', 'CCCC-CCCC-20150101-MS34567', 'CCCC-CCCC-20150101-MS34568'])
, ('text_field',['aaaaa', 'bbbbb', 'cccccc', 'ddddd'])])

df2 = pd.DataFrame.from_items([('data_id2',['dm_0001', 'dm_0002', 'dm_0003', 'dm_0004'])
,('Partial_key',['AAAA-BBBB-20150101-', 'AAAA-BBBB-20150101-', 'BBBB-CCCC-21050101-', 'XXXX-XXXX-20150101-'])
])

df1['key'] =1
df2['key'] =1

merged_cross_join = pd.merge(df1, df2,on='key')

# we don't need this helper column 'key' any longer
merged_cross_join.drop('key', axis=1, inplace=True)
df1.drop('key', axis=1, inplace=True)

contains_criteria = merged_cross_join[['Full_Key_1','Partial_key']].apply(lambda x: x['Partial_key'] in x['Full_Key_1'],axis=1)
print merged_cross_join[contains_criteria]

Որն արտադրում է.

   data_id1                   Full_Key_1 text_field  key data_id2          Partial_key
0  bzx_0001  AAAA-BBBB-20150101-NS237890      aaaaa    1  dm_0001  AAAA-BBBB-20150101-
1  bzx_0001  AAAA-BBBB-20150101-NS237890      aaaaa    1  dm_0002  AAAA-BBBB-20150101-
6  bzx_0002   BBBB-CCCC-21050101-MS18546      bbbbb    1  dm_0003  BBBB-CCCC-21050101-

և այնուհետև, քանի որ դուք ցանկանում եք նման «ձախ արտաքին միացում», մենք չենք ցանկանում որևէ մեկին կորցնել df1-ից

not_matched_in_df1 = set(df1['data_id1']) - set(merged_cross_join['data_id1'])
final = pd.concat([merged_cross_join,df1[df1['data_id1'].isin(not_matched_in_df1)]],axis=0)

կամ որպես այլընտրանք

merged_cross_join.combine_first(df1)

որը արտադրում է

   data_id1                   Full_Key_1 text_field data_id2          Partial_key
0  bzx_0001  AAAA-BBBB-20151005-NS237890      aaaaa  dm_0001  AAAA-BBBB-20151005-
1  bzx_0001  AAAA-BBBB-20151005-NS237890      aaaaa  dm_0002  AAAA-BBBB-20151005-
2  bzx_0002   BBBB-CCCC-21050101-MS18546      bbbbb  dm_0003  BBBB-CCCC-21050101-
3  bzx_0003   CCCC-CCCC-20150101-MS34567     cccccc      NaN                  NaN
4  bzx_0004   CCCC-CCCC-20150101-MS34568      ddddd      NaN                  NaN
14.01.2016
  • Սա գցում է ձախ արտաքին միացման հատվածը, որտեղ df1.Full_Keys-ը համընկնում չի գտնվել: 14.01.2016
  • Նոր նյութեր

    Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար
    JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

    Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար
    Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

    Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում
    Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

    Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:
    Այն պահից ի վեր, երբ ես իմացա Արհեստական ​​ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

    Ինչպես սովորել կոդավորումը Python-ում վագրի պես:
    Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

    C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը
    C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

    Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար
    Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..